{"id":65354,"date":"2025-06-18T07:00:00","date_gmt":"2025-06-18T05:00:00","guid":{"rendered":"https:\/\/www.herr-rau.de\/wordpress\/?p=65354"},"modified":"2025-06-18T07:02:54","modified_gmt":"2025-06-18T05:02:54","slug":"llm-grundlagen-teil-7-rueckblick-und-zusammenfassung","status":"publish","type":"post","link":"https:\/\/www.herr-rau.de\/wordpress\/2025\/06\/llm-grundlagen-teil-7-rueckblick-und-zusammenfassung.htm","title":{"rendered":"LLM Grundlagen, Teil 7 und Ende: R\u00fcckblick und Zusammenfassung"},"content":{"rendered":"<div style='text-align:right;'><small>(<a href='https:\/\/www.herr-rau.de\/wordpress\/2025\/06\/llm-grundlagen-teil-7-rueckblick-und-zusammenfassung.htm#comments'>12 Kommentare.<\/a>)<\/small> <\/div>\n<p><em><a href=\"https:\/\/www.herr-rau.de\/wordpress\/2025\/06\/llm-grundlagen-teil-6-das-herz-der-aufmerksamkeit.htm\">Fortsetzung von hier.<\/a> Ein R\u00fcckblick.<\/em><\/p>\n\n\n\n<h2 class=\"wp-block-heading\">1. Links zu den vergangen Eintr\u00e4gen<\/h2>\n\n\n\n<ul class=\"wp-block-list\">\n<li><a href=\"https:\/\/www.herr-rau.de\/wordpress\/2025\/05\/llm-grundlagen-teil-1-ueber-n-gramme.htm\">Teil 1: N-Gramme<\/a><\/li>\n\n\n\n<li><a href=\"https:\/\/www.herr-rau.de\/wordpress\/2025\/05\/llm-grundlagen-teil-2-ueber-token.htm\">Teil 2: Token<\/a><\/li>\n\n\n\n<li><a href=\"https:\/\/www.herr-rau.de\/wordpress\/2025\/06\/llm-grundlagen-teil-3-ueber-embedding.htm\">Teil 3: Embedding<\/a><\/li>\n\n\n\n<li><a href=\"https:\/\/www.herr-rau.de\/wordpress\/2025\/06\/llm-grundlagen-teil-4-ueberblick.htm\">Teil 4: \u00dcberblick mit Black Boxen<\/a><\/li>\n\n\n\n<li><a href=\"https:\/\/www.herr-rau.de\/wordpress\/2025\/06\/llm-grundlagen-teil-5-die-vorletzte-black-box-transformer.htm\">Teil 5: Transformer<\/a><\/li>\n\n\n\n<li><a href=\"https:\/\/www.herr-rau.de\/wordpress\/2025\/06\/llm-grundlagen-teil-6-das-herz-der-aufmerksamkeit.htm\">Teil 6: Attention<\/a><\/li>\n\n\n\n<li>Teil 7: R\u00fcckblick<\/li>\n<\/ul>\n\n\n\n<h2 class=\"wp-block-heading\">2. Ziel der Reihe<\/h2>\n\n\n\n<p>Ich wollte herausfinden, wie Texterzeugung in einem LLM funktioniert. Auf dem Weg habe ich f\u00fcr mich tats\u00e4chlich hinreichend beantwortet, wie ein LLM funktioniert. Was ich leider nicht herausgefunden habe und wohl eigentlich wissen wollte: <em>warum<\/em> ein LLM funktioniert.<\/p>\n\n\n\n<p>Wie kommt es, dass ein LLM das kann, was es kann? Die Antwort, die ich immer lese, lautet: Scale &#8211; Skalierung, Gr\u00f6\u00dfenordnung. Ab einer bestimmten Gr\u00f6\u00dfe des LLM und einer bestimmten Gr\u00f6\u00dfe des Trainingskorpus (wir erinnern uns: das \u00c4quivalent zu 100 Millionen B\u00fcchern) funktioniert das einfach. <em>Einfach <\/em>hei\u00dft: nach langem teuren automatischen Training und langem intensiven Training unter menschlicher Anleitung.<\/p>\n\n\n\n<p>Alle weiteren Entwiclungen sind f\u00fcr mich nicht mehr so interessant. Da geht es darum, LLMs noch besser zu machen, oder wenigstens sparsamer, oder auf andere Aufgaben anzuwenden. Das ist wie mit dem Verbrennermotor: Da interessiert mich auch allenfalls das Prinzip und weniger die Entwicklungen der letzten hundert Jahre. Ich k\u00f6nnte auch keinen bauen und habe nur eine ungef\u00e4hre Vorstellung vom Funktionieren, und so geht es mir jetzt mit LLM.<\/p>\n\n\n\n<h2 class=\"wp-block-heading\">3. Zusammenfassung<\/h2>\n\n\n\n<ol class=\"wp-block-list\">\n<li>Ein LLM wird mit dem \u00c4quivalent von 100 Millionen B\u00fcchern an Text trainiert. Das Training geschieht erst automatisch, dann durch menschliches Feedback.<\/li>\n\n\n\n<li>Ein LLM besteht aus 120 Decoder-Schichten.<\/li>\n\n\n\n<li>Am Anfang wird ein Eingangstext in Token zerlegt, und zwar maxinmal 8.000 bis 128.000 Token.<\/li>\n\n\n\n<li>Jedes Token wird in einen 10.000-dimensionalen Raum eingebettet, erh\u00e4lt also ein Embedding bestehend 10.000 Zahlen.<\/li>\n\n\n\n<li>In jeder Decoder-Schicht wird jeder Eingangsvektor in beliebiger Reihenfolge verarbeitet. <\/li>\n\n\n\n<li>Bei der Verarbeitung werden die 7.999 Nachbartoken ebenfalls ber\u00fccksichtigt. Wie sehr und wie, das entscheiden der Q- und der V-Vektor des aktuellen Tokens und die 7.999 K-Vektoren der Nachbartoken zusammen. Die werden anhand trainierter Tabellen ausgerechnet. Das ist das eigentliche Kern der Sache.<\/li>\n\n\n\n<li>Bei dieser Verarbeitung steht ein Neuronales Netz an letzter Stelle.<\/li>\n\n\n\n<li>Nach der Verarbeitung entsteht wieder f\u00fcr jedes der 8.000 Token ein neuer Vektor der gleichen Gr\u00f6\u00dfe.<\/li>\n\n\n\n<li>Die Schritte 5 bis 8 wiederholen sich je Decoder-Schicht.<\/li>\n\n\n\n<li>Das letzte Embedding des letzten Token wird in ein Neuronales Netz eingegeben, das 100.000 Ausgangsneuronen hat: f\u00fcr jedes Token im Wortschatz eines. Deren Werte hei\u00dfen Logits.<\/li>\n\n\n\n<li>Die Logits werden mit Softmax (normalisierte Exponentialfunktion) normalisiert, so dass man 100.000 Werte zwischen 0 und 1 hat, die f\u00fcr jedes Token im Wortschatz eine Wahrscheinlichkeit angeben.<\/li>\n\n\n\n<li>Ein Algorithmus w\u00e4hlt aus diesen Werten ein Token aus, das das n\u00e4chste generierte Token bildet.<\/li>\n\n\n\n<li>Der Prozess beginnt von vorn.<\/li>\n<\/ol>\n\n\n\n<p>Die Zahlen sind gerundet und gesch\u00e4tzt und gehen je nach Modell auch mal um den Faktoren zehn oder mehr nach unten, sind aktuell aber an der Obergrenze.<\/p>\n\n\n\n<h2 class=\"wp-block-heading\">4. Erfahrungen beim Schreiben<\/h2>\n\n\n\n<p>Das war lustig. Ich hatte gedanklich immer nur einen oder eineinhalb Blogeintr\u00e4ge gedanklichen Vorsprung beim Schreiben, das hei\u00dft, ich wusste nach den ersten beiden noch nicht wirklich, was im vierten stehen w\u00fcrde, und im dritten waren mir Sachen unklar, die ich hoffte, beim f\u00fcnften vielleicht verstehen zu w\u00fcrden. Aber den Vorsprung hielt ich auch, ich l\u00f6schte jedesmal ein paar offene Tabs aus dem Browser, weil ich Seiten jetzt durchgearbeitet und verstanden hatte, die ich zuvor als: &#8222;Da scheint das erkl\u00e4rt zu werden, aber ich verstehe kein Wort&#8220; reserviert hatte. Daf\u00fcr kamen immer wieder neue Tabs dazu.<\/p>\n\n\n\n<p><em>Jetzt<\/em> k\u00f6nnte ich das vermutlich auch in <em>einem<\/em> Blogeintrag erkl\u00e4ren. Aber vorher w\u00e4re das halt nicht gegangen. Ich h\u00e4tte nat\u00fcrlich auch ein Buch lesen k\u00f6nnen. Da gibt es sicher auch etwas f\u00fcr Dummies; ich bin ja kein Mathematiker, insbesondere bin ich die kompakte mathematische Formulierung nicht gewohnt und muss mir alles immer erst veranschaulichen.<\/p>\n\n\n\n<p>(Es ist doch alles zu technisch geworden, nicht wahr? Aber schon viel weniger technisch als die echt technischen Artikel, wirklich. Ab jetzt dann wieder Alltagscontent.)<\/p>\n\n\n\n<p><\/p>\n","protected":false},"excerpt":{"rendered":"<p>(12 Kommentare.) Fortsetzung von hier. Ein R\u00fcckblick. 1. Links zu den vergangen Eintr\u00e4gen 2. Ziel der Reihe Ich wollte herausfinden, wie Texterzeugung in einem LLM funktioniert. Auf dem Weg habe ich f\u00fcr mich tats\u00e4chlich hinreichend beantwortet, wie ein LLM funktioniert. Was ich leider nicht herausgefunden habe und wohl eigentlich wissen wollte: warum ein LLM funktioniert. [&hellip;]<\/p>\n","protected":false},"author":2,"featured_media":0,"comment_status":"open","ping_status":"open","sticky":false,"template":"","format":"standard","meta":{"_jetpack_memberships_contains_paid_content":false,"footnotes":""},"categories":[25],"tags":[227,254],"class_list":["post-65354","post","type-post","status-publish","format-standard","hentry","category-informatik","tag-informatik","tag-ki"],"jetpack_featured_media_url":"","jetpack_sharing_enabled":true,"jetpack_likes_enabled":true,"_links":{"self":[{"href":"https:\/\/www.herr-rau.de\/wordpress\/wp-json\/wp\/v2\/posts\/65354","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/www.herr-rau.de\/wordpress\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/www.herr-rau.de\/wordpress\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/www.herr-rau.de\/wordpress\/wp-json\/wp\/v2\/users\/2"}],"replies":[{"embeddable":true,"href":"https:\/\/www.herr-rau.de\/wordpress\/wp-json\/wp\/v2\/comments?post=65354"}],"version-history":[{"count":3,"href":"https:\/\/www.herr-rau.de\/wordpress\/wp-json\/wp\/v2\/posts\/65354\/revisions"}],"predecessor-version":[{"id":65640,"href":"https:\/\/www.herr-rau.de\/wordpress\/wp-json\/wp\/v2\/posts\/65354\/revisions\/65640"}],"wp:attachment":[{"href":"https:\/\/www.herr-rau.de\/wordpress\/wp-json\/wp\/v2\/media?parent=65354"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/www.herr-rau.de\/wordpress\/wp-json\/wp\/v2\/categories?post=65354"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/www.herr-rau.de\/wordpress\/wp-json\/wp\/v2\/tags?post=65354"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}