{"id":64862,"date":"2025-06-13T12:28:15","date_gmt":"2025-06-13T10:28:15","guid":{"rendered":"https:\/\/www.herr-rau.de\/wordpress\/?p=64862"},"modified":"2025-06-20T09:19:17","modified_gmt":"2025-06-20T07:19:17","slug":"llm-grundlagen-teil-4-ueberblick","status":"publish","type":"post","link":"https:\/\/www.herr-rau.de\/wordpress\/2025\/06\/llm-grundlagen-teil-4-ueberblick.htm","title":{"rendered":"LLM Grundlagen, Teil 4: \u00dcberblick"},"content":{"rendered":"\n<p><em><a href=\"https:\/\/www.herr-rau.de\/wordpress\/2025\/06\/llm-grundlagen-teil-3-ueber-embedding.htm\">Fortsetzung von hier.<\/a> Ein leichteres Kapitel als das vorherige, in dem dennoch neue W\u00f6rter eingef\u00fchrt werden, mit deren Hilfe sich der Autor vor den richtig schwierigen Sachen durch geschickte Gaukelei zu dr\u00fccken versucht. Die schw\u00e4rzeste aller Boxen bleibt unge\u00f6ffnet. Daf\u00fcr wird es das n\u00e4chste Mal dann sehr technisch.<\/em><\/p>\n\n\n\n<p>Wir wissen aus den letzten Teilen, was N-Gramme und Token sind, wir wissen, was ein Embedding ist. Was Neuronale Netze sind, wissen wir wohl auch; die stecken n\u00e4mlich \u00fcberall in den LLM drin. Jetzt n\u00e4hern wir uns den fieseren Sachen.<\/p>\n\n\n\n<h2 class=\"wp-block-heading\">1. Allgemeines Vorgehen beim Erzeugen eines LLM<\/h2>\n\n\n\n<p>Die allgemeinen Schritte beim Erzeugen eines LLM sind folgende:<\/p>\n\n\n\n<ol class=\"wp-block-list\">\n<li>Daten sammeln und aufbereiten.<\/li>\n\n\n\n<li>LLM-Architektur anlegen: Wie sieht das \u00fcberhaupt aus &#8211; Eingangsschicht, Ausgangschicht, Encoder-Decoder-Transformer?<\/li>\n\n\n\n<li>LLM trainieren, in mehreren Phasen:\n<ol class=\"wp-block-list\">\n<li>Mit gro\u00dfer Datenmenge Voraussagen \u00fcben. Dann ist schon mal ein basales LLM da.<\/li>\n\n\n\n<li>LLM wird erzogen: Finetuning, Reinforcement Learning with Human Feedback.<\/li>\n\n\n\n<li>Chatbot wird f\u00fcr Kunden angepasst<\/li>\n\n\n\n<li>Chatbot nutzt externe Anwendungen, schl\u00e4gt also intern und unbemerkt bei Wolfram Alpha nach.<\/li>\n<\/ol>\n<\/li>\n<\/ol>\n\n\n\n<p>Wenn ein LLM gelernt hat, in gegebenen Texten das jeweils n\u00e4chste, oder auch ein in der Mitte fehlendes, Token vorherzusagen, dann kann man es auch dazu benutzen, neue Texte zu erzeugen. Dann wird das ein Chatbot.<\/p>\n\n\n\n<p>Der interessante Schritt f\u00fcr mich ist 2, auf dem das Training 3.1 aufsetzt. Das geschieht relativ automatisiert. Der Schritt 3.2 ist schon auch wichtig, damit man mit dem Bot \u00fcberhaupt so interagieren kann, wie man es gewohnt ist. Dieser Schritt arbeitet mit kleineren Datenmengen, aber mit viel menschlicher Interaktion. Das sind die vielen vielen unterbezahlten Arbeiter und Arbeiterinnen in Entwickungsl\u00e4ndern, die das LLM erst zu dem machen, was wir kennen: Die Antworten des LLM werden durch Menschen bewertet, worauf sich das System nach und nach an die Bewertung anpasst, wie das Neuronale Netze nun einmal tun.<\/p>\n\n\n\n<p>Schritt 1 ist gesellschaftlich wichtig: Wo kommen diese Daten, zum Beispiel Texte, aber auch Bilder, her? Man nimmt alle Texte der Welt als Input, derer man habhaft werden kann. In allen Sprachen, die man so findet. Mit Tippfehler oder ohne. Privat oder professionell, Programmcode oder Gedicht. Pornografisch oder nicht, gestohlen oder nicht. Instagramdirektnachricht oder Office365-Dokument. Hochgeladene Texte bei Chatbots. Alles, was irgendwie erreichbar ist. Am beste frische Daten, was die Leute auf Instagram oder Facebook oder sonst \u00fcberall halt so schreiben. GPT4 soll auf einer Datenbasis von 13.000.000.000.000 Token trainiert worden sein, das sind etwa 100 Millionen B\u00fccher voll.<\/p>\n\n\n\n<h2 class=\"wp-block-heading\">2. Kontext<\/h2>\n\n\n\n<p>Kontext, das ist das Drumherum. Im Studium wurde gelegentlich, so glaube ich mich zu erinnern zwischen Kotext und Kontext unterschieden: Kotext, dass sind die W\u00f6rter drumherum; zum Kontext geh\u00f6rt die Redesituation und der Ort der Kommunikation und vieles mehr. Der Kontext, um den es in unserem Zusammenhang geht, sind aber immer nur die W\u00f6rter.<\/p>\n\n\n\n<p><em>(Exkurs: &#8222;Glaube ich mich zu erinnern&#8220; &#8211;  das feine B\u00fcchlein <\/em>Lost World<em> aus dem Jahr 2005 &#8211; <a href=\"https:\/\/www.herr-rau.de\/wordpress\/2005\/12\/michael-bywater-lost-worlds.htm\">Blogeintrag<\/a> &#8211; sammelt Dinge, die uns verloren gegangen sind. Dazu geh\u00f6rt auch diese &#8222;glaube ich&#8220;-Floskel, die man 2005 ja einfach im Web durch eine Recherche \u00fcberpr\u00fcfen konnte. M\u00f6glicherweise kommt das wieder, weil man ja nichts mehr findet. Sicherheitshalber habe ich nat\u00fcrlich trotzdem geschaut, ob mich meine Erinnerung da nicht tr\u00fcgt.)<\/em><\/p>\n\n\n\n<p>Bei LLMs ist der <strong>Kontext <\/strong>der vorangegangene Text, der bei der Erzeugung des n\u00e4chsten Textteils mit ber\u00fccksichtigt wird. Je nach System kann der Kontext zum Beispiel 30.000 Token lang sein. Das hei\u00dft, dass auf Grundlage der vorhergehenden 30.000 Token entschieden wird, welches Token als N\u00e4chstes drankommt. L\u00e4nger zur\u00fcck reicht das Ged\u00e4chtnis der Maschine erst einmal nicht. Deshalb kann man sich sehr lange mit einem LLM-Chatbot unterhalten, bevor er den Anfang des Gespr\u00e4chs vergisst. Und bei manchen Modellen ist der Kontext auch noch gr\u00f6\u00dfer.<\/p>\n\n\n\n<p>30.000, das ist aber schon recht viel. Einfache LLM haben einen Kontext der L\u00e4nge 8.192, f\u00fcr mehr Geld kriegt man Zugang zu 32.768 Token Kontext, GPT-4.1 soll 1 Million haben. In den folgenden Grafiken gehe ich immer von einem Kontext der L\u00e4nge 8.000 aus, weil das \u00fcbersichtlicher.<\/p>\n\n\n\n<p>Ich habe allerdings nicht wirklich versucht, ein Gespr\u00e4ch \u00fcber so viele Token zu f\u00fchren und danach nach meiner ersten Frage zu fragen, um zu schauen, ob die noch im Kontext ist oder nicht. K\u00f6nnte man ja mal probieren.<\/p>\n\n\n\n<p>Hier ein Beispiel f\u00fcr Kontextgr\u00f6\u00dfe 9, wobei immer das neu erzeugte Wort dem Kontext hinzugef\u00fcgt wird und das erste Wort aus dem Kontext verschwindet:<\/p>\n\n\n\n<figure class=\"wp-block-image size-full\"><a href=\"https:\/\/www.herr-rau.de\/wordpress\/archiv\/llm_kontext_9_calc.png\"><img loading=\"lazy\" decoding=\"async\" width=\"1400\" height=\"794\" src=\"https:\/\/www.herr-rau.de\/wordpress\/archiv\/llm_kontext_9_calc.png\" alt=\"\" class=\"wp-image-65658\" srcset=\"https:\/\/www.herr-rau.de\/wordpress\/archiv\/llm_kontext_9_calc.png 1400w, https:\/\/www.herr-rau.de\/wordpress\/archiv\/llm_kontext_9_calc-300x170.png 300w, https:\/\/www.herr-rau.de\/wordpress\/archiv\/llm_kontext_9_calc-700x397.png 700w, https:\/\/www.herr-rau.de\/wordpress\/archiv\/llm_kontext_9_calc-150x85.png 150w\" sizes=\"auto, (max-width: 1400px) 100vw, 1400px\" \/><\/a><\/figure>\n\n\n\n<h2 class=\"wp-block-heading\">3. Chunks und RAG<\/h2>\n\n\n\n<p>Weil 8.000 Token leichter verarbeitbar sind als l\u00e4ngere Texte, werden eben jene l\u00e4ngere Texte gerne in <strong>Chunks<\/strong> zerlegt. Das spielt zum Beispiel eine Rolle, wenn man ein LLM als Datenbasis benutzt.<\/p>\n\n\n\n<p>Ein Szenario dazu sieht so aus: Ich lade bei GPT4All oder auch in ByLKI alle Deutsch-Kontaktbriefe der letzten 20 Jahre hoch, oder alle kultusministeriellen Schreiben. Diese Sammlung w\u00fcnsche ich mir dann als Grundlage f\u00fcr Antworten auf meine Fragen, als Wissensdatenbank sozusagen, das Schlagwort dazu hei\u00dft Retrieval-Augmented Generation (RAG). <\/p>\n\n\n\n<p>Die allgemeine Sprachf\u00e4higkeit, wenn man so weit gehen m\u00f6chte, liegt im vortrainierten LLM, die konkreten Inhalte k\u00f6nnen aus den dem LLM bisher unbekannten Dokumenten der Wissensbasis kommen. (Wobei ich davon ausgehe, dass alle erreichbaren Kontaktbriefe und KMS ohnehin in den gro\u00dfen Modellen verwurstet sind, insofern sie ja online zug\u00e4nglich waren.) <\/p>\n\n\n\n<p>So konnen auf Grundlage einer allgemeinen Quasi-Sprachf\u00e4higkeit Fragen zu einer Bestimmten Textgrundlage beantwortet werden. Dazu werden die Texte, die ja vielleicht l\u00e4nger als der Kontext des LLM sind,  in Chunks umgewandelt, die Chunks in Embeddings. Eine Frage an die Datenbank wird ebenfalls embedded und mit den embedded chunks verglichen; der Chunk, dessen semantischer Vektor dem Fragenvektor am n\u00e4chsten kommt, wird als Kontext zusammen mit der urspr\u00fcnglichen Frage an das eigentliche LLM weitergeleitet.<\/p>\n\n\n\n<h2 class=\"wp-block-heading\">4. Alles bis auf das Wichtigste<\/h2>\n\n\n\n<h4 class=\"wp-block-heading\">4.1 Black Box 1<\/h4>\n\n\n\n<p>Es geht ein Chunk Text hinein in das System. Der besteht aus: dem Prompt, den vorangegangenen Prompts, versteckten Trainingsanweisungen, eventuell Material, das sich das LLM aus externen Quellen geholt hat, sowie der angefangenen Teilantwort darauf. Und es kommt 1 Token heraus, n\u00e4mlich das n\u00e4chste. Beim Training geht es darum, dieses n\u00e4chste vorherzusagen, beim Generieren darum, eines zu produzieren. Wenn das Training erfolgreich war, ist die menschliche Nutzerin mit dem generierten Ergebnis zufrieden.<\/p>\n\n\n\n<figure class=\"wp-block-image size-large\"><img loading=\"lazy\" decoding=\"async\" width=\"700\" height=\"237\" src=\"https:\/\/www.herr-rau.de\/wordpress\/archiv\/llm_black_box_1-700x237.png\" alt=\"\" class=\"wp-image-65274\" srcset=\"https:\/\/www.herr-rau.de\/wordpress\/archiv\/llm_black_box_1-700x237.png 700w, https:\/\/www.herr-rau.de\/wordpress\/archiv\/llm_black_box_1-300x101.png 300w, https:\/\/www.herr-rau.de\/wordpress\/archiv\/llm_black_box_1-150x51.png 150w, https:\/\/www.herr-rau.de\/wordpress\/archiv\/llm_black_box_1-1536x519.png 1536w, https:\/\/www.herr-rau.de\/wordpress\/archiv\/llm_black_box_1-2048x692.png 2048w\" sizes=\"auto, (max-width: 700px) 100vw, 700px\" \/><\/figure>\n\n\n\n<p>Nach diesem einen generierten Token wird eben dieses Token zum Eingangstext hinzugef\u00fcgt, und der ganze Durchgang beginnt mit diesem erweiterten Input noch einmal von vorne. Danach wird das zweite generierte Token an den bereits erweiterten Input angef\u00fcgt und bildet zusammen mit diesem den Input f\u00fcr den n\u00e4chsten Zyklus, und das immer so weiter, bis ein Ende-Signal kommt oder eine maximale Tokenzahl erreicht ist.<\/p>\n\n\n\n<figure class=\"wp-block-image size-large\"><a href=\"https:\/\/www.herr-rau.de\/wordpress\/archiv\/llm_black_box_1.5-scaled.png\"><img loading=\"lazy\" decoding=\"async\" width=\"700\" height=\"267\" src=\"https:\/\/www.herr-rau.de\/wordpress\/archiv\/llm_black_box_1.5-700x267.png\" alt=\"\" class=\"wp-image-65298\" srcset=\"https:\/\/www.herr-rau.de\/wordpress\/archiv\/llm_black_box_1.5-700x267.png 700w, https:\/\/www.herr-rau.de\/wordpress\/archiv\/llm_black_box_1.5-300x114.png 300w, https:\/\/www.herr-rau.de\/wordpress\/archiv\/llm_black_box_1.5-150x57.png 150w, https:\/\/www.herr-rau.de\/wordpress\/archiv\/llm_black_box_1.5-1536x586.png 1536w, https:\/\/www.herr-rau.de\/wordpress\/archiv\/llm_black_box_1.5-2048x781.png 2048w\" sizes=\"auto, (max-width: 700px) 100vw, 700px\" \/><\/a><\/figure>\n\n\n\n<p>Dieses wiederholte Wort-f\u00fcr-Wort erzeugen ist in den n\u00e4chsten Grafiken nicht mehr dargestellt.<\/p>\n\n\n\n<h4 class=\"wp-block-heading\">4.2 Black Box 2<\/h4>\n\n\n\n<p>Der Eingangstext wird est einmal in Token aufgeteilt. <a href=\"https:\/\/www.herr-rau.de\/wordpress\/2025\/05\/llm-grundlagen-teil-2-ueber-token.htm\">Siehe Blogeintrag.<\/a><\/p>\n\n\n\n<p>Nat\u00fcrlich geht das Ausw\u00e4hlen des n\u00e4chsten Tokens nicht durch Nachschlagen der Wahrscheinlichkeiten von Bi-, Tri-, 4-, 5- und 40.000-Grammen in einer Tabelle. Es muss also anders gehen, n\u00e4mlich mit einer Architektur aus Neuronalen Netzen. Die haben einer Nachschlagetabelle gegen\u00fcber den gro\u00dfen Vorteil, dass sie darauf trainiert werden k\u00f6nnen, \u00c4hnlichkeiten zu erkennen, und damit eine gr\u00f6\u00dfere Menge von Eingabedaten sinnvoll verwerten k\u00f6nnen. Details stecken in der inneren Black Box.<\/p>\n\n\n\n<figure class=\"wp-block-image size-large\"><img loading=\"lazy\" decoding=\"async\" width=\"700\" height=\"273\" src=\"https:\/\/www.herr-rau.de\/wordpress\/archiv\/llm_black_box_2-700x273.png\" alt=\"\" class=\"wp-image-65277\" srcset=\"https:\/\/www.herr-rau.de\/wordpress\/archiv\/llm_black_box_2-700x273.png 700w, https:\/\/www.herr-rau.de\/wordpress\/archiv\/llm_black_box_2-300x117.png 300w, https:\/\/www.herr-rau.de\/wordpress\/archiv\/llm_black_box_2-150x58.png 150w, https:\/\/www.herr-rau.de\/wordpress\/archiv\/llm_black_box_2-1536x599.png 1536w, https:\/\/www.herr-rau.de\/wordpress\/archiv\/llm_black_box_2-2048x799.png 2048w\" sizes=\"auto, (max-width: 700px) 100vw, 700px\" \/><\/figure>\n\n\n\n<p>Der Input f\u00fcr die Black Box in der Mitte sind die 8.000 Token des Kontexts, also 8.000 Token in einer bestimmten Reihenfolge. Der Output ist eine Wahrscheinlichkeitsverteilung \u00fcber alle Elemente des Wortschatzes des Modells. Das wahrscheinlichste Token wird jeweils als n\u00e4chstes gew\u00e4hlt, abh\u00e4ngig von der Temperatur. Im Bild ist ein Token-Vokabular der Gr\u00f6\u00dfe 100.000 angedeutet, andere Modelle haben vielleicht nur ein Vokabular der Gr\u00f6\u00dfe 30.000.<\/p>\n\n\n\n<h4 class=\"wp-block-heading\">4.3 Black Box 3<\/h4>\n\n\n\n<p>Die Eingangstoken erhalten ein berechnetes Embedding. Die Embeddings sind w\u00e4hrend des Trainings entstanden, auf eine Art, die prinzipiell vergleichbar ist mit der Art, wie sie <a href=\"https:\/\/www.herr-rau.de\/wordpress\/2025\/06\/llm-grundlagen-teil-3-ueber-embedding.htm\">im letzten Blogeintrag<\/a> beschrieben ist. (Beim Training entsteht eine Matrix von Embeddings. Das Token wird in einen One-Hot-Vektor umgeformt, also mit lauter Nullen und einer einzigen 1 an der Stelle mit der Vektor-ID; dieser Vektor wird mit der Matrix multipliziert, das Ergebnis ist der Embedding-Vektor f\u00fcr dieses Token.)<\/p>\n\n\n\n<figure class=\"wp-block-image size-large\"><img loading=\"lazy\" decoding=\"async\" width=\"700\" height=\"296\" src=\"https:\/\/www.herr-rau.de\/wordpress\/archiv\/llm_black_box_3-700x296.png\" alt=\"\" class=\"wp-image-65276\" srcset=\"https:\/\/www.herr-rau.de\/wordpress\/archiv\/llm_black_box_3-700x296.png 700w, https:\/\/www.herr-rau.de\/wordpress\/archiv\/llm_black_box_3-300x127.png 300w, https:\/\/www.herr-rau.de\/wordpress\/archiv\/llm_black_box_3-150x64.png 150w, https:\/\/www.herr-rau.de\/wordpress\/archiv\/llm_black_box_3-1536x650.png 1536w, https:\/\/www.herr-rau.de\/wordpress\/archiv\/llm_black_box_3-2048x867.png 2048w\" sizes=\"auto, (max-width: 700px) 100vw, 700px\" \/><\/figure>\n\n\n\n<h4 class=\"wp-block-heading\">4.4 Black Box 4<\/h4>\n\n\n\n<p>Fr\u00fchere Modelle arbeiteten den Input <em>sequentiell<\/em> ab, also erst das erste Token des Kontexts, dann das zweite Token des Kontexts, und so weiter. Dann wei\u00df das System ja automatisch, ob es gerade am ersten oder zweiten oder wievielten Token es arbeitet. Transformer-Verfahren bearbeiten alle Token des Kontexts unabh\u00e4ngig voneinander, also potentiell gleichzeitig, demnach <em>parallel.<\/em> Das ist gut, weil sich das Rechnen auf mehrere Computer verteilen l\u00e4sst. Damit wei\u00df das System aber erst einmal nicht, an welcher Position im Kontext sich das Token befindet. (Mehr dazu n\u00e4chstes Mal.) Die Position ist allerdings semantisch wichtig, allein schon, weil in vielen Sprachen die Position von Subjekt und Objekt relativ fix ist und ein Wort am Anfang des Satzes etwas anderes bedeuten kann als am Ende: <em>man bites dog.<\/em> Deshalb wird das bisherige Embedding noch durch einen gelernten Positionsvektor modifiziert; dieser wird je nach System entweder addiert oder konkateniert, also hinten angeh\u00e4ngt.<\/p>\n\n\n\n<figure class=\"wp-block-image size-full\"><img loading=\"lazy\" decoding=\"async\" width=\"2560\" height=\"1082\" src=\"https:\/\/www.herr-rau.de\/wordpress\/archiv\/llm_black_box_4-scaled.png\" alt=\"\" class=\"wp-image-65275\" srcset=\"https:\/\/www.herr-rau.de\/wordpress\/archiv\/llm_black_box_4-scaled.png 2560w, https:\/\/www.herr-rau.de\/wordpress\/archiv\/llm_black_box_4-300x127.png 300w, https:\/\/www.herr-rau.de\/wordpress\/archiv\/llm_black_box_4-700x296.png 700w, https:\/\/www.herr-rau.de\/wordpress\/archiv\/llm_black_box_4-150x63.png 150w, https:\/\/www.herr-rau.de\/wordpress\/archiv\/llm_black_box_4-1536x649.png 1536w, https:\/\/www.herr-rau.de\/wordpress\/archiv\/llm_black_box_4-2048x866.png 2048w\" sizes=\"auto, (max-width: 2560px) 100vw, 2560px\" \/><\/figure>\n\n\n\n<p>Der Positionsvektor kann <em>absolut<\/em> sein, also f\u00fcr das erste Element des Kontexts einen fixen Vektor, f\u00fcr das zweite einen fixen Vektor, f\u00fcr das dritte ebenso, und so weiter. -Dann geht es um die Position in der Sequenz. Oder er kann <em>relativ<\/em> sein, dann h\u00e4ngt der Wert ab vom Abstand zum aktuell untersuchten Token (aber jeweils mit einem festen Wert, also wenn das Training beendet ist, versteht sich).<\/p>\n\n\n\n<p>Hier ein Diagramm, wie das Sprachmodell BERT (2018) vorgeht. Der Input besteht aus dem Text &#8222;alice follows the white rabbit follow the white rabbit neo&#8220; und SEPARATOR-Token dazwischen. Jedes Token erh\u00e4lt ein gelerntes Embedding, dazu ein (absolutes) Positionsembedding, und zusammengeh\u00f6rende Elemente in einem Segment erhalten ebenfalls ein Embedding, das das markiert.<\/p>\n\n\n\n<figure class=\"wp-block-image size-large\"><img loading=\"lazy\" decoding=\"async\" width=\"700\" height=\"180\" src=\"https:\/\/www.herr-rau.de\/wordpress\/archiv\/llm_BERT_input_embeddings-700x180.png\" alt=\"\" class=\"wp-image-65207\" srcset=\"https:\/\/www.herr-rau.de\/wordpress\/archiv\/llm_BERT_input_embeddings-700x180.png 700w, https:\/\/www.herr-rau.de\/wordpress\/archiv\/llm_BERT_input_embeddings-300x77.png 300w, https:\/\/www.herr-rau.de\/wordpress\/archiv\/llm_BERT_input_embeddings-150x39.png 150w, https:\/\/www.herr-rau.de\/wordpress\/archiv\/llm_BERT_input_embeddings.png 1338w\" sizes=\"auto, (max-width: 700px) 100vw, 700px\" \/><\/figure>\n\n\n\n<p class=\"has-small-font-size\">Daniel Voigt Godoy, <a href=\"https:\/\/commons.wikimedia.org\/wiki\/File:BERT_input_embeddings.png\" target=\"_blank\" rel=\"noreferrer noopener\">BERT input embeddings<\/a>, <a href=\"https:\/\/creativecommons.org\/licenses\/by\/4.0\/legalcode\" target=\"_blank\" rel=\"noreferrer noopener\">CC BY 4.0<\/a><\/p>\n\n\n\n<p>Das Ziel ist, m\u00f6glichst viel relevante Information in das Embedding zu packen, so dass die nachfolgenden Schichten damit arbeiten k\u00f6nnen. Andererseits: je ausf\u00fchrlicher das Embedding, desto mehr Rechenaufwand bei der Verarbeitung.<\/p>\n\n\n\n<h2 class=\"wp-block-heading\">5. Tja<\/h2>\n\n\n\n<p>Jetzt sind wir an dem Punkt angelangt, an dem es schwierig wird. Wenn die Eingangsvektoren f\u00fcr die neue innere Black Box 10.000 Zahlen lang sind, und der Kontext nur 8.000 Token lang ist, dann besteht der Input f\u00fcr diese Black Box aus 80.000.000 Zahlenwerten, nur damit am Ende ein einziger Wert, die ID des n\u00e4chsten Tokens herauskommt. Dazu brauchen wir Begriffe wie: Transformer, Encoder, Decoder, Attention. Puh.<\/p>\n\n\n\n<p>Das war es dann aber auch weitgehend. Das Geheimnis der LLM ist tats\u00e4chlich, wie \u00fcberzeugend es anhand des Trainings einen Kontext von 8.000 oder 40.000 Token benutzen kann, um das n\u00e4chste Token vorherzusagen.<\/p>\n\n\n\n<h2 class=\"wp-block-heading\">6. Links und Ausprobieren<\/h2>\n\n\n\n<p>Diesmal leider nichts.<\/p>\n\n\n\n<p><em><a href=\"https:\/\/www.herr-rau.de\/wordpress\/2025\/06\/llm-grundlagen-teil-5-die-vorletzte-black-box-transformer.htm\">Fortsetzung folgt.<\/a><\/em><\/p>\n\n\n\n<img loading=\"lazy\" decoding=\"async\" src=\"https:\/\/vg07.met.vgwort.de\/na\/3e417767d78c41379d96e39dde9214ed\" width=\"1\" height=\"1\" alt=\"\">\n","protected":false},"excerpt":{"rendered":"<p>Fortsetzung von hier. Ein leichteres Kapitel als das vorherige, in dem dennoch neue W\u00f6rter eingef\u00fchrt werden, mit deren Hilfe sich der Autor vor den richtig schwierigen Sachen durch geschickte Gaukelei zu dr\u00fccken versucht. Die schw\u00e4rzeste aller Boxen bleibt unge\u00f6ffnet. Daf\u00fcr wird es das n\u00e4chste Mal dann sehr technisch. Wir wissen aus den letzten Teilen, was [&hellip;]<\/p>\n","protected":false},"author":2,"featured_media":65275,"comment_status":"open","ping_status":"open","sticky":false,"template":"","format":"standard","meta":{"_jetpack_memberships_contains_paid_content":false,"footnotes":""},"categories":[25],"tags":[227,254],"class_list":["post-64862","post","type-post","status-publish","format-standard","has-post-thumbnail","hentry","category-informatik","tag-informatik","tag-ki"],"jetpack_featured_media_url":"https:\/\/www.herr-rau.de\/wordpress\/archiv\/llm_black_box_4-scaled.png","jetpack_sharing_enabled":true,"jetpack_likes_enabled":true,"_links":{"self":[{"href":"https:\/\/www.herr-rau.de\/wordpress\/wp-json\/wp\/v2\/posts\/64862","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/www.herr-rau.de\/wordpress\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/www.herr-rau.de\/wordpress\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/www.herr-rau.de\/wordpress\/wp-json\/wp\/v2\/users\/2"}],"replies":[{"embeddable":true,"href":"https:\/\/www.herr-rau.de\/wordpress\/wp-json\/wp\/v2\/comments?post=64862"}],"version-history":[{"count":3,"href":"https:\/\/www.herr-rau.de\/wordpress\/wp-json\/wp\/v2\/posts\/64862\/revisions"}],"predecessor-version":[{"id":65659,"href":"https:\/\/www.herr-rau.de\/wordpress\/wp-json\/wp\/v2\/posts\/64862\/revisions\/65659"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/www.herr-rau.de\/wordpress\/wp-json\/wp\/v2\/media\/65275"}],"wp:attachment":[{"href":"https:\/\/www.herr-rau.de\/wordpress\/wp-json\/wp\/v2\/media?parent=64862"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/www.herr-rau.de\/wordpress\/wp-json\/wp\/v2\/categories?post=64862"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/www.herr-rau.de\/wordpress\/wp-json\/wp\/v2\/tags?post=64862"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}