LLM Grundlagen, Teil 7 und Ende: Rückblick und Zusammenfassung

(12 Kommentare.)

Fortsetzung von hier. Ein Rückblick.

1. Links zu den vergangen Einträgen

2. Ziel der Reihe

Ich wollte herausfinden, wie Texterzeugung in einem LLM funktioniert. Auf dem Weg habe ich für mich tatsächlich hinreichend beantwortet, wie ein LLM funktioniert. Was ich leider nicht herausgefunden habe und wohl eigentlich wissen wollte: warum ein LLM funktioniert.

Wie kommt es, dass ein LLM das kann, was es kann? Die Antwort, die ich immer lese, lautet: Scale – Skalierung, Größenordnung. Ab einer bestimmten Größe des LLM und einer bestimmten Größe des Trainingskorpus (wir erinnern uns: das Äquivalent zu 100 Millionen Büchern) funktioniert das einfach. Einfach heißt: nach langem teuren automatischen Training und langem intensiven Training unter menschlicher Anleitung.

Alle weiteren Entwiclungen sind für mich nicht mehr so interessant. Da geht es darum, LLMs noch besser zu machen, oder wenigstens sparsamer, oder auf andere Aufgaben anzuwenden. Das ist wie mit dem Verbrennermotor: Da interessiert mich auch allenfalls das Prinzip und weniger die Entwicklungen der letzten hundert Jahre. Ich könnte auch keinen bauen und habe nur eine ungefähre Vorstellung vom Funktionieren, und so geht es mir jetzt mit LLM.

3. Zusammenfassung

  1. Ein LLM wird mit dem Äquivalent von 100 Millionen Büchern an Text trainiert. Das Training geschieht erst automatisch, dann durch menschliches Feedback.
  2. Ein LLM besteht aus 120 Decoder-Schichten.
  3. Am Anfang wird ein Eingangstext in Token zerlegt, und zwar maxinmal 8.000 bis 128.000 Token.
  4. Jedes Token wird in einen 10.000-dimensionalen Raum eingebettet, erhält also ein Embedding bestehend 10.000 Zahlen.
  5. In jeder Decoder-Schicht wird jeder Eingangsvektor in beliebiger Reihenfolge verarbeitet.
  6. Bei der Verarbeitung werden die 7.999 Nachbartoken ebenfalls berücksichtigt. Wie sehr und wie, das entscheiden der Q- und der V-Vektor des aktuellen Tokens und die 7.999 K-Vektoren der Nachbartoken zusammen. Die werden anhand trainierter Tabellen ausgerechnet. Das ist das eigentliche Kern der Sache.
  7. Bei dieser Verarbeitung steht ein Neuronales Netz an letzter Stelle.
  8. Nach der Verarbeitung entsteht wieder für jedes der 8.000 Token ein neuer Vektor der gleichen Größe.
  9. Die Schritte 5 bis 8 wiederholen sich je Decoder-Schicht.
  10. Das letzte Embedding des letzten Token wird in ein Neuronales Netz eingegeben, das 100.000 Ausgangsneuronen hat: für jedes Token im Wortschatz eines. Deren Werte heißen Logits.
  11. Die Logits werden mit Softmax (normalisierte Exponentialfunktion) normalisiert, so dass man 100.000 Werte zwischen 0 und 1 hat, die für jedes Token im Wortschatz eine Wahrscheinlichkeit angeben.
  12. Ein Algorithmus wählt aus diesen Werten ein Token aus, das das nächste generierte Token bildet.
  13. Der Prozess beginnt von vorn.

Die Zahlen sind gerundet und geschätzt und gehen je nach Modell auch mal um den Faktoren zehn oder mehr nach unten, sind aktuell aber an der Obergrenze.

4. Erfahrungen beim Schreiben

Das war lustig. Ich hatte gedanklich immer nur einen oder eineinhalb Blogeinträge gedanklichen Vorsprung beim Schreiben, das heißt, ich wusste nach den ersten beiden noch nicht wirklich, was im vierten stehen würde, und im dritten waren mir Sachen unklar, die ich hoffte, beim fünften vielleicht verstehen zu würden. Aber den Vorsprung hielt ich auch, ich löschte jedesmal ein paar offene Tabs aus dem Browser, weil ich Seiten jetzt durchgearbeitet und verstanden hatte, die ich zuvor als: „Da scheint das erklärt zu werden, aber ich verstehe kein Wort“ reserviert hatte. Dafür kamen immer wieder neue Tabs dazu.

Jetzt könnte ich das vermutlich auch in einem Blogeintrag erklären. Aber vorher wäre das halt nicht gegangen. Ich hätte natürlich auch ein Buch lesen können. Da gibt es sicher auch etwas für Dummies; ich bin ja kein Mathematiker, insbesondere bin ich die kompakte mathematische Formulierung nicht gewohnt und muss mir alles immer erst veranschaulichen.

(Es ist doch alles zu technisch geworden, nicht wahr? Aber schon viel weniger technisch als die echt technischen Artikel, wirklich. Ab jetzt dann wieder Alltagscontent.)


Beitrag veröffentlicht am

in

Kommentare: 12

Schlagwörter:

Kommentare

12 Antworten zu „LLM Grundlagen, Teil 7 und Ende: Rückblick und Zusammenfassung“

  1. Kirsten

    Danke für diese Serie. Ich habe nur sehr wenig verstanden, werde mir aber ein Lesezeichen setzen.

    Was mich bei LLMs irritiert ist das was sie „Halluzinationen“ nennen. Ich hatte bisher gedacht, LLMs funktionieren ähnlich wie Suchmaschinen, die Trainingdaten sind ähnlich wie Quellen der Suchmaschinen. Das heißt, es müsste möglich sein, dass das LLM sagt, wenn es eine Frage nicht beantworten kann. „Sorry, hab keine Daten“.
    Das scheint aber nicht zu passieren. Weil die Modelle nur mit Wahrscheinlichkeiten rechnen. Mit der Nase in der Rille, wichtig ist nur „was könnte hier als Nächstes passen?“
    Das ist gewissermaßen losgelöst von den Trainingsdaten. Quellen im traditionellen Sinn gibt es nicht. Nur Rechenprozesse und Statistik.
    Das heißt, ein Factcheck wäre ein komplett anderer Vorgang, der zusätzlich und unabhängig von der LLM Rechnerei stattfinden müsste.

    Hab ich das richtig verstanden? Wissen Sie ob es Pläne/Konzepte zum Factchecking gibt?

  2. Ich bin selbst auch sehr wenig mitgekommen, aber ich bin mir sicher, der eine oder andere findige Kopf in meinen Klassen, der mit Informatik sehr bewandert ist, steigt da prima durch. Sollte künftig das Thema mal aufkommen, wie so etwas funktioniert, leite ich ihm gerne deine Serie weiter ;-)

  3. >Hab ich das richtig verstanden?

    So weit ich das verstehe: Ja, genau richtig! LLM funktionieren erst einmal ganz anders als Suchmaschinen.

    >Wissen Sie ob es Pläne/Konzepte zum Factchecking gibt?

    Ich weiß, dass daran gearbeitet und geforscht wird und dass es auch schon Lösungen gibt; wie weit man damit ist und überhaupt kommen kann, kann ich überhaupt nicht beurteilen. Hier wäre ein Aufsatz: „Do LLMs Know When to NOT Answer? Investigating Abstention Abilities of Large Language Models“ https://arxiv.org/abs/2407.16221, kann man als PDF herunterladen.

    Ein Chatbot zieht zum Vervollständigen von Texten das zugrunde liegende LLM heran und den Kontext, und den Kontext kann er erweitern, indem er zum Beispiel unter der Haube die Frage an eine tatsächliche Suchmaschine weitergibt und das Ergebnis als Teil des Kontexts verwendet. (Oder es verwendet als Kontext jeweils Teile einer vorher speziell angelegten Textsammlung; das kann man leicht selber bauen.) Auf dieser Basis wird dann aber wieder stochastisch entschieden.

    Ich arbeite nur wenig mit LLM und dann mit den kostenlos verfügbaren Version, die mir online bei ByLKI für Lehrkräfte oder offline via GPT4All oder AnythingLLM zur Verfügung stehen, also jeweils nicht die neuesten Modelle. Da ist die Überprüfung auf Fakten sicher noch nicht ausreichend.

  4. @Herr Mess >Sollte künftig das Thema mal aufkommen, wie so etwas funktioniert, leite ich ihm gerne deine Serie weiter ;-)
    Mach das! Ich denke, findige SuS müssten tatsächlich etwas damit anfangen können.

  5. Norman

    Wie Leonardo, der verlor auch schon nach der Vorzeichnung die Lust, das Bild noch auszumalen.

  6. Darf ich mich jetzt als Leonardo der KI-Erklärung bezeichnen? Ich finde, grob ausgemalt, so mit Wachsmalkreide und über den Rand hinaus, ist das schon. Ein bisschen mehr könnte ich auch noch, aber ein bisschen Pause tut allen gut, denke ich. Mehr in den Sommerferien nehme ich an.

  7. Kirsten

    Ich nochmal.
    Trainingsdaten werden zu vielen kleinen Tokens geschreddert. Gehen dadurch die Quellen verloren, weil sowieso irrelevant? Oder ist das eher Absicht? Weil man so die Verbindung zu den Autoren einer Information wegleuchten kann?

    Wenn es Quellen nicht gibt, gibt es das Konzept Kontext? Das bräuchte eine LLM doch eigentlich um einen sinnvollen Text zu schreiben bzw. es würde eine Menge Rechnerei sparen wenn klar wäre, was gerade der Kontext ist.

  8. @Kirsten: Ja, Kontext gibt es, steht in Kapitel 4. Der Kontext ist je nach Modell 8.000 Token lang oder 30.000 oder noch mehr. Der Kontext bestimmt die Wahl des nächsten Wortes, auf komplexe Art und Weise. Trainingsdaten: Ja, beim Umwandeln der Token in Embeddings (und beim Training wichtiger: das Lernen weiterer Parameter) gehen die Quellen verloren, notwendigerwese. Das heißt nicht, dass ein LLM einen Trainingstext nicht doch eventuell reproduzieren kann, es weiß nur nicht, dass und ob es das tut.

  9. […] der Vorbereitung hat mir übrigens Herr Rau mit den LLM-Grundlagen sehr geholfen. Ich sei […]

  10. […] Dazu habe ich im Blog LehrerInnenZimmer von Herrn Rau kürzlich eine tolle Reihe gelesen: LLM Grundlagen, Teil 7 und Ende: Rückblick und Zusammenfassung. Genau das sind ChatCPT, Gemini & Co nämlich: Chatbots, die aufs LLMs […]

  11. Andreas Zitek

    Hallo! Kann ich Anfänger*innen die KI nicht dann doch am besten mit den N-Grammen erklären? Und dann auf Toke & Embeddings mit den verschiedenen Vektoren gehen (Bsp. year)…und die Spalten sind dann die zusätzlichen Konzepte mit einer Art Wahrscheinlichkeit, dass diese gemeinsam auftreten? Oder wie würden Sie das Anfägner*innen erklären? Danke!

  12. >Oder wie würden Sie das Anfägner*innen erklären?

    Ja, auch so, wie Sie das vorschlagen. Je nach Vorkenntnissen und je nachdem, was die Anfänger*innen wissen wollen, oder sollen. Minimum ist für mich N-Gramme, und die Erkenntnis, dass das N da nicht besonders hoch sein kann. Danach käme die Lösung, dass das mit Neuronalen Netzen geht, weil die auch mit 8000 Inputs fertig werden, indem sie Ähnliches zusammenfassen. Transformer will dann keiner mehr wissen, die erklären nur, wie das mit 8000 überhaupt technisch gut geht. Dazwischen Embeddings, die helfen eigentlich nur beim Verständnis, was Ähnlichkeit überhaupt heißt.

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert