{"id":53531,"date":"2023-04-24T09:56:40","date_gmt":"2023-04-24T07:56:40","guid":{"rendered":"https:\/\/www.herr-rau.de\/wordpress\/?p=53531"},"modified":"2025-05-15T06:18:59","modified_gmt":"2025-05-15T04:18:59","slug":"er-benutzt-verben-wie-gleitet-und-vorueberrinnt","status":"publish","type":"post","link":"https:\/\/www.herr-rau.de\/wordpress\/2023\/04\/er-benutzt-verben-wie-gleitet-und-vorueberrinnt.htm","title":{"rendered":"Er benutzt Verben wie &#8222;gleitet&#8220; und &#8222;vor\u00fcberrinnt&#8220;"},"content":{"rendered":"\n<h2 class=\"wp-block-heading\">1. Als eine Art Einleitung<\/h2>\n\n\n\n<p class=\"wp-block-paragraph\">Immerhin: Da steht schon einmal &#8222;Verben&#8220;, das war ein w\u00f6rtliches Zitat aus einem Aufsatz. Ich kenne das auch in der allgemeineren Form: &#8222;W\u00f6rter wie &#8218;gleitet&#8216; und &#8218;vor\u00fcberrinnt'&#8220; &#8211; und beides geh\u00f6rt zu meinen <em>pet peeves<\/em> bei der Deutschaufsatz-Analyse von Gedichten. Ich versuche, das meinen Sch\u00fclern und Sch\u00fclerinnen abzugew\u00f6hnen. Vielmehr soll man m\u00f6glichst genau sagen: Was sind das f\u00fcr W\u00f6rter?<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">Ich erwarte in der Schule, wenn es um benotbare Aufs\u00e4tze geht, einen recht analytischen Umgang mit Gedichten. Also nicht das, was ich oft bei Texten \u00fcber Gedichte in der freien Wildbahn sehe oder in meiner alten Sammlung von Lyrikinterpretationen aus dem Referendariat. Da sind oft kluge Gedanken darin, aber die sind mitunter nur gest\u00fctzt durch die Autorit\u00e4t des Autors oder der Autorin, oder stilles Einverst\u00e4ndnis mit dem Publikum, so dass bestimmte Erkenntnisse vorausgesetzt werden. &#8222;Das Fest der Natur und der Seele wird Klang, jubelnd, leicht, tanzend und zugleich feierlich&#8220; (Erich Trunz, <em>Goethes Werke. Hamburger Ausgabe.<\/em>) Im schulischen Aufsatzkontext darf und soll man das durchaus auch so schreiben, muss es aber davor oder danach erkl\u00e4ren und begr\u00fcnden.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">Ich m\u00f6chte also zus\u00e4tzlich zu: &#8222;W\u00f6rter wie &#8218;gleitet&#8216; und &#8218;vorr\u00fcberrinnt'&#8220; eine Erkl\u00e4rung, was das f\u00fcr W\u00f6rter sind. W\u00f6rter ohne den Buchstaben a? Mehrsilbige W\u00f6rter? Das Gef\u00fchl, dass etwas diese W\u00f6rter verbindet, ist v\u00f6llig legitim, und &#8222;W\u00f6rter wie&#8220; legt immer den Eindruck nahe, dass es so eine Verbindung gibt. Aber zur benotbaren Analyse braucht es eine Erkl\u00e4rung des Zusammenhangs. &#8222;Verben&#8220; ist einen Analyseschritt weiter als &#8222;W\u00f6rter&#8220;, &#8222;Verben der Bewegung&#8220; noch weiter. Und vermutlich reicht das nicht, im Kopf ist da vielleicht schon eine bestimmte Art der Bewegung gemeint, und diesen Kopfinhalt zu versprachlichen, eventuell noch elegant, das ist dann die benotbare Analyse. Dass es noch andere Zug\u00e4nge zu Lyrik und Literatur gibt: klar.<\/p>\n\n\n\n<h2 class=\"wp-block-heading\">2. Der Anlass<\/h2>\n\n\n\n<p class=\"wp-block-paragraph\">All das ist die Einleitung zu einigen Gedanken zum neuen Lehrplan, hier f\u00fcr das Fach Informatik am Gymnasium. Solche Lehrpl\u00e4ne halten in Bayern zehn oder dreizehn oder auch mal f\u00fcnfzehn Jahre. (<a href=\"https:\/\/www.herr-rau.de\/wordpress\/2019\/10\/historische-lehrplaene-bayern.htm\">Blogeintrag dazu<\/a>.) Das hei\u00dft, dass ein neuer Lehrplan gar nicht so viele Jahre in Betrieb ist, bis schon wieder am neuen gearbeitet wird; und wer auch immer da entscheidet, hat schon vor f\u00fcnf Jahren, vielleicht, entschieden, dass in Informatik 11 und 13 am Gymnasium Themen der K\u00fcnstlichen Intelligenz drankommen. Das war vor GPT, aber nach AlphaGo und DeepL. Ich finde das sehr spannend, weil ich es noch nie erlebt habe, dass in so gro\u00dfem Umfang v\u00f6llig neue Inhalte in einem Lehrplan auftauchen, die es bisher nie gab und die man auch nie im Studium gelernt hat. In Deutsch und Englisch gibt es st\u00e4ndig neue B\u00fccher, aber das sind keine neuen Inhalte in diesem Sinn; man wendet bekannte Methoden darauf an. Neue Erkenntnisse in Erz\u00e4hltheorie oder Phonologie: gibt es sicher, und f\u00e4nde ich sehr spannend; aber die tauchen in der Schule nicht auf. In Mathematik m\u00fcssen die Lehrkr\u00e4fte jetzt lernen, was Box-Plot-Diagramme sind, und in den Naturwissenschaften mit Tabellenkalkulation arbeiten; am Ende ist das f\u00fcr die auch so eine gro\u00dfe Sache wie die KI-Einf\u00fchrung in der Informatik? Es erf\u00fcllt mich tats\u00e4chlich mit Freude, dass ich auf meine alten Tage noch einmal so viel Neues lernen kann\/muss\/darf.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">Bayern legt sich jedenfalls ordentlich ins Zeug, die neuen Inhalte an die Lehrkr\u00e4fte zu bringen. Es gab eine Online-Auftaktveranstaltung zur &#8222;Fortbildungsoffensive KI&#8220; (der Name ein bisschen zu martialisch f\u00fcr meinen Geschmack), die einen \u00dcberblick gab. Da war noch nicht viel lernen, aber viel Information zu den eigentlichen Lernm\u00f6glichkeiten und vom Aufwand her eine Demonstration, wie hoch das Thema geh\u00e4ngt wird. Unterrichtsminister Piazolo war zugeschaltet, unverbindliche Worte zu Ver\u00e4nderungen durch KI, die Karotte einer m\u00f6glichen Aufsatzkorrektur durch KI wurde vorgeh\u00e4ngt. Die Expertin widersprach danach allerdings diskret; allerdings m\u00f6glicherweise mit dem Fokus auf Benotung &#8211; nicht viele wissen, dass es auch unbenotete Korrekturen gibt, vielleicht, weil Deutsch das einzige Fach ist, in dem so etwas umfangreich vorgeschrieben ist. <\/p>\n\n\n\n<p class=\"wp-block-paragraph\">Es gibt weiterhin 200 Seiten Handreichung (<a href=\"https:\/\/www.isb.bayern.de\/gymnasium\/faecher\/mathematik-informatik\/informatik\/\">Link<\/a> &#8211; vorl\u00e4ufig jedenfalls, die Ministeriumswebseite bietet keinen Permalink darauf an), die es nur als pdf gibt und nicht mehr auf Papier; einen Mebiskurs mit den Dateien dazu. <em>Fu\u00dfnote: Dieser Kurs ist inhaltlich in Ordnung, sehr ausf\u00fchrlich. Aber er ist furchtbar in der Usability. Er besteht lediglich aus Dateien in Verzeichnissen, die meisten gezippt. Und die alle herunterzuladen &#8211; was soll man auch sonst damit machen &#8211; ist enorm umst\u00e4ndlich und ein elendigliches Hinundher-Gefrickel. Und die Videos habe ich verkleinert. 300 MB f\u00fcr 14 Minuten Screencast? Das ging dann auch mit 25 MB. &#8211; <\/em>Es gibt Pr\u00e4senzfortbildungen, f\u00fcr die man sich eintragen kann Es gibt einen Selbstlern-Moodlekurs an der ALP Dillingen, der als zehnst\u00fcndige Fortbildung z\u00e4hlt und der tats\u00e4chlich nicht schlecht und ziemlich umfangreich ist. Ja, einige H5P-Elemente sind ein wenig \u00fcberfl\u00fcssig und haben etwas von &#8222;Wir m\u00fcssen zeigen, was alles geht&#8220;, schaden aber auch nicht; aber ich habe dabei Neues gelernt und mir auf jeden Fall viele Anregungen geholt. Und um diese Anregungen soll es jetzt gehen.<\/p>\n\n\n\n<h2 class=\"wp-block-heading\">3. Anregungen<\/h2>\n\n\n\n<p class=\"wp-block-paragraph\">Unter anderem wurde das Werkzeug &#8222;<a href=\"https:\/\/klassenkarte.de\/index.php\/2023\/04\/16\/demonstrator-fuer-maschinelles-lernen\/\">Demonstrator f\u00fcr maschinelles Lernen<\/a>&#8220; von Christoph Gr\u00e4\u00dfl vorgestellt. Das deckt zwei Lehrplaninhalte von 11 ab, n\u00e4mlich das Perzeptron (<a href=\"https:\/\/www.herr-rau.de\/wordpress\/2020\/08\/ki-fast-alles-was-ich-darueber-weiss-teil-2-neuronen.htm\">mein eigener Blogeintrag dazu<\/a>) und den kNN-Algorithmus, k-n\u00e4chster-Nachbar. <\/p>\n\n\n\n<p class=\"wp-block-paragraph\">Der dient zu Folgendem: Wenn man eine Menge an bekannten Datens\u00e4tzen hat, die bereits in zwei oder drei oder mehr Gruppen aufgeteilt sind (&#8222;gelabelt&#8220;), entscheidet der kNN-Algorithmus, zu welcher dieser Gruppen ein neuer, bisher unbekannter Datensatz am ehesten geh\u00f6rt. Ob das in der Realit\u00e4t dann auch eine sinnvolle Zuordnung ist: andere Frage, man m\u00fcsste separat \u00fcberpr\u00fcfen, ob kNN bei dieser Art Daten \u00fcberhaupt anwendbar ist.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">Der Algorithmus funktioniert letztlich so: Man schaut sich die k n\u00e4chsten Nachbarn an. Zum Beispiel w\u00e4hlt man k=3. Das hei\u00dft, man schaut sich f\u00fcr den neu einzugruppierenden Datensatz die drei n\u00e4chsten bekannten (&#8222;gelabelten&#8220;) Datens\u00e4tze an, und wenn die Mehrheit davon zu Gruppe A geh\u00f6rt, erkl\u00e4rt man den neuen Datensatz auch zu Gruppe A zugeh\u00f6rig.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">Ein Beispiel, mit einem Screenshot aus dem Demonstrator:<\/p>\n\n\n\n<figure class=\"wp-block-image size-full\"><img loading=\"lazy\" decoding=\"async\" width=\"500\" height=\"500\" src=\"https:\/\/www.herr-rau.de\/wordpress\/archiv\/ki_kNN_demonstrator1.png\" alt=\"\" class=\"wp-image-53793\" srcset=\"https:\/\/www.herr-rau.de\/wordpress\/archiv\/ki_kNN_demonstrator1.png 500w, https:\/\/www.herr-rau.de\/wordpress\/archiv\/ki_kNN_demonstrator1-300x300.png 300w, https:\/\/www.herr-rau.de\/wordpress\/archiv\/ki_kNN_demonstrator1-150x150.png 150w, https:\/\/www.herr-rau.de\/wordpress\/archiv\/ki_kNN_demonstrator1-100x100.png 100w\" sizes=\"auto, (max-width: 500px) 100vw, 500px\" \/><\/figure>\n\n\n\n<p class=\"wp-block-paragraph\">Die bereits bekannten, &#8222;gelabelten&#8220; Datens\u00e4tze sind als rote, gr\u00fcne und blaue Punkte in einem Koordinatensystem eingetragen. Das Label ist jeweils Deutsch, Englisch oder Franz\u00f6sisch. Jeder Datensatz besteht nur aus zwei Werten, zwei Dimensionen. Das ist praktisch und absichtlich, weil man das nur dann so sch\u00f6n in einem zweidimensionalen Koordinatensystem darstellen kann. Ursprung der Datens\u00e4tze sind kurze Texte in englischer, franz\u00f6sischer und deutscher Sprache; der Titel der Texte ist im Diagramm eingetragen. Der Datensatz selber enth\u00e4lt ja nur zwei Werte, n\u00e4mlich durchschnittliche Wortl\u00e4nge und durchschnittliche Vokalh\u00e4ufigkeit. (Ich nehme an, damit sind die Buchstaben <em>a, e, i, o, u<\/em> gemeint; ob Umlaute dabei sind, wei\u00df ich nicht; vokalisches <em>y<\/em> sicher nicht.)<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">Wenn man jetzt einen neuen Text eingibt, hier unten gelb markiert, schaut sich kNN mit k=3 die drei n\u00e4chsten Nachbarn an:<\/p>\n\n\n\n<figure class=\"wp-block-image size-full\"><img loading=\"lazy\" decoding=\"async\" width=\"500\" height=\"500\" src=\"https:\/\/www.herr-rau.de\/wordpress\/archiv\/ki_kNN_demonstrator2.png\" alt=\"\" class=\"wp-image-53800\" srcset=\"https:\/\/www.herr-rau.de\/wordpress\/archiv\/ki_kNN_demonstrator2.png 500w, https:\/\/www.herr-rau.de\/wordpress\/archiv\/ki_kNN_demonstrator2-300x300.png 300w, https:\/\/www.herr-rau.de\/wordpress\/archiv\/ki_kNN_demonstrator2-150x150.png 150w, https:\/\/www.herr-rau.de\/wordpress\/archiv\/ki_kNN_demonstrator2-100x100.png 100w\" sizes=\"auto, (max-width: 500px) 100vw, 500px\" \/><\/figure>\n\n\n\n<p class=\"wp-block-paragraph\">Hier ist die Nachbarschaft durch einen grauen Kreis markiert, die drei n\u00e4chsten Nachbarn sind Einhorn (Deutsch), Hund (Deutsch) und Internet (Englisch). Die Mehrheit entscheidet, kNN weist dem neuen Text das Label &#8222;Deutsch&#8220; zu, \u00fcbrigens korrekt. Bei anderen Werten f\u00fcr k k\u00f6nnen andere Ergebnisse herauskommen.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">Ein Knackpunkt dabei ist, was man unter Entfernung besteht. Der graue Kreis beruht n\u00e4mlich auf dem <em>euklidischen Abstand<\/em>. Das ist der Abstand zweier Punkte, den man mit dem Geodreieck intuitiv messen w\u00fcrde, den man mit dem Satz des Pythagoras berechnen kann: Wurzel aus (x1-x2)<sup>2<\/sup> + (y1-y2)<sup>2<\/sup>. Es gibt auch noch andere M\u00f6glichkeiten, die Entfernung zu berechnen, die lasse ich jetzt aber weg. Euklidisch ist praktisch, auch f\u00fcr sp\u00e4ter, und auch im dreidimensionalen Raum oder mit noch h\u00f6heren Dimensionen.<\/p>\n\n\n\n<h2 class=\"wp-block-heading\">4. Eigene Experimente<\/h2>\n\n\n\n<p class=\"wp-block-paragraph\">Man kann nicht nur einem gegeben Text zwei Werte zuweisen (durchschnittliche Wortl\u00e4nge, durchschnittliche Vokalzahl), sondern zum Beispiel auch einem einzelnen Wort. Das k\u00f6nnte zum Beispiel Wortl\u00e4nge und Vokalzahl sein. Oder&#8230; oder&#8230; die Wahrscheinlichkeit, in einem Text als erstes Wort in einem Satz aufzutauchen. Oder als letztes. Oder gerne nach &#8222;ich&#8220;. Oder&#8230; ach, da gibt es viele, viele M\u00f6glichkeiten.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">Man muss sich das auch gar nicht selber \u00fcberlegen. Es gibt bereits vorhandene Systeme, bei denen jedem Wort einer Sprache, oder zumindest einer gro\u00dfen Menge davon, Merkmalswerte zugewiesen sind; tats\u00e4chlich gilt das nicht nur f\u00fcr Einzelw\u00f6rter, sondern auch f\u00fcr Wortgruppen, das ignorieren wir hier mal. Eine solche Bibliothek ist zum Beispiel <em>fastText<\/em> (<a href=\"https:\/\/en.wikipedia.org\/wiki\/FastText\">Wikipedia<\/a>). Man f\u00fcttert <em>fastText<\/em> mit m\u00f6glichst gro\u00dfen Mengen an Texten der Sprache, die einen interessiert, und gibt an, wie viele Werte (&#8222;Dimensionen&#8220;) man gerne h\u00e4tte, zum Beispiel 100. Und dann sucht sich <em>fastText<\/em> selbstst\u00e4ndig 100 Dimensionen heraus und weist jedem Wort in jeder Dimension einen Wert zu. &#8211; Was eine Dimension jetzt tats\u00e4chlich <em>bedeutet<\/em>, ist nicht mehr auszumachen, eine allein bedeutet <em>gar nichts,<\/em> vielmehr werden \u00c4hnlichkeiten zwischen W\u00f6rtern an parallelem Verhalten in diesem mehrdimensionalen Raum festgemacht.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">Weil das viel Aufwand ist, gibt es f\u00fcr <em>fastText<\/em> bereits trainierte Modelle f\u00fcr knapp 300 Sprachen, man muss also nicht mehr selber so ein Modell erstellen sondern kann eines verwenden, das bereits jemand anderes vorbereitet hat. Wer sich auskennt oder einarbeitet, kann sich diese Modelle herunterladen und damit arbeiten. Bei mir ist weder das eine noch das andere der Fall, aber ich arbeite gerne mit der KI-Suite <em>Orange<\/em> (<a href=\"https:\/\/www.herr-rau.de\/wordpress\/2022\/05\/orange-data-mining.htm\">Blogeintrag<\/a>), und die hat alles N\u00f6tige bereits integriert. Ein herunterladbares Muster ist <a href=\"https:\/\/oldorange.biolab.si\/workflows\/Text-Mining\/\">auf den Orange-Seiten <\/a>unter &#8222;Semantic Word Map&#8220; zu finden. Es hat ein bisschen gedauert, bis ich das f\u00fcr meine Zwecke umgewandelt habe. <small>Hinweise zur Erinnerung f\u00fcr sp\u00e4ter: (1) Wenn man das System kopiert und umbaut, man muss einmalig in der WordCloud alle W\u00f6rter ausw\u00e4hlen. (2) Der Lemmatizer hat Probleme mit Umlauten; ausschalten.<\/small><\/p>\n\n\n\n<figure class=\"wp-block-image size-large\"><img loading=\"lazy\" decoding=\"async\" width=\"700\" height=\"419\" src=\"https:\/\/www.herr-rau.de\/wordpress\/archiv\/ki_kNN_orange_hofmannsthal-700x419.png\" alt=\"\" class=\"wp-image-54705\" srcset=\"https:\/\/www.herr-rau.de\/wordpress\/archiv\/ki_kNN_orange_hofmannsthal-700x419.png 700w, https:\/\/www.herr-rau.de\/wordpress\/archiv\/ki_kNN_orange_hofmannsthal-300x180.png 300w, https:\/\/www.herr-rau.de\/wordpress\/archiv\/ki_kNN_orange_hofmannsthal-150x90.png 150w, https:\/\/www.herr-rau.de\/wordpress\/archiv\/ki_kNN_orange_hofmannsthal.png 1140w\" sizes=\"auto, (max-width: 700px) 100vw, 700px\" \/><\/figure>\n\n\n\n<p class=\"wp-block-paragraph\"><small>(Der ganze Aufwand nur, um die Werte f\u00fcr die W\u00f6rter aus zwei Hofmannsthal-Gedichten zu kriegen. Das geht sicher auch einfacher, aber ich kann mir so auch noch andere Aspekte der Texte anzeigen lassen.)<\/small><\/p>\n\n\n\n<p class=\"wp-block-paragraph\">Am Ende speichert man die Ergebnisse als Datei. Dann erh\u00e4lt man eine Tabelle mit den W\u00f6rtern, pro Wort eine Zeile. Mit den Einstellungen &#8222;fastText&#8220; und &#8222;German&#8220; bei <em>DocumentEmbedding<\/em> hat jede Zeile 300 Eintr\u00e4ge f\u00fcr die 300 Dimensionen. Das sieht dann so aus (Ausschnitt):<\/p>\n\n\n\n<figure class=\"wp-block-image size-large\"><img loading=\"lazy\" decoding=\"async\" width=\"700\" height=\"372\" src=\"https:\/\/www.herr-rau.de\/wordpress\/archiv\/ki_kNN_hofmannsthal_distances-700x372.png\" alt=\"\" class=\"wp-image-53967\" srcset=\"https:\/\/www.herr-rau.de\/wordpress\/archiv\/ki_kNN_hofmannsthal_distances-700x372.png 700w, https:\/\/www.herr-rau.de\/wordpress\/archiv\/ki_kNN_hofmannsthal_distances-300x159.png 300w, https:\/\/www.herr-rau.de\/wordpress\/archiv\/ki_kNN_hofmannsthal_distances-150x80.png 150w, https:\/\/www.herr-rau.de\/wordpress\/archiv\/ki_kNN_hofmannsthal_distances-1536x816.png 1536w, https:\/\/www.herr-rau.de\/wordpress\/archiv\/ki_kNN_hofmannsthal_distances.png 1920w\" sizes=\"auto, (max-width: 700px) 100vw, 700px\" \/><\/figure>\n\n\n\n<p class=\"wp-block-paragraph\">Was kann man jetzt damit machen?<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">Man kann zum Beispiel die Entfernung zwischen zwei W\u00f6rtern x und y berechnen. Das geht mit dem euklidischen Abstand, nur eben mit 300 statt mit 2 Dimensionen. Also (liest bei Wikipedia nach) nicht:<\/p>\n\n\n\n<pre class=\"wp-block-code\"><code>Wurzel( (x1-y1)<sup>2<\/sup> + (x2-y2)<sup>2<\/sup> ), <\/code><\/pre>\n\n\n\n<p class=\"wp-block-paragraph\">sondern: <\/p>\n\n\n\n<pre class=\"wp-block-code\"><code>Wurzel((x1-y1)<sup>2<\/sup>+(x2-y2)<sup>2<\/sup>+(x3-y3)<sup>2<\/sup>+...+(x300-y300)<sup>2<\/sup>). <\/code><\/pre>\n\n\n\n<p class=\"wp-block-paragraph\">Das w\u00e4re eine schlimme Formel, wenn man sie von Hand eingeben m\u00fcsste, aber es gibt gl\u00fccklicherweise eine Tabellenkalkulationsfunktion, die genau das macht: <code>SUMMEXMY2(Zeile1; Zeile2)<\/code> berechnet die Summe der Quadrate der jeweiligen Differenzen, wovon man nur noch die Wurzel nehmen muss, schon hat man die euklidische Distanz in diesem 300-dimensionalen Raum.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">Zu abstrakt? Der errechnete euklidische Abstand zwischen &#8222;gleitet&#8220; und &#8222;gleitet&#8220; betr\u00e4gt 0, das ist schon mal sinnvoll, die W\u00f6rter sind ja dieselben. Der Abstand zwischen &#8222;gleitet&#8220; und &#8222;vor\u00fcberrinnt&#8220; betr\u00e4gt 0,71211 und der zwischen &#8222;gleitet&#8220; und &#8222;Abend&#8220; 1,14766; das erste Paar ist benachbarter. Welches Wort hat den gr\u00f6\u00dften Abstand zu &#8222;gleitet&#8220;? Untersucht man nur die W\u00f6rter dieses und eines weiteren Hofmansthal-Gedichts und ohne <em>stop words<\/em>, also Konjunktionen, Pr\u00e4positionen, Pronomen und so weiter, kommt &#8222;Tod&#8220; heraus, Abstand 2,22855. Der n\u00e4chste Nachbar ist &#8222;gleitend&#8220;, dann &#8222;her\u00fcberglitt&#8220;, dann schon &#8222;vorr\u00fcberrinnt&#8220;, dann &#8222;unheimlich&#8220;. &#8211; Zur Erinnerung: Diese Werte kommen allein aus dem trainierten Datenmodell, haben also nichts mit den Hofmannsthal-Gedichten zu tun und w\u00e4ren f\u00fcr jeden anderen Text gleich. Ja, wenn ich <em>fastText<\/em> mit einem eigenen Hofmannsthal-Korpus anlernen w\u00fcrde&#8230; aber ich h\u00f6r ja schon auf. <\/p>\n\n\n\n<p class=\"wp-block-paragraph\">Die mit der Tabellenkalkulation erstellte Entfernungsmatrix:<\/p>\n\n\n\n<figure class=\"wp-block-image size-large\"><img loading=\"lazy\" decoding=\"async\" width=\"700\" height=\"372\" src=\"https:\/\/www.herr-rau.de\/wordpress\/archiv\/ki_kNN_hofmannsthal_distances_matrix-700x372.png\" alt=\"\" class=\"wp-image-54716\" srcset=\"https:\/\/www.herr-rau.de\/wordpress\/archiv\/ki_kNN_hofmannsthal_distances_matrix-700x372.png 700w, https:\/\/www.herr-rau.de\/wordpress\/archiv\/ki_kNN_hofmannsthal_distances_matrix-300x159.png 300w, https:\/\/www.herr-rau.de\/wordpress\/archiv\/ki_kNN_hofmannsthal_distances_matrix-150x80.png 150w, https:\/\/www.herr-rau.de\/wordpress\/archiv\/ki_kNN_hofmannsthal_distances_matrix-1536x816.png 1536w, https:\/\/www.herr-rau.de\/wordpress\/archiv\/ki_kNN_hofmannsthal_distances_matrix.png 1920w\" sizes=\"auto, (max-width: 700px) 100vw, 700px\" \/><\/figure>\n\n\n\n<p class=\"wp-block-paragraph\">(Und ja, die kann mir auch schon Orange berechnen und ausgeben. Es kommen die gleichen Werte heraus, das beruhigt.)<\/p>\n\n\n\n<h2 class=\"wp-block-heading\">5. Zur\u00fcck zum kNN<\/h2>\n\n\n\n<p class=\"wp-block-paragraph\">Man k\u00f6nnte sich jetzt zehn Verben heraussuchen und als &#8222;Verb&#8220; labeln und zehn Substantive und als &#8222;Substantive&#8220; labeln. Und dann nimmt man ein neues Verb oder ein neues Substantiv und schaut, ob das mit kNN der richtigen Gruppe zugeordnet wird. Hier f\u00fcr &#8222;gleitet&#8220; und die Entfernung zu je einigen willk\u00fcrlich ausgew\u00e4hlten Verben und Substantiven:<\/p>\n\n\n\n<figure class=\"wp-block-image size-large\"><img loading=\"lazy\" decoding=\"async\" width=\"700\" height=\"566\" src=\"https:\/\/www.herr-rau.de\/wordpress\/archiv\/ki_kNN_hofmannsthal_test-700x566.png\" alt=\"\" class=\"wp-image-54754\" srcset=\"https:\/\/www.herr-rau.de\/wordpress\/archiv\/ki_kNN_hofmannsthal_test-700x566.png 700w, https:\/\/www.herr-rau.de\/wordpress\/archiv\/ki_kNN_hofmannsthal_test-300x242.png 300w, https:\/\/www.herr-rau.de\/wordpress\/archiv\/ki_kNN_hofmannsthal_test-150x121.png 150w, https:\/\/www.herr-rau.de\/wordpress\/archiv\/ki_kNN_hofmannsthal_test.png 911w\" sizes=\"auto, (max-width: 700px) 100vw, 700px\" \/><\/figure>\n\n\n\n<p class=\"wp-block-paragraph\">Stellt sich heraus, dass kNN f\u00fcr k=3 (aber auch f\u00fcr die anderen sinnvollen Werte) das Wort &#8222;gleitet&#8220; eher in Gruppe 1 einordnet als in Gruppe 2. Also ist wohl syntaktische Funktion irgendwie enthalten in den 300 Dimensionen? Gegenproben zeigen aber, dass das nicht immer funktioniert, also vielleicht beruhen die relativen \u00c4hnlichkeiten auf anderen Faktoren. Und auch sonst waren meine Ergebnisse gemischt; mit englischen Texten und knapp 400 Dimensionen aus einem anderen Modell habe ich bessere Erfahrungen gemacht, das aber nicht systematisch \u00fcberpr\u00fcft. Man m\u00fcsste sich mal damit besch\u00e4ftigen. <\/p>\n\n\n\n<p class=\"wp-block-paragraph\"><\/p>\n\n\n\n<p class=\"wp-block-paragraph\">Das geht \u00fcbrigens auch blockbasiert mit einer Art von Scratch, habe ich auch aus der Fortbildung: Unter <a href=\"https:\/\/playground.raise.mit.edu\/main\/\">https:\/\/playground.raise.mit.edu\/main\/<\/a> kann man links unten die Erweiterung &#8222;Text Classification&#8220; erg\u00e4nzen und erh\u00e4lt dann neue Bl\u00f6cke, mit denen man ein Modell erstellen kann (also: Gruppen von W\u00f6rtern anlegen), um dann zu \u00fcberpr\u00fcfen, zu welcher Gruppe neue W\u00f6rter geh\u00f6ren. Das geht intern wohl auch \u00fcber kNN, man sieht aber keine Details zum verwendeten Sprachmodell; es sollte aber wohl Englisch sein.<\/p>\n\n\n\n<h2 class=\"wp-block-heading\">6. Zur\u00fcck zur Ausgangsfrage<\/h2>\n\n\n\n<p class=\"wp-block-paragraph\">Hilft das alles irgendwie bei der Ausgangsfrage: <em>W\u00f6rter wie &#8222;gleitet&#8220; und &#8222;vor\u00fcberrinnt&#8220;?<\/em> Nicht wirklich. Wenn ich <em>ein<\/em> solches Wort habe, kann ich mir die n\u00e4chsten Nachbarn zeigen lassen; aber die Nachbarschaft kann auf allem m\u00f6glichen beruhen. Wenn ich mehr W\u00f6rter habe, am besten deutlich mehr als nur zwei, kann ich f\u00fcr andere W\u00f6rter \u00fcberpr\u00fcfen, ob sie eher zu dieser Gruppe geh\u00f6ren als zu einer anderen, die ich daf\u00fcr aber erst anlegen m\u00fcsste. Das w\u00e4re dann sozusagen eine implizite Definition dessen, was man meint mit &#8222;W\u00f6rter wie&#8220;. Die eigentliche Leistung ist aber ohnehin, das passende Label f\u00fcr diese Gruppierung zu finden, und das nimmt einem zumindest dieses KI-System nicht ab.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\"><img loading=\"lazy\" decoding=\"async\" src=\"https:\/\/vg08.met.vgwort.de\/na\/af8a9a63446447dcb746bce16717b3f6\" alt=\"\" width=\"1\" height=\"1\"><\/p>\n","protected":false},"excerpt":{"rendered":"<p>1. Als eine Art Einleitung Immerhin: Da steht schon einmal &#8222;Verben&#8220;, das war ein w\u00f6rtliches Zitat aus einem Aufsatz. Ich kenne das auch in der allgemeineren Form: &#8222;W\u00f6rter wie &#8218;gleitet&#8216; und &#8218;vor\u00fcberrinnt&#8217;&#8220; &#8211; und beides geh\u00f6rt zu meinen pet peeves bei der Deutschaufsatz-Analyse von Gedichten. Ich versuche, das meinen Sch\u00fclern und Sch\u00fclerinnen abzugew\u00f6hnen. Vielmehr soll [&hellip;]<\/p>\n","protected":false},"author":2,"featured_media":54754,"comment_status":"open","ping_status":"open","sticky":false,"template":"","format":"standard","meta":{"_jetpack_newsletter_access":"","_jetpack_dont_email_post_to_subs":false,"_jetpack_newsletter_tier_id":0,"_jetpack_memberships_contains_paywalled_content":false,"_jetpack_feature_clip_id":0,"_jetpack_memberships_contains_paid_content":false,"footnotes":"","jetpack_post_was_ever_published":false},"categories":[25],"tags":[227,254],"class_list":["post-53531","post","type-post","status-publish","format-standard","has-post-thumbnail","hentry","category-informatik","tag-informatik","tag-ki"],"jetpack_featured_media_url":"https:\/\/www.herr-rau.de\/wordpress\/archiv\/ki_kNN_hofmannsthal_test.png","jetpack_sharing_enabled":true,"jetpack_likes_enabled":true,"_links":{"self":[{"href":"https:\/\/www.herr-rau.de\/wordpress\/wp-json\/wp\/v2\/posts\/53531","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/www.herr-rau.de\/wordpress\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/www.herr-rau.de\/wordpress\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/www.herr-rau.de\/wordpress\/wp-json\/wp\/v2\/users\/2"}],"replies":[{"embeddable":true,"href":"https:\/\/www.herr-rau.de\/wordpress\/wp-json\/wp\/v2\/comments?post=53531"}],"version-history":[{"count":3,"href":"https:\/\/www.herr-rau.de\/wordpress\/wp-json\/wp\/v2\/posts\/53531\/revisions"}],"predecessor-version":[{"id":64783,"href":"https:\/\/www.herr-rau.de\/wordpress\/wp-json\/wp\/v2\/posts\/53531\/revisions\/64783"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/www.herr-rau.de\/wordpress\/wp-json\/wp\/v2\/media\/54754"}],"wp:attachment":[{"href":"https:\/\/www.herr-rau.de\/wordpress\/wp-json\/wp\/v2\/media?parent=53531"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/www.herr-rau.de\/wordpress\/wp-json\/wp\/v2\/categories?post=53531"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/www.herr-rau.de\/wordpress\/wp-json\/wp\/v2\/tags?post=53531"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}