{"id":20531,"date":"2022-05-01T07:28:34","date_gmt":"2022-05-01T05:28:34","guid":{"rendered":"https:\/\/www.herr-rau.de\/wordpress\/?p=20531"},"modified":"2023-05-04T14:58:38","modified_gmt":"2023-05-04T12:58:38","slug":"orange-data-mining","status":"publish","type":"post","link":"https:\/\/www.herr-rau.de\/wordpress\/2022\/05\/orange-data-mining.htm","title":{"rendered":"Orange Data Mining"},"content":{"rendered":"<div style='text-align:right;'><small>(<a href='https:\/\/www.herr-rau.de\/wordpress\/2022\/05\/orange-data-mining.htm#comments'>3 Kommentare.<\/a>)<\/small> <\/div>\n<p>Mit dem Open-Source-Programm Orange kann man gro\u00dfe Datenmengen analysieren und visualisieren, also grafisch darstellen. Diese Daten kann man au\u00dferdem als Grundlage f\u00fcr maschinelles Lernen verwenden, das hei\u00dft, man trainiert einen Algorithmus (etwa ein neuronales Netz oder einen Entscheidungsbaum) mit einem Teil dieser Daten, um so Voraussagen f\u00fcr unbekannte zuk\u00fcnftige Daten zu erm\u00f6glichen. Wenn man etwa eine gro\u00dfe Menge an Fotos von Katzen und Hunden hat, kann das System so lernen, auch neue Abbildungen dieser Tiere richtig zuzuordnen.<\/p>\n\n\n\n<p>Im Beispiel unten aus der 9. Jahrgangsstufe werden Daten aus der (\u00f6ffentlich zug\u00e4nglichen) Verbrechensstatistik der amerikanischen Stadt Philadelphia mit Orange bearbeitet. Gespeichert sind dabei Art des Verbrechens, Uhrzeit, Datum, L\u00e4ngen- und Breitengrad. Der Arbeitsablauf in Orange l\u00e4sst sich leicht aus den mitgelieferten Modulen zusammenklicken. In einem S\u00e4ulendiagramm kann man sich die Verteilung der Uhrzeiten anschauen und erkennt Schwerpunkte (in der Nacht, aber auch ein wenig zur Mittagszeit). In einem Punktdiagramm kann man sich zum Beispiel L\u00e4ngen- und Breitengrad und Art des Verbrechens darstellen. So kann man den Umriss von Philadelphia gut erkennen und sieht auch hier eine Konzentration von bestimmten Verbrechensarten auf bestimmte Gebiete. Und zuletzt kann man \u00fcberpr\u00fcfen, wie sehr sich etwa aus Uhrzeit-, L\u00e4ngen- und Breitengrad vorhersagen l\u00e4sst, um welche Art Verbrechen es sich handelt.<\/p>\n\n\n\n<p>Hier im Film erkl\u00e4rt:<\/p>\n\n\n\n<figure class=\"wp-block-video\"><video height=\"1080\" style=\"aspect-ratio: 1920 \/ 1080;\" width=\"1920\" controls src=\"https:\/\/www.herr-rau.de\/wordpress\/archiv\/orange_philadelphia.mp4\"><\/video><\/figure>\n\n\n\n<p>F\u00fcr eine tats\u00e4chliche Voraussage ist die Datenmenge nat\u00fcrlich immer noch zu klein, es sind knapp 10000 Datens\u00e4tze. Obendrein sind solche Voraussagen ethisch problematisch, schnell gibt es Vorurteile \u00fcber ganze Viertel, und wom\u00f6glich sich selbst best\u00e4tigende Vorurteile. Au\u00dferdem muss stets hinterfragt werden, wie korrekt oder sinnvoll solche Voraussagen sind, und welche Schl\u00fcsse man aus ihnen ziehen darf und welche nicht \u2013 oft erkennen Maschinen ebenso wie Menschen Muster, wo gar keine sind.<\/p>\n\n\n\n<figure class=\"wp-block-gallery has-nested-images columns-2 is-cropped wp-block-gallery-2 is-layout-flex wp-block-gallery-is-layout-flex\">\n<figure class=\"wp-block-image size-large\"><a href=\"https:\/\/www.herr-rau.de\/wordpress\/archiv\/orange1.png\"><img loading=\"lazy\" decoding=\"async\" width=\"700\" height=\"351\" data-id=\"20541\" src=\"https:\/\/www.herr-rau.de\/wordpress\/archiv\/orange1-700x351.png\" alt=\"\" class=\"wp-image-20541\" srcset=\"https:\/\/www.herr-rau.de\/wordpress\/archiv\/orange1-700x351.png 700w, https:\/\/www.herr-rau.de\/wordpress\/archiv\/orange1-300x150.png 300w, https:\/\/www.herr-rau.de\/wordpress\/archiv\/orange1-150x75.png 150w, https:\/\/www.herr-rau.de\/wordpress\/archiv\/orange1.png 1106w\" sizes=\"auto, (max-width: 700px) 100vw, 700px\" \/><\/a><\/figure>\n\n\n\n<figure class=\"wp-block-image size-large\"><a href=\"https:\/\/www.herr-rau.de\/wordpress\/archiv\/orange2.png\"><img loading=\"lazy\" decoding=\"async\" width=\"700\" height=\"375\" data-id=\"20542\" src=\"https:\/\/www.herr-rau.de\/wordpress\/archiv\/orange2-700x375.png\" alt=\"\" class=\"wp-image-20542\" srcset=\"https:\/\/www.herr-rau.de\/wordpress\/archiv\/orange2-700x375.png 700w, https:\/\/www.herr-rau.de\/wordpress\/archiv\/orange2-300x161.png 300w, https:\/\/www.herr-rau.de\/wordpress\/archiv\/orange2-150x80.png 150w, https:\/\/www.herr-rau.de\/wordpress\/archiv\/orange2.png 776w\" sizes=\"auto, (max-width: 700px) 100vw, 700px\" \/><\/a><\/figure>\n\n\n\n<figure class=\"wp-block-image size-large\"><a href=\"https:\/\/www.herr-rau.de\/wordpress\/archiv\/orange3.png\"><img loading=\"lazy\" decoding=\"async\" width=\"700\" height=\"365\" data-id=\"20539\" src=\"https:\/\/www.herr-rau.de\/wordpress\/archiv\/orange3-700x365.png\" alt=\"\" class=\"wp-image-20539\" srcset=\"https:\/\/www.herr-rau.de\/wordpress\/archiv\/orange3-700x365.png 700w, https:\/\/www.herr-rau.de\/wordpress\/archiv\/orange3-300x157.png 300w, https:\/\/www.herr-rau.de\/wordpress\/archiv\/orange3-150x78.png 150w, https:\/\/www.herr-rau.de\/wordpress\/archiv\/orange3.png 820w\" sizes=\"auto, (max-width: 700px) 100vw, 700px\" \/><\/a><\/figure>\n\n\n\n<figure class=\"wp-block-image size-large\"><a href=\"https:\/\/www.herr-rau.de\/wordpress\/archiv\/orange4.png\"><img loading=\"lazy\" decoding=\"async\" width=\"700\" height=\"307\" data-id=\"20540\" src=\"https:\/\/www.herr-rau.de\/wordpress\/archiv\/orange4-700x307.png\" alt=\"\" class=\"wp-image-20540\" srcset=\"https:\/\/www.herr-rau.de\/wordpress\/archiv\/orange4-700x307.png 700w, https:\/\/www.herr-rau.de\/wordpress\/archiv\/orange4-300x132.png 300w, https:\/\/www.herr-rau.de\/wordpress\/archiv\/orange4-150x66.png 150w, https:\/\/www.herr-rau.de\/wordpress\/archiv\/orange4.png 1182w\" sizes=\"auto, (max-width: 700px) 100vw, 700px\" \/><\/a><\/figure>\n<\/figure>\n\n\n\n<p>Beim Oldenbourg-Schulbuch <a href=\"https:\/\/informatikschulbuch.de\/jahrgangsstufe-9-uebersicht\/datenschutz\/\">gibt es auch ein bisschen Material<\/a>, insbesondere eine Datei &#8222;3_2_A05a_Praktikum.zip&#8220; &#8211; 2000 Datens\u00e4tze mit vergangenen Kandidaten und Kandidatinnen f\u00fcr ein Praktikum. Gespeichert sind darin verschiedene Attribute, also Mathematik- und Deutschnote, Geschlecht, Brille oder nicht, Nationalit\u00e4t. Aus dieser Gruppe haben etwa 25% das Praktikum erhalten, der Rest nicht. L\u00e4sst sich ein Algorithmus erzeugen (etwa ein Entscheidungsbaum), der das automatisch nach bisherigem Muster vornimmt, um damit in Zukunft die Entscheidung f\u00fcr ein Praktikum automatisiert zu f\u00e4llen?<\/p>\n\n\n\n<p>Mitgeliefert mit Orange werden viele weitere Datensammlungen, etwa \u00dcberlebende der Titanic, mit Daten zu Passagierklasse, Geschlecht, Alter. L\u00e4sst sich da ein Muster erkennen? <\/p>\n\n\n\n<p>Dazu noch: Leberwerte, &#8222;Fluorescence images of the nucleus of mouse fully-grown antral oocytes from University of Pavia&#8220;, illegale M\u00fcllhalden oder Verkehrsunf\u00e4lle in Slowenien, Abstimmungsverhalten, Zeichnungen von Verkehrszeichen oder r\u00f6mischen Amphoren. <\/p>\n\n\n\n<p>Denn auch Fotos kann man mit Orange analysieren und kategorisieren, bei meiner Sammlung von Balkonv\u00f6geln kann es Amseln und Meisen gut unterscheiden. (Oder unterscheidet er nur die Kameraposition, weil ich die Tiere jeweils auf andere Art aufnehme?)<\/p>\n\n\n\n<p>Mit einem Zugang zur Twitter-API kann man Textanalyse von Tweets betreiben, oder eine kapitel- oder satzweise <em>sentiment analysis<\/em> von Erz\u00e4hlungen vornehmen &#8211; also, ob die Stimmung darin, grob gesagt, eher positiv oder eher negativ ist. Ich habe bislang aber nur ausprobiert, dass das technisch geht, ob sich interessante Ergebnisse finden lassen, wei\u00df ich noch nicht. Orange ist ein tolles Werkzeug, und man w\u00fcnscht sich immer mehr Datens\u00e4tze. Zeugnisnoten und Geschlecht am Ende der 6. Jahrgangsstufe &#8211; l\u00e4sst sich da schon die Abiturnote vorhersagen? Das ist nat\u00fcrlich verboten, und diese Daten habe ich auch nicht, aber spannend w\u00e4re es schon. Die Versuchung w\u00e4re da.<\/p>\n\n\n\n<p>Anh\u00e4nge:<\/p>\n\n\n\n<ul class=\"wp-block-list\">\n<li><a href=\"https:\/\/www.herr-rau.de\/wordpress\/archiv\/Dataset-Philadelphia-Blog.ows\">Das Orange-Projekt mit den Philadelphia-Daten<\/a><\/li>\n\n\n\n<li><a href=\"https:\/\/www.herr-rau.de\/wordpress\/archiv\/philadelphia-crime_bearbeitet.csv\">Die dazu erforderliche und ge\u00e4nderte Datei mit Daten zu Philadelphia Crimes, in der ich Datum und Uhrzeit, im Original eine gemeinsame Spalte, in zwei aufgeteilt habe<\/a><\/li>\n\n\n\n<li><a href=\"https:\/\/www.herr-rau.de\/wordpress\/archiv\/Einstieg-in-Data-Mining-2022.odp\">Bonus f\u00fcr die Schule: Pr\u00e4sentation zum Einstieg in Data Mining, 9. Klasse 2022<\/a><\/li>\n<\/ul>\n\n\n\n<p><a href=\"https:\/\/computingeducation.de\/proj-it2school\/\">Hier viel Material zu KI in der Schule.<\/a><\/p>\n","protected":false},"excerpt":{"rendered":"<p>(3 Kommentare.) Mit dem Open-Source-Programm Orange kann man gro\u00dfe Datenmengen analysieren und visualisieren, also grafisch darstellen. Diese Daten kann man au\u00dferdem als Grundlage f\u00fcr maschinelles Lernen verwenden, das hei\u00dft, man trainiert einen Algorithmus (etwa ein neuronales Netz oder einen Entscheidungsbaum) mit einem Teil dieser Daten, um so Voraussagen f\u00fcr unbekannte zuk\u00fcnftige Daten zu erm\u00f6glichen. Wenn [&hellip;]<\/p>\n","protected":false},"author":2,"featured_media":20542,"comment_status":"open","ping_status":"open","sticky":false,"template":"","format":"standard","meta":{"_jetpack_memberships_contains_paid_content":false,"footnotes":""},"categories":[25],"tags":[227,254],"class_list":["post-20531","post","type-post","status-publish","format-standard","has-post-thumbnail","hentry","category-informatik","tag-informatik","tag-ki"],"jetpack_featured_media_url":"https:\/\/www.herr-rau.de\/wordpress\/archiv\/orange2.png","jetpack_sharing_enabled":true,"jetpack_likes_enabled":true,"_links":{"self":[{"href":"https:\/\/www.herr-rau.de\/wordpress\/wp-json\/wp\/v2\/posts\/20531","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/www.herr-rau.de\/wordpress\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/www.herr-rau.de\/wordpress\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/www.herr-rau.de\/wordpress\/wp-json\/wp\/v2\/users\/2"}],"replies":[{"embeddable":true,"href":"https:\/\/www.herr-rau.de\/wordpress\/wp-json\/wp\/v2\/comments?post=20531"}],"version-history":[{"count":2,"href":"https:\/\/www.herr-rau.de\/wordpress\/wp-json\/wp\/v2\/posts\/20531\/revisions"}],"predecessor-version":[{"id":55600,"href":"https:\/\/www.herr-rau.de\/wordpress\/wp-json\/wp\/v2\/posts\/20531\/revisions\/55600"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/www.herr-rau.de\/wordpress\/wp-json\/wp\/v2\/media\/20542"}],"wp:attachment":[{"href":"https:\/\/www.herr-rau.de\/wordpress\/wp-json\/wp\/v2\/media?parent=20531"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/www.herr-rau.de\/wordpress\/wp-json\/wp\/v2\/categories?post=20531"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/www.herr-rau.de\/wordpress\/wp-json\/wp\/v2\/tags?post=20531"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}