Die Normalverteilung, Teil 2

Beim letzten Mal ging es um die technische Seite der Normalverteilung. Diesmal erzähle ich, wie es überhaupt dazu kam, dass ich mir darüber Gedanken machte. Das war so:

Einmal schrieben alle Klassen eines Jahrgangs an unserer Schule die gleiche von uns Lehrern selbst entworfene Prüfung. Sie bestand aus 13 Teilaufgaben; auf jede Aufgabe gab es 3-6 Punkte. Insgesamt waren 60 Punkte zu erreichen. Von drei Klassen hatte ich die Ergebnisse in digitaler Form zur Verfügung, das waren 87 Schüler (ohne Legastheniker und Sonderfälle). Wo ich schon mal so viele Ergebnisse hatte, bot es sich an, die auch mal genauer anzuschauen.

Ein erster Überblick über die Gesamtpunktzahlen, auf der x-Achse die Punkte von 0 bis 60, auf der y-Achse die Summen der erreichten Punkte, schon ein bisschen geglättet:

Unspektakulär. Normalverteilt genug, auch wenn da ein Loch rechts neben der Mitte ist.

Mich hat jetzt besonders interessiert, welche der einzelnen Teilaufgaben uns Prüfungserstellern gut gelungen sind und welche nicht. Ich verrate bestimmt kein großes Geheimnis, wenn ich zugebe, dass man manchmal mit Aufgaben daneben langt. Sie sind zu leicht oder zu schwer oder falsch oder ungeeignet dazu, das zu prüfen, was man damit prüfen will. Ich dachte mir beim Betrachten unserer Prüfungsergebnisse erst mal ganz naiv: Eine Aufgabe mit, sagen wir, 5 Punkten, bei der jeder Schüler nur 0-2 Punkte erreicht hat, war möglicherweise zu schwer. Eine Aufgabe mit 5 Punkte, bei der jeder Schüler 4-5 Punkte erreicht hat, war vielleicht zu leicht und differenziert nicht besonders. Gerade beim Benoten solcher Aufgaben läuft es manchmal darauf hinaus, dass man die Aufgaben, bei denen alle Schüler gleich gut oder gleich schlecht waren, genauso gut gleich hätte weglassen können, so dass die tatsächliche Note eigentlich nur von den wenigen differenzierenden Aufgaben abhängt.

Ich ließ also mein Auge die Spalten des Tabellenkalkulationsprogramms hinabgleiten. In jeder Spalte standen die Ergebnisse einer Aufgabe. Gab es ständig nur hohe Zahlen… zu leicht… gab es ständig nur kleine Zahlen… zu schwer… und weil ich gerne bastle, hoffte ich darauf, dass es vielleicht eine schicke Funktion geben würde, die mir das Rechnen abnimmt und mir auf Basis der eingegeben Zahlen einfach ausgerechnet, wie gut oder schlecht die einzelnen Punkte verteilt waren.

Ah! Daher die Beschäftigung mit der Standardabweichung. Leider hat sich – siehe letzten Eintrag – herausgestellt, dass mir die vermutlich nicht viel weiterhilft. Zumindest ist mir hier noch weniger klar, wie man da von einer Summe unabhängiger Einzeleregebnisse sprechen soll. Außerdem gibt es ja auch noch eine Mittelabweichung, und ich als völliger Laie habe keine Ahnung, ob die nicht ohnehin angebrachter ist. Oder ob das ganze überhaupt Käse ist. Aber völlige Laien schreckt so etwas nicht ab, also habe ich mir eine Tabelle gebastelt und damit experimentiert:

  1. Die Standardabweichung allein sagt noch nicht viel aus. Eine Standardabweichung von 1,4 Punkten bedeutet bei einem Mittelwert von 2,5 Punkten etwas ganz anderes als die gleiche Abweichung bei einem Mittelwert von 5,5 Punkten.
  2. Das kann man ausgleichen, indem man mit dem Quotient aus Standardabweichung und Mittelwert oder maximal erreichbaren Punkten arbeitet. Ist das erlaubt? Holt mich gleich die Statistikpolizei?
  3. Wenn die Standardabweichung 0 ist, haben alle Schüler das gleiche Ergebnis. Wenn die Standardabweichung etwa gleich dem Mittelwert ist, dann gibt es eigentlich nur Extremwerte – entweder viel oder wenig Punkte und kaum etwas dazwischen.
  4. Über den Lösungsgrad einer Aufgabe sagt weder die Standardabweichung noch der Mittelwert etwas. Wenn 8 Punkte zu erreichen wären und sich die Leistungen aller Schüler schön auf die Punkte 0-4 verteilen, dann ist die Aufgabe schön differenzierend, aber trotzdem stimmt etwas nicht mit ihr.
  5. Schön verteilt – dazu weiter unten mehr – sind Ergebnisse dann, wenn der Quotient aus Standardabweichung und Mittelwert um die 0,5 beträgt. Oder der Quotient aus Standardabweichung und maximaler Punktezahl zwischen 0,25 und 0,35. Das sage ich jetzt einfach mal so. Das ist doch schon mal ein Ergebnis, mit dem ich meine Prüfungsaufgaben anschauen kann.

An der Stelle habe ich dann das Handtuch geworfen. Ich gebe auf. Passe. Hier sind die leicht veränderten Werte zu den einzelnen Aufgaben: wem eine schöne Formel einfällt, wie man aus Mittelwert, maximaler Punktzahl, Standardabweichung oder anderem Krimskram ablesen kann, ob einem die Aufgabe gelungen ist, der kann sie ja mitteilen. Vermutlich lernt man im 1. Semester Statistik schon, wie das geht, oder dass das ja mal überhaupt gar nicht geht.

Aufgabe: Max. Mittelw. Lösungsgr. Stabw Stabw/ Mittelw. Stabw/ Max Kommentar
A 3 2,55 85% 0,71 0,28 0,24 zu leicht
B 4 3,38 84% 0,86 0,26 0,22 sehr hoher Lösungsgrad, wenig Ausreißer
C 4 3,31 83% 0,85 0,26 0,21 sehr hoher Lösungsgrad, wenig Ausreißer
D 5 3,92 78% 1,04 0,27 0,21
E 5 3,35 67% 1,30 0,39 0,26 differenziert gut
F 6 4,01 67% 1,10 0,28 0,18
G 6 3,98 66% 1,33 0,33 0,22
H 6 3,81 63% 1,35 0,35 0,22
I 5 3,05 61% 1,11 0,37 0,22
J 4 2,32 58% 0,98 0,42 0,24 differenziert gut
K 4 1,47 37% 0,91 0,62 0,23 geringer Lösungsgrad, differenziert schlecht
L 4 1,39 35% 1,07 0,77 0,27 geringer Lösungsgrad, differenziert schlecht
M 4 1,16 29% 0,97 0,84 0,24 differenziert kaum, sehr ähnliche (schlechte) Werte

Ich habe aber auch deshalb aufgegeben, weil ich auf die darunter liegende unter viel wichtigere Frage gestoßen bin. Wann ist denn eine Verteilung von Punkten schön oder gelungen? Was will ich denn eigentlich erreichen mit einer Aufgabe?

Ah.

Oh.

Was will ich bei einer Aufgabe, für die ich 8 Punkte gebe: will ich, dass alle Schüler 7-8 Punkte kriegen, will ich eine Verteilung über das Spektrum 5-8 oder eine über 0-8? Oder will ich, dass es entweder 0 oder 8 Punkte gibt und nichts dazwischen? Warum? Es hilft natürlich nichts, zu sagen, dass es nicht darauf ankommt, was man als Lehrer will, sondern darauf, was die Schüler leisten. Denn natürlich hängt das Ergebnis dann doch von der Aufgabenstellung ab, ob man sich bewusst für eine entschieden hat oder nicht.

Eigentlich wollte ich meine Überlegungen hierzu auch noch in diesen Blogeintrag packen. Aber die sind dann so unpräzise und durcheinander geworden, dass ich ihnen lieber durch den in Bälde folgenden eigenen Eintrag zumindest den Anschein inneren Zusammenhangs geben möchte. (Vielleicht fällt ja jemand darauf herein.)

15 Antworten auf „Die Normalverteilung, Teil 2“

  1. Die »Güte« einer Aufgabe kann man mit der Item-Test-Korrelation (Trennschärfe) feststellen. Das Ergebnis einer Idealaufgabe entspricht dem Ergebnis des Testes, sodass man eigentlich nur diese Aufgabe stellen müsste. (Ich freue mich gerade, dass das Modul »Pädagogische Diagnostik« nicht umsonst war! Wenn du magst, kann ich dir gern meine Lernzusammenfassung zuschicken.)

    Zu schwierige bzw. zu leichte Aufgaben sind per se nicht schlecht, denn sie dienen dazu, gute Schüler von sehr guten bzw. schlechte Schüler von sehr schlechten zu unterscheiden. In der Geografiedidaktik hat man uns allerdings angeraten, zu Beginn eines Tests immer eine Eisbrecheraufgabe einzubauen, die alle Schüler lösen können.

  2. Wenn ich mir gerade mal die Zahlen anschaue, dann ist auffällig, dass der Lösungsgrad von Aufgabe A zu M (mit besonders niedrigen Werten bei K, L und M) abnimmt. Ist die Aufgabe tatsächlich schwer oder a) haben sie einige Schülerinnen und Schüler aus zeitlichen Gründen nicht geschafft bzw. b) konnten sich einige Schülerinnen und Schüler am Ende nicht mehr konzentrieren?

  3. „[…] indem man mit dem Quotient aus Standardabweichung und Mittelwert oder maximal erreichbaren Punkten arbeitet. Ist das erlaubt?“

    Ja, der Quotient aus Standardabweichung und Mittelwert heißt relatives Streuungsmaß oder Variationskoeffizient.

  4. Nebenschauplatz:
    Ich musste mich auf der MoodleMoot darüber belehren lassen, dass die Bildung eines Mittelwertes bei diskontinuierlichen Skalen (z.B. Klassenspiegel) mathematischer Unsinn ist und man doch lieber auf den Median ( http://de.wikipedia.org/wiki/Median ) ausweichen solle. Der ist im Gegensatz zum Mittelwert gegenüber „Ausreißern“ mathematisch wesentlich robuster. Bei z.B. Temperatur-/Zeitdiagrammen ist das grundsätzlich anders, da die Messintervalle willkürlich gesetzt, aber grundsätzlich Zwischenwerte möglich sind. „60,75 Punkte“ gibt es in deinem Beispiel ja strenggenommen gar nicht (außer im Mittelwert). Das hörte sich für mich erstmal schlau an, aber wirklich weiter bin ich damit auch nicht.

  5. Ich bin auch für die relative Standardabweichung (http://de.wikipedia.org/wiki/Variationskoeffizient), aber nur wenn es darum geht, die schwächeren Schüler von den Besseren zu unterscheiden, für den Icebreaker ist aber trotzdem hoher Mittelwert und kleine Standardabweichung gut. Außerdem glaube ich, dass sich eine gute Prüfung auch an der gleichmäßigen Verteilung von einfacheren und schweren Aufgaben zeigt, also insgesamt braucht man möglichst weit auseinander liegende (relative) Mittelwerte, in einer Prüfung.

  6. „Das Ergebnis einer Idealaufgabe entspricht dem Ergebnis des Testes, sodass man eigentlich nur diese Aufgabe stellen müsste.“ Das Phänomen kenne ich jedenfalls. Über die Note entscheidet letztlich eine Aufgabe in der Englischschulaufgabe, die anderen waren alle zu leicht oder zu schwer.

    Abnahme des Lösungsgrads von A-M: Nein, ich habe die Aufgaben einfach dem Lösungsgrad nach sortiert und auch sonst einige Details verändert. Ich will nicht zu viel Daten aus dem Test preisgeben, da es nicht ausschließlich mein Test war. So kann ich immer noch behaupten, die Daten seien gar nicht die echten, zumal ich der einzige bin, der überhaupt über diese Daten verfügt.

    Variationskoeffizient: Sehr hilfreich, danke.

    Nebenschauplatz: Na ja, so diskontinuierlich würde ich die Punkteskala nicht sehen. Es gibt ja auch halbe Punkte. Bei meinen Beispielen sind Mittelwert 3,03 und Median 3 bzw. Mittelwert 37,85 bzw. Median 37. (Und bei den Zufallswürfen: 34,89 bzw. 35.) Irgendwann wird jede vermeintlich analoge Skala dann ja doch digital-diskontinuierlich. Das gilt dann auch für die Abbildung von Punkten auf Noten – wenn dazu der übliche äquidistante Schlüssel verwendet wird.

    (Dazu, wieviel Sinn die Berechnung eines Notendurchschnitts in den meisten anderen Fällen macht, beim nächsten Mal.)

  7. Der von Julius‘ in seinem Kommentar erwähnte Trennschärfekoeffizient geht auf jeden Fall mal in die richtige Richtung: Man berechnet die Korrelation zwischen dem Ergebnis der Teilaufgabe und der vom Schüler insgesamt erreichten Punktezahl. Statistik-Puristen ziehen von der Insgesamt-Zahl gerne auch noch die Teilpunkte der zu untersuchenden Aufgabe ab, um zu verhindern, dass der Trennschärfekoeffizient künstlich erhöht wird.

    Der ebenfalls in den Kommentaren erwähnte Median ist hier wahrscheinlich nur ein grober Anhaltspunkt, aber – wie auch erwähnt – robuster gegen Extremwerte als das arithmetische Mittel. Wenn man den Median bildet, sieht man zumindest mal, wo der «mittlere Schüler» so steht – und ob das eher im oberen oder eher im unteren Punktebereich liegt.

    Was hier noch nicht erwähnt wurde: Das Boxplot-Modell. Gearbeitet wird mit dem Median und der „Box“, die 50% der Werte einfangen soll. Man könnte das Modell aber so variieren, dass du eine Zielbreite für deine Box vorgibst und durch einen Vergleich mit den realen Daten siehst, ob das ungefähr erfüllt wird oder eher nicht.
    (Ansonsten lassen sich die Breiten der Box für verschiedene Teilaufgaben vergleichen; je enger die Box, desto stärker konzentrieren sich die Punktzahlen um den Median herum.)

    (Ich hoffe, da war eine Anregung dabei. Dieser Kommentar wurde erstellt mit dem Wissen aus einem Semester empirischer Sozialforschung, die offizielle Statistik-Vorlesung kommt erst noch…)

  8. An eine »schöne« ist die Normalverteilung doch eigentlich eine ganz gute Annäherung. Die Hälfte der Schüler sind das Mittelfeld, jeweils ein Viertel liegt drunter oder drüber, und die Extreme bilden sich schön differenziert ab. Bloß die Konstruktion … Zwar habe ich die Hälfte wieder vergessen, weiß aber, wo man es nachschlagen kann: bei Lienert & Raatz, »Testaufbau und Testanalyse« (Beltz 1998).
    Wegen der ausgesprochenen Schwierigkeit, einen Test zu entwickeln, dessen Ergebnisse nicht nur normalverteilt, sondern auch zuverlässig, zeitstabil und überhaupt sinnvoll (konstruktvalide) sind, dauert beispielsweise die Entwicklung eines allgemeinen Intelligenztests viele Jahre. Und klappt auch nicht immer so ganz.

  9. Was es alles gibt… Boxplot sieht gut aus. Das ist zwar leider kein einfacher Wert, den ich ablesen kann, aber eine anschauliche Darstellung.

    Testentwickeln ist schwierig, oh ja. Ich habe ab und zu damit zu tun, und dazu kommen noch die üblichen Prüfungen in der Schule (meist Englisch). Einer meiner Schwachpunkte, da hätte ich gerne eine Fortbildung dazu.

  10. Wozu diese Statistik. Man sollte als Lehrer ein Thema haben und wissen, welche Dinge die Schüler lernen sollen. Wenn sie dann die Aufgaben gut schaffen hat der Lehrer seinen Job gut gemacht. Wenn Schüler darin versagen hat möglicherweise der Lehrer versagt. Diese Rechnungen hier sind unmenschlich. Man merkt anhand dieser Überlegungen, dass es in der Schule mehr ums aussortieren geht, als darum Wissen und Fähigkeiten zu vermitteln.

  11. @Petra Da muss ich den guten Herrn Kollegen in Schutz nehmen. Ja, das Aussortieren ist Primärfunktion. Die klar rechtlich definierten Funktionen von Schule:
    1. Selektion
    2. Allokation
    3. Qualifikation

    Sicherlich ist es ein großes Problem in Deutschland, dass man aufgrund der Verbeamtung miese Lehrer nicht loswerden kann, aber durch die Zentralisierung der Prüfungen ist nun sehr klar erkennbar, wer nix taugt. Hat ein Kollege die Lerngruppe aber in der statistischen Glockenkurve, ist alles ok. Es SOLLEN gar nicht alle schaffen. Ein System, das keinen Ausschuss produziert, hat keine Standards…das ist nicht „unmenschlich“, sondern so läuft es eben in der Gesellschaft. Standards sind klar vorgegeben, auch im späteren Erwachsenenleben. Wer diese überdurchschnittlich erfüllt, steigt auf, wer diese unzureichend oder gar nicht erfüllt, fliegt raus.
    Die Alternative wäre die inflationäre Vergabe von Qulifikationen, die nicht das Papier wert sind, worauf sie gedruckt wurden und wohin das führt, sehen wir am US-Amerikanischen Schulsystem und in weiten Teilen Großbritanniens…

  12. Danke, @Christian, das sehe ich auch alles so. Noten vergeben ist das, was einem als Lehrer am wenigsten Spaß macht und mit dem man sich am meisten plagt. Ich würde gerne darauf verzichten, aber a) sind die gesetzlichen Vorgaben nun einmal so, und b) bin ich sehr skeptisch, ob eine Schule, wie wir sie kennen, ohne Noten machbar ist.

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert.