Die Normalverteilung, Teil 1

By | 29.3.2010

Aus Gründen, die ich in einem folgenden Blogeintrag erklären werde, habe ich mich neulich etwas mit der Normalverteilung beschäftigt. Die wird gerne mal von Lehrern und Eltern im Mund geführt. Ich entschuldige mich gleich vorab bei allen Statistik-Erstsemestern, für die das hier alles olle Kamellen sind. Und sicher habe ich auch einige Fehler in meinen Überlegungen; man darf mich gerne darauf hinweisen.

Nehmen wir mal an, wir haben 300 Spieler. Jeder Spieler würfelt 10 mal mit einem Würfel und zählt zusammen, was herauskommt. Es wird wahrscheinlich kaum einen Spieler geben, bei dem das Minimum 10 herauskommt oder das Maximum 60, einige mehr mit 20 oder 50, und viele mit Werten zwischen 30 oder 40.
Die Chancen für 10 1er oder 10 6er beim Würfeln stehen nämlich jeweils bei (1/6)10 zu 1, das heißt etwa 1,6 mal bei zehn Millionen Spielern. Das wird bei 300 Spielern also nur äußerst selten vorkommen. Tatsächlich wird eine Verteilung der Ergebnisse bei 300 Spielern eher so aussehen:

Bei diesem Diagramm – unten wird es noch ein anderes geben – stehen auf der x-Achse die möglichen Ergebnisse von 10 bis 60 und auf der y-Achse die Häufigkeit, wie oft dieses Ergebnis bei einem Versuch mit 300 Spielern erreicht wurde. Selbst bei 3000 Spielern sieht die vorgestellte Kurve übrigens noch sehr krumm aus. Der Mittelwert (Durchschnitt) aller Ergebnisse liegt bei 300 oder 3000 Spielern ziemlich genau bei 35.
Die Ergebnisse bei diesem Spiel sind außerdem normalverteilt, da jedes Ergebnis die Summe verschiedener voneinander unabhängiger Einzelergebnisse ist (nämlich den einzelnen Würfen).

Für solcherart verteilte Ergebnisse gibt es eine Funktion, die Normalverteilungsfunktion. Da kommt dann eine Kurve heraus, die so aussieht, wie man sie sich vorstellt. Ein Beispiel:

Der Mittelwert für diese Kurve liegt bei 35, am häufigsten treten Zahlen etwa zwischen 30 und 40 auf, und Ergebnisse unter 20 oder über 50 gibt es fast keine. Die gestrichelten Linien bedeuten Folgendes: 68,3% aller Ergebnisse befinden sich in diesem Bereich, also gut zwei Drittel. Das gilt für alle Normalverteilungskurven.
Um diese Funktion zu berechnen und darzustellen, braucht man zwei Parameter: die Standardabweichung und (optional) den Mittelwert.

Die Standardabweichung gibt quasi an, wie sehr sich die Ergebnisse in der Mitte der Kurve ballen, oder wenn man so will, wie steil die Kurve ist. Hier sind zwei Normalverteilungen mit jeweils unterschiedlicher Standardabweichung:


In beiden Kurven beträgt der Mittelwert 3,5. Beide sind normalverteilt, trotzdem unterscheiden sie sich: In der ersten Kurve beträgt die Standardabweichung σ etwa 0,8, ist also relativ gering. Deswegen häufen sich in der Kurve die Ergebnisse mehr in der Mitte als in der zweiten Kurve: Dort ist die Standardabweichung mit σ=1,4 etwas größer ist. Die Werte weichen also etwas mehr von einem Standard ab, die Kurve ist flacher. In beiden Kurven sind wieder die gestrichelten Linien eingezeichnet, innerhalb derer sich jweils gut zwei Drittel aller Ergebnisse befinden. (Die Linien ergeben sich jeweils aus dem Mittelwert +/- der Standardabweichung.)

Wir merken uns also erst einmal: es gibt nicht die Normalverteilung, sondern beliebig viele davon ab, die sich durch unterschiedliche Standardabweichungen unterscheiden. Die erste Kurve entspricht einer Schulaufgabe mit keinen 1er und 6ern, wenigen 2ern oder 5ern und vielen 3ern und 4ern. Die zweite Kurve entspricht einer Schulaufgabe mit wenigen 1er und 6ern, einigen 2ern und 5ern und mehr 3ern und 4ern. Beide Ergebnisse sind normalverteilt.

Wir merken uns außerdem: man muss die Kurven anders lesen als das erste Diagramm ganz oben. Die Höhe der Kurve sagt nichts über die absolute Anzahl der Teilnehmer mit den jeweiligen Ergebnissen aus. Selbst wenn ich die y-Achse mit Einheiten eingezeichnet hätte, könnte man das nicht. Kein Wunder: in die Kurve gehen als Information nur der Mittelwert und die Standardabweichung ein, nichts über die absolute Anzahl.

Wir merken uns drittens: der Mittelwert ist für die Kurve gar nicht so wichtig. Drei Schulaufgaben mit der Notenverteilung:

1 3x             1 -               1 -
2 12x            2 3x              2 -
3 12x            3 12x             3 3x
4 3x             4 12x             4 12x
5 -              5 3x              5 12x
6 -              6 -               6 3x

haben die gleiche Standardabweichung, die Kurve sieht gleich aus. Nur der Mittelwert ist anders, 2,50 im ersten, 3,50 im zweiten und 4,50 im zweiten Fall. Für die Grafik heißt das eigentlich nur, dass die Kurve etwas nach rechts oder links verschoben wird.

Ausprobieren und herumverschieben kann man das in folgendem kleinen Fenster. Aus technischen Gründen habe ich noch einen Faktor „Lupe“ ergänzt, der eigentlich überhaupt gar nichts bei der Normalverteilungsfunktion zu suchen hat. Aber damit kann man sozusagen den Maßstab der y-Achse sozusagen anpassen, damit man leichter etwas sieht.

Zoomen geht (browserabhängig) mit den Tasten +/-. Von den Icons im Menü oben braucht man das ganz linke zum Verändern der Werte und das ganz rechte zum Verschieben der Funktionskurve.

— Was heißt das alles für die Schule? Nehmen wir zum Beispiel mal eine Englischschulaufgabe, die ich vor ein paar Jahren geschrieben habe. Sie bestand aus acht Teilaufgaben, bei denen jeweils so etwa zwischen 6 und 10 Punkten erreicht werden konnten, so dass die maximal mögliche Punktzahl 60 betrug. 29 Schüler hatten mitgeschrieben. Das Ergebnis sah so aus:

Wenn man davon ausgeht, dass diese Ergebnisse normalverteilt sind – also vor allem, wenn die Ergebnisse der einzelnen Teilaufgaben unabhängig voneinander sind (was auch immer das in diesem Fall genau heißt) – und wenn man mal ignoriert, dass 29 Datensätze zu wenig sind, um viel Sinnvolles darüber sagen zu können, dann ergeben die Daten eine Standardabweichung σ von 6,59. Zusammen mit dem Mittelwert von 45,6 Punkten gäbe das folgende Normalverteilungsfunktion:

Laut Kurve haben 68,3% der Schüler zwischen 39 und 52 Punkte, nach den erreichten Punkten waren es 66%. Die Kurve beschreibt also tatsächlich halbwegs die Ergebnisse, sofern man das bei so geringen Datenmengen überhaupt sagen will.

Die Schüler kriegen aber keine Punkte auf ihre Schulaufgaben, sondern Noten. Dazu werden die erreichten Punkte reduziert auf sechs Notenstufen. Dabei gibt es natürlich einige Rundungsfehler. Bei der Schulaufgabe damals kam heraus:

1 3x
2 6x
3 10x
4 8x
5 2x
6 –

Mittelwert 3,03 und Standardabweichung 1,15. Als Kurve:

Na ja, passt so ungefähr. Viel mehr Übereinstimmung ist nicht zu erwarten, wenn man aus 29 Zahlen von 1-6 (die mit Rundungsfehler ermittelt wurden aus anderen Zahlen, die vielleicht normalverteilt sind) eine Standardabweichung ermitteln will. Es macht nicht viel Sinn, schätze ich, das hier überhaupt zu tun. Sobald die Noten nicht mehr so hübsch symmetrisch verteilt sind, liegt auch keine Normalverteilung mehr vor.

— Wozu das ganze überhaupt? Als Vorbereitung für den nächsten Eintrag. Und um ein Scherflein dazu beizutragen, die Welt daran zu erinnern, dass man „Standard“ mit „d“ hinten schreibt.

Neben der Standardabweichung gibt es auch noch die Mittelabweichung. Die sagt aus, um wieviel die Werte durchschnittlich vom Mittelwert abweichen. Bei der Standardabweichung werden Ausreißer mehr berücksichtigt, denn bei der Mittelabweichung kann der gleiche Wert herauskommen, wenn a) sich alle Ergebnisse um die Mitte scharen oder b) sich alle Ergebnisse auf die Extreme verteilen.

15 thoughts on “Die Normalverteilung, Teil 1

  1. Matthias Heil

    Oh, das ist interessant (und dazu ein schönes Beispiel für veranschaulichenden Geogebra-Einsatz), vielen Dank… und auf den nächsten Beitrag freue ich mich schon sehr, hoffentlich geht der in Richtung Testkultur bzw. Test-Reliabilität…

  2. Herr Rau Post author

    Richtung Testen auf jeden Fall. Ich merke allerdings schon, dass ich mir da mehr vorgenommen habe, als ich leisten kann und mir noch einige Gedanken mehr machen muss.

  3. Pingback: Von der summativen zur formativen Evaluation: Das Ende der Notengebung? « MatthiasHeil.de

  4. Mareike

    Ui, da bin ich ja auf den nächsten Eintrag gespannt. Mal gucken ob mein dann halbes Psychologiediplom da was bringt.

  5. Herr Rau Post author

    Jetzt muss ich mir ja richtig Gedanken machen und auch was genügend Tiefes schreiben…

  6. Mareike

    Wegen mir? Sicher nicht!
    Wenn es mit Testung zu tun hat, interessiert es mich nur. Diagnostik war/ist eins meiner Lieblingsfächer im Hauptstudium.

  7. Mareike

    („meinetwegen“ heißt das auf ordentlich deutsch, oder? peinlich, peinlich…)

  8. Pingback: Statistik für Anfänger – Von Normalverteilungen und Standardabweichungen « Die ganze Welt des Wahnsinns

  9. Herr Rau Post author

    „Wegen mir“ hätte ich aber nicht mal angeringelt.

  10. Frank

    Guten Abend,

    nach mehrmaligen lesen habe ich „die Normalverteilung“ verstanden. Hoffentlich!;-)

    Grüße aus Köln
    Frank

  11. Johanna

    Lieber Herr Rau,

    vielen Dank für diesen (jetzt schon älteren) Eintrag! Ich habe mich gefragt, ob die Normalverteilung in der Praxis tatsächlich noch so eine Rolle spielt – bekommen Sie als Fachlehrer Ärger mit Ihren Vorgesetzten (der Schulleitung oder wem auch immer), wenn sie keine normalverteilten Klausurergebnisse vorweisen können??

    Viele Grüße,
    eine Lehramtsstudentin

  12. Herr Rau Post author

    Ob die Noten normalverteilt sind oder nicht, spielt für die Praxis keine Rolle. Sie sind es meistens ohnehin, und wenn nicht (sehr gelegentlich: bimodal), ist das gar kein Problem.

    Aber: Die Noten sind ja auch dann normalverteilt, wenn sie sich alle im Bereich 2-4 bewegen, mit dem Schwerpunkt in der Mitte.
    Und sie sind auch dann normalverteilt, wenn sich die Noten im Bereich 1-4 bewegen, mit dem Schwerpunkt in der Mitte. (Ähnlich auch bei 3-6, aber das kommt viel seltener vor.)

    In diesen Fällen gibt es auch nie Ärger, aber sie fallen doch dem Fachbetreuer auf. Sage ich als Fachbetreuer. Ich weise dann darauf hin, dass es sinnvoll sein kann, den Spielraum jeweils auszunutzen. Aber das war’s dann auch.

  13. Ralph

    Schon lange wurde nichts mehr geschrieben … Aber, das Aufpressen der Normalverteilung auf die Ergebnisse einer Klassenarbeit ist ein Verbrechen (und außerdem statistisch gesehen, einfach falsch, weil die Stichprobenmenge – sie sollte größer als 100!!! sein, einfach nicht stimmt) an jungen, unerfahrenen Lehrern. Sie bekommen Herzrasen, wenn ihre Ergebnisse dann nicht dieser Kurve entsprechen, je mehr, desto mehr Herzrasen … Also, warum macht man nicht einfach Schluss mit dieser falschen Interpretation, und das deutlich und konsequent!!!

  14. Johanna

    Hallo,
    danke für diese Reflektionen.
    Meines Wissens darf man für ordinale Werte, wie es Noten ja einmal sind, kein arithmetisches Mittel errechnen und kann somit auch keine Normalverteilung angeben….Wie verhält es sich damit?

  15. Herr Rau Post author

    Man darf vieles, auch ordinale Werte mitteln – es gibt ja kein Gesetz dagegen. Wie sinnvoll das jeweils ist, ist eine andere Frage. Man könnte argumentieren, dass nicht alle Noten so furchtbar ordinal sind – in Mathe und Englisch werden Punkte verteilt und dann nach einer oft auch noch linearen Skala auf die Notenwerte verteilt. Das gibt dann halt Rundungsfehler. Aber ja, Deutsch-Aufsatznoten sind sicher ordinal.

    In Bayern muss das arithmetische Mittel errechnet werden. (Klar hat man dann noch Spielraum.) In anderen Bundesländern heißt es, das arithmetische Mittel darf nicht die Basis für die Entscheidung für die endgültige Note sein – es tät mich aber sehr wundern, wenn es nicht auch da ausgerechnet würde.

    Ach so, meine Gedanken beziehen sich auf Zeugnisnoten, nur da taucht das arithmetische Mittel ja auf. Die Normalverteilung bei Prüfungen spielt ja allenfalls als diagnostisches Instrument eine Rolle und hat – im Idealfall – gar keine Auswirkungen auf die Schüler und Schülerinnen.

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert.