Ich lese in letzter Zeit viel gegen Noten. Angefangen hat das mit einem Kommentar zu einem meiner Blogeinträge, dann ging es weiter mit einer Diskussion im Lehrerforum, wo auf Nachfragen dann auch eine wissenschaftliche Quelle zur Behauptung „Noten sind willkürlich und nicht objektiv“ genannt wurde.
Einer Diskussion bei Twitter (sofern möglich; auf Twitter gibt es keine sinnvollen Diskussionen) folgte dieser Blogeintrag bei Forschungswege. Und heute morgen lese ich schon wieder ganz apodiktisch bei Twitter: „Noten sind Unsinn, da nicht vergleichbar, undifferenziert und als Feedback unbrauchbar.“
Ich bin ja auch sehr skeptisch, was Noten betrifft. Aber vieles von dem, was ich da lesen musste, ist falsch. (Zugegeben, die Kommentare stammen alle von Lehrern mit Schwerpunkt Grundschule, vielleicht lässt sich das auch einfach nicht übertragen auf meine Schulart.) Aber dazu später mehr in einem eigenen Blogeintrag. Heute geht es mir nur um die oben genannte Quelle zur Behauptung, Noten seien willkürlich und nicht objektiv. Die Quelle – sicher nicht die einzige, aber die einzige, die genannt wurde – war der Kommentatorin nur aus einem anderen Buch bekannt. Ich bin gestern selber in die Bibliothek und habe den Aufsatz herausgesucht: „Wie einig sind sich Lehrer bei der Aufsatzbeurteilung? Eine Replikationsstudie zur Untersuchung von Rudolf Weiss“, Peter Birkel/Claudia Birkel, in: Psychologie in Erziehung und Unterricht 49/2002, S. 219 – 224.
Hier meine Zusammenfassung des Aufsatzes:
Der Versuchaufbau
Ausgangspunkt waren vier unterschiedlich gute Aufsätze aus einer 4. Klasse, ursprünglich benotet von 2+ bis 4-. Von jedem Aufsatz wurden zwei Varianten erstellt, eine mit wenig und eine mit viel Rechtschreibfehlern. 89 teilnehmende Grundschullehrer(innen) erhielten jeweils diese vier Aufsätze – in unterschiedlichen Kombinationen von guter/schlechter Rechtschreibung. Die sollten sie dann benoten.
Den teilnehmenden Lehrern wurde Anonymität zugesichert, so dass über ihre Zusammensetzung nichts bekannt ist; ich gehe davon aus, dass sie alle aus dem gleichen Bundesland stammen (sonst wäre das Ergebnis nicht brauchbar), vermutlich Baden-Württemberg, da die Autoren in diesem Land an der Universität bzw. PH arbeiteten.
Die Lehrer erhielten keine Kriterien zur Bewertung. Zwar belegten Untersuchungen, dass mit Kriterienkatalogen „die Reliabilität der Zensuren so sehr gesteigert werden kann, dass sie nahe an die Größenordnung herankommt, die für formelle Tests gefordert wird“ (S. 220). Aber da Grundschullehrer solche Kriterienkataloge in der Regel nicht benutzten, so die Autoren, gab es auch keine bei dieser Untersuchung.
Die Ergebnisse
Die durchschnittliche Benotung aller Aufgaben entsprach äußerst gut der ursprünglich gegebenen Note.
Die Rechtschreibung spielte eine Rolle bei der Benotung; im Schnitt wurden die Aufsätze mit vielen Fehlern um eine Drittelnote schlechter benotet als die ohne.
Allerdings gab es deutliche Unterschiede bei der Einzelbenotung. Der ursprünglich mit 1- bewertete Aufsatz wurde (in der Version mit wenig Rechtschreibfehlern) von 1- bis 4- bewertet. Zugegeben, von 37 Lehrern gab es die Note 1 bis 2-3, nur von 1 Lehrer die Note 4-. (Zum Herumhacken auf den Tendenzen: Es geht wohl um Baden-Württemberg, und zumindest damals wurde die Note 2+ als 1.75 gewertet und die Note 2- als 2.25 – in Bayern gibt es nur volle Noten.)
Ähnliche Streuung – also Note 1-5 für den selben Aufsatz gibt es auch bei den anderen Aufsätzen, am wenigsten bei dem ursprünglich mit 4- benoteten Aufsatz. Es sind zwar jeweils nur wenige Ausreißer, aber die sind nun einmal da.
Interpretation der Ergebnisse
„Offenbar ist es wohl leichter, bei einer schlechten Leistung ein größeres Maß an Übereinstimmung zu erreichen als bei mittelmäßigen oder guten Leistungen!“ (S. 223). Das deckt sich übrigens mit meiner Erfahrung; ob eine Leistung ausreichend ist (1-4) oder nicht (5-6), das kann ich selber auch leichter entscheiden als den Grad dessen, wie sehr sie ausreicht beziehungsweise sehr gut ist. Insofern ist es etwas schade, dass keine nicht ausreichenden Leistung in die Untersuchung einbezogen wurden.
Weiterhin bemängeln die Autoren der Studie, dass die Rechtschreibleistung signifikant bei der Bewertung des Aufsatzes eine Rolle gespielt habe. Sie schließen daraus, dass wenn man bei der Bewertung eines Aufsatzes Schwierigkeiten hat (und die hat man immer, sage ich, leicht ist das nicht), gerne auf leichter zu bewertende, aber irrelevante Merkmale wie Anzahl der Rechtschreibfehler oder Geschlecht des Schülers ausweicht. Uh? Ich gehe davon aus, dass es in Baden-Württemberg zumindst damals in der 4. Klasse so war, dass Rechtschreibung explizit nicht in die Aufsatzbewertung einfließen sollte, oder habe ich das missverstanden? Das kann ich mir eigentlich gar nicht vorstellen.
Die Autoren der Studie sagen zur großen Spannbreite bei den Noten: „Kriterienkataloge könnten hier Abhilfe schaffen!“ (S. 223), aber Grundschullehrer würden im Studium nichts davon hören und sie deswegen auch in der Praxis nicht anwenden. Bisher hätte die „Anwendung solcher Kriterien eher im Bereich der Sekundarstufe Eingang gefunden […] und ihren Wert bewiesen.“ Ein weiterer Grund könne sein, dass in der Grundschule oft fachfremd Deutsch unterrichtet werde; kein Wunder, dass diese Lehrkräfte nichts von Kriterienkatalogen hielten.
Mein Kommentar
Es ist interessant, dass die Durchschnittsnote der Aufsätze sehr genau den ursprünglich gegebenen Noten entspricht. Man könne der Lehrerin, die die Aufsätze ursprünglich benotet hat, „ein Kompliment machen“ (S. 223). Nicht nachgegangen wird der Frage, wie das zu erklären ist. Gibt es manche Lehrer, die doch objektiv benoten können? Zeichnet sich diese ursprünglich ausgewählte Lehrkraft durch bestimmte Merkmale aus? Oder ist es einfach wahrscheinlich, eine Lehrkraft zu erwischen, die genauso benotet wie der Durchschnitt der Lehrkräfte?
Was nicht untersucht wird: Hatten die die jeweiligen Lehrkräfte eigene Kriterienkataloge, implizit oder explizit? Waren diese Kriterien den Schülern und Schülerinnen bekannt? Objektivität müsste man eher dadurch messen, dass ein Aufsatz von derselben Lehrkraft mit einem Abstand von einem Jahr benotet wird, und nicht durch Vergleich mit anderen Lehrkräften mit anderen expliziten oder impliziten Kriterienkatalogen. Sicher auch kein einfacher Versuchsaufbau.
Insgesamt: Schön zu lesen. Das steckt Interessantes drin. Für ein pauschales: „Aufsatznoten sind willkürlich und nicht objektiv“ ist der Aufsatz allerdings keinesfalls Beleg und will es auch nicht sein.
Sind Noten möglicherweise trotzdem willkürlich und nicht objektiv? Kann sein. Andere Untersuchungen zeigen das vielleicht. Aber den nächsten Aufsatz überprüft dann bitte jemand anderes.
Schreibe einen Kommentar