Freitag, 14. Juni 2024

Ein statistisches Problem von Ziffernnoten

Thema: Leistungsbeurteilungen und Skalenniveaus

Im Schulsystem sind wir hin und wieder gezwungen, Statistik für die Protokollierung von verschiedenen Dingen zu zweckentfremden. Ein solcher Fall tritt beispielsweise bei Notenstatistiken von Schularbeiten auf. Wenn dafür lediglich eine Liste o. ä. angelegt werden müsste, wäre das kein Problem, aber leider müssen wir dabei mitunter auch Durchschnittsnoten für die ganze Klasse berechnen.

Dieser Zahlenwert ist allerdings streng genommen Schwachsinn, weil seine Bildung nicht ganz einwandfrei ist. In der Statistik arbeiten wir mit Daten, d. h. wir untersuchen verschiedene Werte und bilden auch viele Kennzahlen, die sich mit ihnen ermitteln lassen. Dabei unterscheiden wir zwischen sogenannten Skalenniveaus und meinen damit unterschiedliche Güteklassen von Daten:

Nominalskala

Die einfachste Form sind nominal skalierte Daten, die einfach nur eine bestimmte Eigenschaft beschreiben. Das können beispielsweise Farben (Haar-, Augen-, Lieblingsfarbe, etc.), Orte (Wohn-, Urlaubs-, Geburtsort, etc.), Namen, Muttersprachen, Staatsbürgerschaften, Postleitzahlen, Kennzeichen, Automarken und so weiter sein. Mit dieser Art von Daten können wir Vergleiche anstellen, d. h. entscheiden, ob zwei Werte gleich sind oder eben nicht. Abgesehen davon können wir sie lediglich zählen und dabei feststellen, ob es einen Wert gibt, der am häufigsten auftritt (der Modus oder Modalwert).

Ordinalskala

Das nächste Skalenniveau sind ordinal skalierte Daten. Werte dieser Art können wir nicht nur sortieren, sondern auch ordnen. Dadurch lässt sich auch der Wert in der Mitte (der Median) bestimmen. Typische Beispiele für Ordinalskalen sind u. a. die Leuchtkraft von hell bis dunkel oder Konfektionsgrößen für Kleidung. Insbesondere logarithmische Skalen wie z. B. ph-Werte, Lautstärke in Dezibel, der Visus (die bei einem Sehtest gemessene Sehstärke), die Intensität von Erdbeben auf der Richter-Skala oder von Vulkanausbrüchen mittels Vulkanexplosivitätsindex fallen ebenfalls in diese Kategorie.

Darüber hinaus gibt es auch viele Beispiele, bei denen eine Skala zum Einsatz kommt, die zwar das Bilden einer Rangliste ermöglicht, aber bei genauerer Betrachtung keine einheitliche Regel für den Abstand zwischen den Werten aufweist. Dazu zählen beispielsweise die Windstärke auf der Beaufort-Skala, der Härtegrad von Mineralen auf der Mohs-Skala oder der Schärfegrad von Paprikas auf der (ursprünglich subjektiv gemessenen) Scoville-Skala. Generell fallen viele Dinge, die man subjektiv bewerten kann hier hinein. Bei Umfragen kommt häufig eine sogenannte Likert-Skala zum Einsatz, um Zustimmung oder Abneigung zu einer bestimmten Aussage auszuwählen.

Ein weiteres Beispiel, dass ich meinen Lernenden gerne nenne, sind Levelsysteme in Videospielen wie Pokémon oder Brawl Stars, weil den meisten Kindern dann gleich klar ist, dass man normalerweise nach jedem Aufstieg zumindest ein bisschen mehr machen muss als bisher, um in ein noch höheres Level aufzusteigen. Das ist auch der wesentliche Unterschied zum nächsthöheren Skalenniveau, denn um mit den Werten rechnen zu können, müssen die Abstände zwischen den Einheiten auf der Skala auch wirklich einheitlich sein. 

Kardinalskala

Die kardinal skalierten Daten beinhalten zwei Skalenniveaus. Mit Daten auf einer Intervallskala können wir immerhin schon addieren und subtrahieren, weil die Abstände zwischen den Einheiten auf der Skala überall gleich groß sind. Dazu zählen beispielsweise viele Zeitangaben, wie Geburts-, Sterbe-, Ernte-, Ablauf- oder Mindeshaltbarkeitdaten. Abgesehen davon fallen auch der Intelligenzquotient und Temperaturskalen wie Grad Celsius oder Grad Fahrenheit in diese Kategorie. Ab hier kann außerdem der arithmetische Mittelwert berechnet werden.

Das höchste Güteklasse sind metrisch skalierte Daten. Man sagt dazu auch Ratio- oder Verhältnisskala. Das Besondere daran ist, dass diese zusätzlich zur Eigenschaft einheitlicher Abstände auch noch einen natürlichen Nullpunkt haben, weshalb wir sie auch mit Zahlen multiplizieren und durcheinander dividieren können. Dadurch kann auch das geometrische Mittel berechnet werden. Ein paar einfache Beispiele dafür sind Alter, Geldpreis, Geschwindigkeit, Masse, Länge, Fläche und Volumen. Bei den Temperaturskalen qualifiziert sich jene mit der Einheit Kelvin für dieses Skalenniveau, weil diese einen absoluten Nullpunkt hat.

Nun sollte das Problem mit der Notenstatistik klar sein. Die Ziffernnoten in der Schule sind jedenfalls nicht metrisch skaliert, weil die Abstände zwischen den aufeinanderfolgenden Noten nicht einheitlich groß sind. Ich habe hier ein paar Beispiele von verschiedenen österreichischen Schulen angeführt:


Beurteilungsschlüssel für Schularbeiten des BG/BRG Weiz (Bildquelle: BG/BRG Weiz)

Beurteilungsschlüssel für Schularbeiten des BG/BRG/BORG Eisenstadt (Bildquelle: BG/BRG/BORG Eisenstadt)

 
 Beurteilungsschlüssel für Schularbeiten der MS Rankweil OST (Bildquelle: MS ROST)

Es ist also eigentlich schlichtweg falsch, hier einen Durchschnitt zu berechnen. Eine Möglichkeit, diese Umstand zu umgehen, wäre stattdessen z. B. erst die durchschnittliche Anzahl an Punkten bei einer Schularbeit oder einem Test zu berechnen und im Anschluss daraus eine Durchschnittsnote abzuleiten. Das hat allerdings zu Folge, dass dieser Wert stets ganzzahlig ist.

Die seit ein paar Jahren zusätlich dazu geltende Unterscheidung zwischen Standard und Standard AHS-Noten habe ich hier der Einfachheit halber einmal weggelassen. Man munkelt auch, dass die gleichen Beurteilungen in unterschiedlichen Unterrichtsfächern oder bei unterschiedlichen Lehrkräften nicht gleich viel Aufwand bedeuten, aber dieses Fass ohne Boden möchte ich an dieser Stelle nicht öffnen.

Mir ist es bereits in meiner Studienzeit befremdlich erschienen, dass ich bei der Einreichung meiner Unterlagen für den Bachelorabschluss eine Durchschnittsnote ausrechnen und (händisch!) auf einem Formular eintragen musste. Womöglich wollte das Studienservicecenter nur noch ein letztes Mal sicherstellen, ob der angehende Mathematiklehrer auch einen Mittelwert korrekt bestimmen kann. Vielleicht sollte aber auch nur getestet werden, ob ich einen Aufschrei aufgrund des völlig unpassenden Skalenniveaus machen würde. Im letzteren Fall habe ich diesen Test wohl nicht bestanden, aber das hat meinen Studienabschluss zum Glück nicht verhindert.

Johannes C. Huber (ärgert sich nicht aufgrund der Noten beim Ausfüllen der Schularbeitsstatistik)