Das Skalenniveau und ihre Bedeutung in der Statistik

Das Skalenniveau und ihre Bedeutung in der Statistik

In der Statistik gehört das Verständnis über das Skalenniveau von Variablen zu einem entscheidenden Kriterium für die sinnvolle Anwendung statistischer Verfahren und die Interpretation von Daten. Im Folgenden erkläre ich anschaulich die drei unterschiedlichen Messniveaus: nominal, ordinal und metrisch.

Kürzlich läutete mein Mobiltelefon, als ich eben an der Kassa nach ein paar Münzen in der Geldbörse suchte. Ob ich ein paar Minuten Zeit hätte, nur ganz kurz, für einige wenige Fragen im Auftrag einer Marktforschung. Jetzt nicht, denke ich und höre mich gleich darauf die Fragen einer angenehmen Stimme beantworten. Thema: ‚Soziale Medien‘. Frage: ‚Nutzen Sie soziale Netzwerke‘? – Antwortmit einer Gegenfrage: ‘Kommt darauf an. – Welche Alternativen habe ich zur Antwort?‘

Quantitative Daten

Dieses (fiktive) Beispiel macht deutlich, worauf es in der deskriptiven Statistik bei quantitativen Daten ankommt: zum einen auf die Art der Fragen, zum anderen auf deren Informationsgehalt. Offene Fragen sind nicht standardisiert, da sie ausführlich die individuelle Meinung von Befragten erforschen (z.B.: ‚Welche sozialen Netzwerke nutzen Sie und warum?‘). Sie eignen sich nicht für eine quantitative Häufigkeitsauswertung.

Bei Befragungen oder in Fragebögen werden überwiegend bis ausschließlich geschlossene Fragen verwendet. Diese geben eine Auswahl an Antwortmöglichkeiten vor, aus denen Befragte wählen können, entweder als Single Choice (ja/nein), als Bewertung einer Aussage auf einer mehrstufigen Skala (sehr zufrieden, eher zufrieden, eher unzufrieden, sehr unzufrieden) oder als numerischer Wert (Nutzung von sozialen Medien in Stunden pro Tag).

Und eben anhand der vorgegebenen Antwortmöglichkeiten – sprich: Merkmalsausprägungen der Variablen, in unserem Fall: ‚Nutzung sozialer Netzwerke‘ – bestimmen das Skalenniveau der Daten. Allgemein werden drei Skalenniveaus unterschieden: nominal, ordinal, metrisch.

Informationsgehalt der Ausprägungen

Stellen wir uns vor, wir genießen mit der Begleitung unserer Wahl bei einem romantischen Dinner ein Glas Heideboden, einen Qualitätswein vom Neusiedlersee, getragen von einem tief dunklen Rubinrot mit einem Alkoholgehalt von 13,5 % vol. Diese Prozentangabe auf der Flasche gibt Auskunft über den Alkoholanteil bezogen auf das Volumen. Für das Skalenniveau gilt ähnliches: es gibt an, welche und wie viel Information aus den vorliegenden Daten entnommen werden kann. Als Faustregel gilt: Je höher das Skalenniveau, desto mehr Informationsgehalt in den Daten und desto umfangreicher die Rechenoperationen und Analysemöglichkeiten.

Die 3 Skalenniveaus

Nominale Skala

Dieses Messniveau umfasst Merkmale, zwischen deren Ausprägungen keine Rangfolge besteht (zB: Geschlecht, Autofarbe, Geburtsland). Die numerische Repräsentation dient ausschließlich der Zuordnung. Auf die Eingangsfrage – ‚Nutzen Sie soziale Netzwerke‘? – umgelegt, wären im Falle einer nominalen Skalierung beispielsweise die Antwortmöglichkeiten ‚ja‘ und ‚nein‘ vorgegeben (repräsentiert durch ‚1‘ = ja; ‚2‘ = nein). Da es sich im Beispiel hier nur um 2 Antwortalternativen handelt, spricht man auch von einer dichotomen Variable.

nominal

Ordinale Skala

Hierzu gehören Merkmale, die eine eindeutige Reihung bzw. Rangfolge innerhalb der Ausprägungen aufweisen. Die Antworten lassen sich somit ordnen, die Abstände sind allerdings nicht berechenbar (zB: Schulnoten, Altersklassen, Zufriedenheit). Häufig verwendet werden Einstellungsfragen entlang geordneter Abstufungen von „trifft (voll) zu“ bis „trifft (gar) nicht zu“. In unserem Beispiel könnte die Fragestellung etwa die Intensität der Nutzung sozialer Netzwerke betreffen und wie folgt lauten:

ordinal

Metrische Skala

Sobald es sich bei den erhobenen Merkmalen um numerische Werte handelt, deren Abstände berechenbar sind (Summe, Differenz), spricht man von metrisch skalierten Daten. In diesem Fall werden die konkreten numerischen Werte abgebildet (zB: Alter in Jahren, Einkommen in EUR, Temperatur in Grad). Dies bietet die größtmögliche Informationsdichte für die statistische Datenanalyse. Stellen wir unseren Probanden die Frage nach der konkreten Zahl an Stunden für die Social Media Nutzung, dann verfügen wir über metrische Daten und diese erlauben uns beispielsweise die Berechnung von Mittelwert und Standardabweichung.

metrisch

Fassen wir nun die tägliche Nutzungsdauer in Klassen zusammen (z.B. unter 1 Stunde, 1 bis 3 Stunden, 4 bis 6 Stunden, über 6 Stunden), erhöht dies zwar die Übersichtlichkeit der Daten, ist aber gleichzeitig mit einem Informationsverlust verbunden, da die Ausprägungen der Variable in eine niedrigere Hierarchiestufe umgewandelt werden, konkret in ordinales Skalenniveau.

Zusammenfassend lässt sich feststellen: Wir können für (nahezu) jede Variable unterschiedliche Messniveaus bilden, wichtig ist zu überlegen, welches Ziel und welche Aussagekraft wir mit den erhobenen Merkmalen verfolgen. Und zwar vorab, vor Beginn der Durchführung einer Befragung.

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert.