1  Daten und Merkmale

Daten sind alle Arten von Informationen, die man bei Messungen, Befragungen, Beobachtungen, etc. gewinnt. Man möchte Informationen, also Daten über bestimmte Merkmale erhalten. Ein Merkmal könnte beispielsweise das Geschlecht einer Person sein.

Merkmale, man spricht auch von Untersuchungsvariablen, finden sich bei den Merkmalsträgern (z.B. Patienten) oder den Untersuchungseinheiten (z.B. Stationen). Die verschiedenen Möglichkeiten des Auftretens eines Merkmals nennt man Merkmalsausprägungen. So existieren für das Merkmal “Geschlecht” die beiden Ausprägungen: “männlich und weiblich”.

Tabelle 1.1: Merkmale und Ausprägungen
Merkmal bzw. Untersuchungsvariable Merkmalsträger bzw. Untersuchungseinheit Merkmalsausprägungen
Familienstand Personen ledig, verheiratet, geschieden, verwitwet
Kinder in Familien Familien vorhanden, nicht vorhanden
Anzahl von Kindern in Familien Familien 0, 1, 2, 3, 4, …
Körpergröße von Jugendlichen Jugendliche 160cm, 161cm, 162cm,
durchschnittliche Bettenzahl der Stationen von Krankenhaus A,B,C,… Krankenhäuser A, B, C 15, 20, 25, 27, usw.

Man unterscheidet qualitative und quantitative Daten bzw. Merkmale.

1.1 Erhebung der Daten

Auf die Erhebung von Daten und was dabei zu beachten ist wird an dieser Stelle nicht eingegangen. Wir verweisen auf Seminare wie “Quantitative Sozialforschung” oder “Forschungsmethodologie”, bzw. auf einschlägige Literatur, in der dann auch auf Begriffe wie Reliabilität, Validität, Stichprobenerhebung / zufällig oder gesteuert etc. ausführlich eingegangen wird.

1.2 Aufbereitung der Daten

Üblicherweise gewinnt man Daten in einer völlig beliebigen, nicht geordneten Reihenfolge. Nachfolgend findet sich ein Beispiel von 100 zufällig ausgewählten Personen, die dazu befragt wurden, wie häufig sie in den vergangenen 10 Jahren stationär in einem Krankenhaus behandelt worden sind. Die sogenannte Urliste ergibt sich, indem für jede befragte Person die Anzahl der Krankenhausaufenthalte aufgeschrieben wird:

    1,0,0,3,1,5,1,2,2,0,1,0,5,2,1,0,1,0,0,4,0,1,1,3,0, 
    1,1,1,3,1,0,1,4,2,0,3,1,1,7,2,0,2,1,3,0,0,0,0,6,1, 
    1,2,1,0,1,0,3,0,1,3,0,5,2,1,0,2,4,0,1,1,3,0,1,2,1, 
    1,1,1,2,2,0,3,0,1,0,1,0,0,0,5,0,4,1,2,2,7,1,3,1,5, 

Wie man leicht erkennen kann, ist diese Darstellung nicht besonders übersichtlich. Der nächste Schritt besteht nun darin, diese Daten sinnvoll zu ordnen. Es bietet sich hierfür eine Strichliste mit einer Skala von 0 bis 7 für die Anzahl der Krankenhausaufenthalte an.

Tabelle 1.2: Merkmale und Ausprägungen
Anzahl der Krankenhausaufenthalte Strichliste absolute Häufigkeit \(h_{i}\)
0 IIII IIII IIII IIII IIII IIII 30
1 IIII IIII IIII IIII IIII IIII IIII 34
2 IIII IIII IIII 14
3 IIII IIII 10
4 IIII 4
5 IIII 5
6 I 1
7 II 2
Gesamt 100

Zählt man ab, wie viele Personen keinmal, einmal, zweimal, etc. im Krankenhaus waren, erhält man die absolute Häufigkeit (siehe Tabelle 1.2), die wir mit hi abkürzen werden.

Darüber hinaus interessiert bei vielen Fragestellungen nicht nur die absolute sondern auch die relative Häufigkeit, d.h. der jeweilige Anteil. Dazu setzt man die absoluten Häufigkeiten ins Verhältnis (in Relation) zur Gesamtzahl (n). Man dividiert also die jeweiligen absoluten Häufigkeiten durch die Gesamtzahl und erhält so die relativen Häufigkeiten (fi).

Wäre beispielsweise die Befragung nach der Anzahl der Krankenhausaufenthalte in einer anderen Stadt mit 250 Personen durchgeführt worden, von denen 60 angaben, bereits einmal in einem Krankenhaus gewesen zu sein, so lässt der Vergleich der absoluten Häufigkeiten (Stadt A = 34, Stadt B = 60) keine Aussagen darüber zu, in welcher Stadt mehr bzw. weniger Leute einmal im Krankenhaus waren. Dies ist nur durch die Angabe der jeweiligen Anteile, also der relativen Häufigkeiten möglich. Für Stadt A ergibt sich eine relative Häufigkeit von 0,34 (34 / 100), für Stadt B wird ein Anteil von 0,24 (60 / 250) errechnet.

Multipliziert man die relativen Häufigkeiten mit 100, erhält man den prozentualen Anteil:

\(0,34 * 100 = 34\%\) und \(0,24 * 100 = 24\%\)

Mit anderen Worten: 34% der Befragten in Stadt A und 24% derjenigen in Stadt B waren bereits einmal im Krankenhaus. Erst durch die Angabe der relativen Häufigkeit oder den prozentualen Anteil wird das Ergebnis der Umfrage vergleichbar. An der folgenden Tabelle 1.3 lassen sich die einzelnen Schritte nachvollziehen:

Tabelle 1.3: Häufigkeitsverteilung der Daten
Anzahl der Krankenhausaufenthalte absolute Häufigkeit \(h_{i}\) relative Häufigkeit (\(f_{i} = \frac{h_{i}}{n}\)) relative Häufigkeit in % (\(f_{i} \cdot 100\))
0 30 0,30 30
1 34 0,34 34
2 14 0,14 14
3 10 0,10 10
4 4 0,04 4
5 5 0,05 5
6 1 0,01 1
7 2 0,02 2
Gesamt \(\sum h_{i} = n = 100\) \(\sum f_{i} = 1\) \(\sum f_{i} \cdot 100 = 100\)

Addiert man alle relativen Häufigkeiten, erhält man wieder das Ganze, also 1 oder 100%.