1 Daten und Merkmale
Daten sind alle Arten von Informationen, die man bei Messungen, Befragungen, Beobachtungen, etc. gewinnt. Man möchte Informationen, also Daten über bestimmte Merkmale erhalten. Ein Merkmal könnte beispielsweise das Geschlecht einer Person sein.
Merkmale, man spricht auch von Untersuchungsvariablen, finden sich bei den Merkmalsträgern (z.B. Patienten) oder den Untersuchungseinheiten (z.B. Stationen). Die verschiedenen Möglichkeiten des Auftretens eines Merkmals nennt man Merkmalsausprägungen. So existieren für das Merkmal “Geschlecht
” die beiden Ausprägungen: “männlich
und weiblich
”.
Merkmal bzw. Untersuchungsvariable | Merkmalsträger bzw. Untersuchungseinheit | Merkmalsausprägungen |
---|---|---|
Familienstand | Personen | ledig, verheiratet, geschieden, verwitwet |
Kinder in Familien | Familien | vorhanden, nicht vorhanden |
Anzahl von Kindern in Familien | Familien | 0, 1, 2, 3, 4, … |
Körpergröße von Jugendlichen | Jugendliche | 160cm, 161cm, 162cm, |
durchschnittliche Bettenzahl der Stationen von Krankenhaus A,B,C,… | Krankenhäuser A, B, C | 15, 20, 25, 27, usw. |
Man unterscheidet qualitative und quantitative Daten bzw. Merkmale.
- Qualitative Daten unterscheiden sich in ihrer Art: beispielsweise das Merkmal
Geschlecht
mit den Ausprägungen “männlich
undweiblich
” oder das Merkmalpflegerische Ausbildung
mit den Ausprägungen “Krankenschwester-/Pfleger
,Altenpfleger
, usw.”. - Quantitative Daten unterscheiden sich in ihrer Größe, die Daten sind quantifizierbar. Sie lassen sich weiter unterscheiden in diskret und stetig.
- Diskrete Daten sind nicht beliebig fein zu unterteilen, d.h. zwischen zwei “benachbarten” Größen existieren keine Zwischenwerte. Ein Beispiel für ein diskretes Merkmal ist die Anzahl der Kinder in Familien mit den Merkmalsausprägungen
- kein Kind
- ein Kind
- zwei, drei oder x Kinder
- aber nicht 1,2548 Kinder!
- Stetig: Im Gegensatz hierzu finden sich bei stetigen bzw. kontinuierlichen Daten zumindest theoretisch beliebig viele Zwischenwerte. Die Körpergröße oder das Gewicht sind typische Beispiele für stetige bzw. kontinuierliche Merkmale. So lassen sich zwischen 173,5cm und 173,6cm noch beliebig viele Zwischenwerte angeben. In der Praxis jedoch stößt jedes Meßverfahren (und ebenso die Dokumentation eines unendlich langen Meßwertes) an seine Grenzen, so dass genau genommen auch stetige Größen nur diskret erfasst und beobachtet werden können.
1.1 Erhebung der Daten
Auf die Erhebung von Daten und was dabei zu beachten ist wird an dieser Stelle nicht eingegangen. Wir verweisen auf Seminare wie “Quantitative Sozialforschung” oder “Forschungsmethodologie”, bzw. auf einschlägige Literatur, in der dann auch auf Begriffe wie Reliabilität, Validität, Stichprobenerhebung / zufällig oder gesteuert etc. ausführlich eingegangen wird.
1.2 Aufbereitung der Daten
Üblicherweise gewinnt man Daten in einer völlig beliebigen, nicht geordneten Reihenfolge. Nachfolgend findet sich ein Beispiel von 100 zufällig ausgewählten Personen, die dazu befragt wurden, wie häufig sie in den vergangenen 10 Jahren stationär in einem Krankenhaus behandelt worden sind. Die sogenannte Urliste ergibt sich, indem für jede befragte Person die Anzahl der Krankenhausaufenthalte aufgeschrieben wird:
1,0,0,3,1,5,1,2,2,0,1,0,5,2,1,0,1,0,0,4,0,1,1,3,0,
1,1,1,3,1,0,1,4,2,0,3,1,1,7,2,0,2,1,3,0,0,0,0,6,1,
1,2,1,0,1,0,3,0,1,3,0,5,2,1,0,2,4,0,1,1,3,0,1,2,1,
1,1,1,2,2,0,3,0,1,0,1,0,0,0,5,0,4,1,2,2,7,1,3,1,5,
Wie man leicht erkennen kann, ist diese Darstellung nicht besonders übersichtlich. Der nächste Schritt besteht nun darin, diese Daten sinnvoll zu ordnen. Es bietet sich hierfür eine Strichliste mit einer Skala von 0 bis 7 für die Anzahl der Krankenhausaufenthalte an.
Anzahl der Krankenhausaufenthalte | Strichliste | absolute Häufigkeit \(h_{i}\) |
---|---|---|
0 | 30 | |
1 | 34 | |
2 | 14 | |
3 | 10 | |
4 | IIII | 4 |
5 | 5 | |
6 | I | 1 |
7 | II | 2 |
Gesamt | 100 |
Zählt man ab, wie viele Personen keinmal, einmal, zweimal, etc. im Krankenhaus waren, erhält man die absolute Häufigkeit (siehe Tabelle 1.2), die wir mit hi abkürzen werden.
Darüber hinaus interessiert bei vielen Fragestellungen nicht nur die absolute sondern auch die relative Häufigkeit, d.h. der jeweilige Anteil. Dazu setzt man die absoluten Häufigkeiten ins Verhältnis (in Relation) zur Gesamtzahl (n). Man dividiert also die jeweiligen absoluten Häufigkeiten durch die Gesamtzahl und erhält so die relativen Häufigkeiten (fi).
Wäre beispielsweise die Befragung nach der Anzahl der Krankenhausaufenthalte in einer anderen Stadt mit 250 Personen durchgeführt worden, von denen 60 angaben, bereits einmal in einem Krankenhaus gewesen zu sein, so lässt der Vergleich der absoluten Häufigkeiten (Stadt A = 34, Stadt B = 60) keine Aussagen darüber zu, in welcher Stadt mehr bzw. weniger Leute einmal im Krankenhaus waren. Dies ist nur durch die Angabe der jeweiligen Anteile, also der relativen Häufigkeiten möglich. Für Stadt A ergibt sich eine relative Häufigkeit von 0,34 (34 / 100), für Stadt B wird ein Anteil von 0,24 (60 / 250) errechnet.
Multipliziert man die relativen Häufigkeiten mit 100, erhält man den prozentualen Anteil:
\(0,34 * 100 = 34\%\) und \(0,24 * 100 = 24\%\)
Mit anderen Worten: 34% der Befragten in Stadt A und 24% derjenigen in Stadt B waren bereits einmal im Krankenhaus. Erst durch die Angabe der relativen Häufigkeit oder den prozentualen Anteil wird das Ergebnis der Umfrage vergleichbar. An der folgenden Tabelle 1.3 lassen sich die einzelnen Schritte nachvollziehen:
Anzahl der Krankenhausaufenthalte | absolute Häufigkeit \(h_{i}\) | relative Häufigkeit (\(f_{i} = \frac{h_{i}}{n}\)) | relative Häufigkeit in % (\(f_{i} \cdot 100\)) |
---|---|---|---|
0 | 30 | 0,30 | 30 |
1 | 34 | 0,34 | 34 |
2 | 14 | 0,14 | 14 |
3 | 10 | 0,10 | 10 |
4 | 4 | 0,04 | 4 |
5 | 5 | 0,05 | 5 |
6 | 1 | 0,01 | 1 |
7 | 2 | 0,02 | 2 |
Gesamt | \(\sum h_{i} = n = 100\) | \(\sum f_{i} = 1\) | \(\sum f_{i} \cdot 100 = 100\) |
Addiert man alle relativen Häufigkeiten, erhält man wieder das Ganze, also 1 oder 100%.