3 Aufgaben
Schön, dass Sie Ihre data.table
-Fähigkeiten überprüfen und festigen möchten. Bleiben Sie am Ball, Sie schaffen das!
3.1 Größe und Gewicht
Von 10 Personen wurden folgende Körpergrößen in Meter gemessen:
1,68 1,87 1,95 1,74 1,80
1,75 1,59 1,77 1,82 1,74
… sowie folgende Gewichte in Gramm:
78500 110100 97500 69200 82500
71500 81500 87200 75500 65500
- Überführen Sie die Daten in eine
data.table
mit den VariablenGroesse
undGewicht
. - Rechnen Sie das Gewicht um in Kilogramm, und speichern Sie Ihr Ergebnis in der neuen Variable
Kilogramm
. - Lassen Sie die Daten von Proband 4, 7 und 9 ausgeben.
- Lassen Sie die Daten der Probanden ausgeben, deren Gewicht größer ist als 80kg.
- Lassen Sie die Daten der Probanden ausgeben, die größer als 1,7m sind und leichter als 85kg.
- Speichern Sie Ihr
data.table
-Objekt in die Dateigroegew.csv
. Lassen Sie sich dabei zunächst anzeigen, was in die Datei geschrieben werden wird.
Lösung siehe Abschnitt 4.1
3.2 Datentabelle
Von 6 Probanden wurde der Cholesterolspiegel in mg/dl gemessen.
Name | Geschlecht | Gewicht | Größe | Cholesterol |
---|---|---|---|---|
Anna Tomie | W | 85 | 179 | 182 |
Bud Zillus | M | 115 | 173 | 232 |
Dieter Mietenplage | M | 79 | 181 | 191 |
Hella Scheinwerfer | W | 60 | 170 | 200 |
Inge Danken | W | 57 | 158 | 148 |
Jason Zufall | M | 96 | 174 | 249 |
- Übertragen Sie die Daten in eine
data.table
mit dem Namenchol
. - Erstellen Sie eine neue Variable
Alter
, die zwischenName
undGeschlecht
liegt und folgende Daten beinhaltet:
Name | Alter |
---|---|
Anna Tomie | 18 |
Bud Zillus | 32 |
Dieter Mietenplage | 24 |
Hella Scheinwerfer | 35 |
Inge Danken | 46 |
Jason Zufall | 68 |
- Fügen Sie einen weiteren Fall mit folgenden Daten dem Datenframe hinzu
Name | Alter | Geschlecht | Gewicht | Größe | Cholesterol |
---|---|---|---|---|---|
Mitch Mackes | 44 | M | 92 | 178 | 220 |
- Erzeugen Sie eine neue Variable
BMI
(\(\text{BMI}=\frac{kg}{m^2}\)). - Fügen Sie die Variable
Adipositas
hinzu, in welcher Sie dieBMI
-Werte wie folgt klassieren:- weniger als 18,5 \(\rightarrow\ \) Untergewicht
- zwischen 18,5 und 24.5 \(\rightarrow\ \) Normalgewicht
- zwischen 24,5 und 30 \(\rightarrow\ \) Übergewicht
- größer als 30 \(\rightarrow\ \) Adipositas
- Filtern Sie Ihren Datensatz, so dass Sie einen neuen Datensatz
male
erhalten, welcher nur die Daten der Männer beinhaltet. - Speichern Sie die Objekte
chol
undmale
als Textdatei auf Ihre Festplatte. Lassen Sie sich dabei jeweils zuvor anzeigen, welcher Inhalt in die Textdatei geschrieben werden wird.
Lösung siehe Abschnitt 4.2
3.3 Big Five
{data.table}
ist vor allem bei großen Datensätzen beliebt, da es schneller ist als herkömmliches R
. Die Datei big_five_scores.csv
enthält Daten von 307.313 Probanden aus 236 Ländern zu den Big Five der Persönlichkeitspsychologie, siehe https://de.wikipedia.org/wiki/Big_Five_(Psychologie). Die Datei liegt als ZIP-Paket unter https://www.produnis.de/tabletrainer/data/big_five.zip. Laden Sie die ZIP Datei herunter, und entpacken Sie big_five_scores.csv
in Ihren Projektordner (bzw. dort in den data
-Ordner).
case_id
: Eindeutige ID der Person, zu der die Ergebnisse gehörencountry
: Herkunftsland der Personage
: Alter der Personsex
: biologisches Geschlecht der Person. 1 = männlich, 2 = weiblich
Die restlichen Spalten sind die Punktzahlen der Person von 0 bis 1 für jede ihrer fünf großen Persönlichkeitsmerkmale:
Agreeableness
(Verträglichkeit)Extraversion
(Extraversion)Openness
(Offenheit)Conscientiousness
(Gewissenhaftigkeit)Neuroticism
(Neurotizismus.
- Lesen Sie den Datensatz
big_five_scores.csv
alsdata.table
in IhreR
-Session und machen Sie sich mit dem Datensatz vertraut. - Ändern Sie die Geschlechtskodierung, so dass
männlich
undweiblich
verwendet werden. - Passen Sie das Skalenniveau der Variablen an.
Lösung siehe Abschnitt 4.3
3.4 Rolling Stone Magazine
Die Datei rolling_stone.csv
enthält die 500 Greatest Albums of All Time Listen des Rolling Stone Magazines aus den Jahren 2003, 2012 und 2020. Der Datensatz stammt aus dem Tidy Tuesday Projekt (2022) vom 07.05.2024 und kann auch unter https://www.produnis.de/tabletrainer/data/rolling_stone.csv herutergeladen werden. Die Aufgaben sind inspiriert von Corrales & Campitelli (2024).
- Laden Sie die Datei
rolling_stone.csv
alsdata.table
in IhreR
-Session und machen Sie sich mit dem Datensatz vertraut. - Passen Sie das Skalenniveau der Variablen an.
- Welche sind die Nummer 1 Alben der Jahre 2003, 2012 und 2020?
- Ist Ihre Lieblingsband in der Liste?
- Welche weiblichen Bands haben mehr als 3 Mitglieder?
- Welche Band hat die meisten Alben im Datensatz?
- Prüfen Sie per Korrelationsverfahren, ob die Beliebtheit bei Spotify (
spotify_popularity
) mit der Liste von 2020 übereinstimmt. - Welchen durchschnittlichen Rang erzielen Alben des Genres “
Electronic
” in den Jahren 2003, 2012 und 2020? - Berechnen Sie das arithmetische Mittel und den Median des Albenrankings für jedes Genre im Jahr 2020. Wieviele Alben sind pro Genre enthalten? Sortieren Sie die Ausgabe einmal absteigend nach dem Median, und einmal aufsteigend nach
genre
. - Manche Künstler haben es in jede der 3 Listen geschafft. Wie groß ist die Anzahl an Bands, die in jeder der 3 Listen vertreten sind, wieviele Alben haben in jeder der 3 Listen eine Platzierung, welche Alben sind in jeder der 3 Listen auf dem selben Platz, welche haben sich kontinuierlich verbessert, welche kontinuierlich verschlechtert?
- Erzeugen Sie eine neue Variable
soloband
, in welcher festeghalten wird, ob es sich um eine(n) Solokünstler(in) handelt (solo
), oder um eine Band (band
). - Der Datensatz liegt als
wide.table
vor, da die Rankings für 2003, 2012 und 2020 als Variablen nebeneinander stehen. Wandeln Sie den Datensatz in einelong.table
(Tidy Data) um, so dass die Rankingangaben in den VariablenRang
undRangjahr
angegeben sind. - Plotten Sie mittels
ggplot()
die Rangveränderungen von 2003 bis 2020 für solche Alben, die sich kontinuierlich verschlechter haben. Was fällt Ihnen auf?
Lösung siehe Abschnitt 4.4
3.5 Taylor Swift
Im Datensatz taylor_swift_spotify2024.csv
(siehe https://www.produnis.de/tabletrainer/data/taylor_swift_spotify2024.csv) sind Daten von Taylor Swift bei Spotify enthalten (Stand 2024).
- Laden Sie den Datensatz
taylor_swift_spotify2024.csv
alsdata.table
in Ihre R-Session. Nennen Sie Ihr Objekt dabeits
und verschaffen Sie sich mittelsstr()
einen Überblick über die enthaltenen Daten. - Wenn nötig, korrigiern Sie das Skalenniveau (nominal, ordinal, metrisch) der Variablen innerhalb des Datensatzes.
- Erstellen Sie eine neue Variable
sekunden
, welche die Songlängen in Sekunden enthält - Wie lang dauern die Songs im Durchschnitt? Bei welcher Songlänge liegt der Median?
- Welcher Song ist laut Datensatz der populärste, welcher der längste, und welcher der langsamste insgesamt? Stellen Sie anschließend die Werte pro Album dar.
- Welches Album hat die meisten Songs, und welches hat die wenigsten Songs?
- Plotten Sie die Anzahl der Tracks pro Album als Punkt-Liniendiagramm, wobei das Datum auf der X-Achse, und die Trackanzahl auf der Y-Achse dargestellt werden.
Lösung siehe Abschnitt 4.5
3.6 Anscombe-Quartett
Das Anscombe-Quartett ist ein bekannter Datensatz in der Statistik, der von Francis Anscombe (1973) erdacht wurde, siehe https://de.wikipedia.org/wiki/Anscombe-Quartett.
Der dazugehörige Datensatz ist in der R
-Standardinstallation bereits implementiert und heisst anscombe
.
- Laden Sie den Datensatz
anscombe
in Ihre R-Session und überführen Sie ihn in eindata.table
Objekt mit dem Namenac
. - Die Daten liegen als breite Tabelle (wide tabel) vor. Überführen Sie sie ins long table (tidy) Format, so dass Ihre data.table aus den Spalten
x
,y
, undGruppe
besteht. - Berechnen Sie für jede
Gruppe
die Mittelwerte, Standardabweichungen, Korrelations- und Regressionskoeffizienten vonx
undy
, wobei Sie Ihre Ergebnisse auf 2 Stellen runden sollen.
- Erzeugen Sie mittels
ggplot()
eine Punktwolke mit Regressionsgeraden für jedeGruppe
, wobei alle 4 Diagramme mit einem Plotaufruf erzeugt werden sollen.
Lösung siehe Abschnitt 4.6
3.7 Neugeborene: Rauchen
Der Datensatz neonates
von rk.Teaching1, auch verfügbar unter https://www.produnis.de/tabletrainer/data/neonates.RData, enthält Informationen über eine Stichprobe von 320 Neugeborenen, die im Laufe eines Jahres nach normaler Schwangerschaftsdauer geboren wurden.
- Überführen Sie die Daten in ein
data.table
-Objekt mit dem Namenng
. - Die Variabel
apgar1
enthält die APGAR-Scores nach 1 Minute. Wenn ein Score von 3 oder weniger anzeigt, dass das Neugeborene in einem kritischen Zusatand ist, wie viel Prozent der Neugeborenen in der Stichprobe sind dann in einem kritischen Zustand? - Erstellen Sie die Häufigkeitstabelle des Geburtsgewichts der Neugeborenen, indem Sie die Daten in Klassen mit einer Breite von 0,5 kg von 2 bis 4,5 kg einteilen. Welches Intervall enthält die meisten Neugeborenen?
- Vergleichen Sie die Häufigkeitsverteilung des APGAR-Scores nach 1 Minute für Mütter unter 20 Jahren und für Mütter über 20 Jahren. Welche Gruppe hat mehr Neugeborene in kritischem Zustand?
- Vergleichen Sie die relative Häufigkeitsverteilung des Geburtsgewichts der Neugeborenen, je nachdem, ob die Mutter während der Schwangerschaft geraucht hat (
smoke
) oder nicht. Wenn ein Gewicht unter 2,5 kg als niedriges Gewicht gilt, welche Gruppe hat einen höheren Prozentsatz an Neugeborenen mit niedrigem Gewicht? - Berechnen Sie die Prävalenz von Neugeborenen mit niedrigem Gewicht für Mütter, die vor der Schwangerschaft geraucht haben (
smoke.before
), und den Nichtraucherinnen. - Berechnen Sie die Odds Ratio eines niedrigen Geburtsgewichts des Neugeborenen, wenn die Mutter während der Schwangerschaft raucht, im Vergleich dazu, wenn die Mutter nicht raucht.
- Erstellen Sie das Balkendiagramm der kumulierten relativen Häufigkeit des APGAR-Scores nach 1 Minute. Unter welchem Wert liegen die Hälfte der Neugeborenen?
- Vergleichen Sie die Balkendiagramme der relativen Häufigkeitsverteilungen des APGAR-Scores nach 1 Minute, je nachdem, ob die Mutter während der Schwangerschaft geraucht hat oder nicht. Welche Schlussfolgerungen können gezogen werden?
- Berechnen Sie Median, Durchschnitt und Standardabweichung für die APGAR-Scores nach 1 und nach 5 Minuten jeweils für die Kinder von Müttern, die vor der Schwangerschaft geraucht haben, und den Nichtraucherinnen. Geben Sie auch die Anzahl an Fällen (N) an. Bewerten Sie die Ergebnisse.
- Ist der Unterschied der APGAR-Scores aus Aufgabe j) signifikant?
Lösung siehe Abschnitt 4.7
3.8 Verteidigung gegen die dunklen Künste
In den Textdatein VgddK_Lupin.txt
, VgddK_Moody.txt
und VgddK_Umbridge.txt
(verfügbar unter https://www.produnis.de/tabletrainer/data/) sind die Leistungspunkte (von 1 bis 10) von 25 Schüler:innen aus Hogwarts im Fach Verteidigung gegen die dunklen Künste enthalten, wobei diese Punkte jeweils für die Professoren Lupin, Moody und Umbridge erhoben wurde.
- Laden Sie die Textdateien als
data.table
in IhreR
-Session, und führe Sie diese zu einem einzelnendata.table
-Objekt mit dem Namenhp
zusammen. - Erstellen Sie mit
ggplot()
ein Diagramm, welches die Leistungspunkte als Boxplots für jeden Professor darstellt. Hierfür bietet es sich an, die Daten inslong table
Format zu überführen.
Lösung siehe Abschnitt 4.8
3.9 Hogwarts Hauspunkte
In der Datei PotterHauspunkte.RData
(verfügbar unter https://www.produnis.de/tabletrainer/data/PotterHauspunkte.RData) sind die Hauspunkte erfasst, die 3.273 Schüler in ihrem ersten, dritten und fünften Schuljahr an Hogwarts für ihr Haus gesammelt haben.
- Laden Sie den Datensatz von https://www.produnis.de/tabletrainer/data/PotterHauspunkte.RData in Ihre
R
-Session, und überführen Sie ihn in einedata.table
mit dem Namenpp
. - Berechnen Sie Median, Mittelwert und Standardabweichung für die Hauspunkte insgesamt, und jeweils für jedes Haus und Jahr gesondert.
- Plotten Sie die Punkte als Boxplots in Abhängigkeit zum Schuljahr, und dann in Abhängigkeit zum Haus.
Lösung siehe Abschnitt 4.9
3.10 Lungenkapazität
Tager et al. (1983) haben die Auswirkungen des mütterlichen Zigarettenrauchens auf die Lungenfunktion in einer Kohorte von Kindern und Jugendlichen untersucht, die über einen Zeitraum von sieben Jahren prospektiv beobachtet wurden. Dabei wurde auch erfasst, ob die Kinder selbst rauchen oder nicht. Die dazugehörigen Daten stehen unter anderem im GLMsData
-Zusatzpaket unter dem Namen lungcap
zur Verfügung. Im Datensatz beschreibt FEV
das forcierte exspiratorische Volumen in Litern, ein Maß für die Lungenkapazität. Die Variable Ht
beschreibt die Körpergröße der Probanden in Zoll. Ob die Kinder selbst auch rauchen, ist in der Variable Smoke
erfasst.
- Laden Sie den Datensatz
lungcap
alsdata.table
mit dem Namenlc
in IhreR
-Session - Erzeugen Sie eine neue Variable
Körpergröße
, welche die Körpergröße in Zentimetern enthält (1 Zoll = 2,54cm) - Ändern Sie die Kodierung der Variable
Smoke
, so dass statt 0 “nein
”, und statt 1 “ja
” enthalten ist. Passen Sie dabei auch das Skalenniveau an. - Plotten Sie nebeneinander die Boxplots der Lungenkapazität nichtrauchenden und rauchenden Kindern. Legt das Diagramm einen Zusammenhang nahe?
- Führen Sie einen Signifikanztest durch, um zu überprüfen, ob sich die Lungenkapazitäten in Abhängigkeit zu
Smoke
unterscheidet. - Erzeugen Sie eine Punktwole des Lungenvolumens und des Alters, sowie des Lungenvolumens und der Körpergröße. Legen die Diagramme einen Zusammenhang nahe?
- Welches Regressionsmodell ist am besten geeignet, um
FEV erklärt durch Alter
zu bestimmen, und welches ist am besten geeignet, umFEV erklärt durch Körpergröße
zu bestimmen? - Berechnen Sie das Modell, welches
FEV
am besten erklärt. - Plotten Sie eine Punktwolke, mit
FEV
auf der Y-Achse, und dem besten Prädiktor auf der X-Achse. Färben Sie die Daten mittels der VariableSmoke
. Fügen Sie anschließend Ihre Modelllinie dem Plot hinzu. - Fügen Sie
Smoke
,Age
undGender
als weitere Prädiktor dem Modell hinzu. Hat Rauchen einen Einfluss aufFEV
?
Weitere Informationen zur Auswertungsstrategie finden sich bei Kahn (2005).
Lösung siehe Abschnitt 4.10
3.11 Charlson-Index
Der Datensatz Krankenhausfaelle.sas
(verfügbar unter https://www.produnis.de/tabletrainer/data/Krankenhausfaelle.sas) beinhaltet den Charlson-Index2 sowie weitere Daten von 26.561 Patienten, die stationär im Krankenhaus behandelt wurden.
Variable | Merkmal | Merkmalsausprägung |
---|---|---|
ID |
laufende Nummer | numerisch |
Geschlecht |
Geschlecht | m/w (charakter) |
Alter |
Alter | numerisch |
CHARLSON_SUM_G |
Charlson-Index Gewichtssumme | numerisch |
DIED |
im KH verstorben | 0/1 (Nein/Ja) |
Herzdekomp |
Herzdekompensationen | 0/1 (Nein/Ja) |
Demenz |
Demenz | 0/1 (Nein/Ja) |
LUNG_CHRON |
chron. Lungenkrankheit | 0/1 (Nein/Ja) |
RHEUMA |
rheumat. Erkrankungen | 0/1 (Nein/Ja) |
Leber_L |
leichte Lebererkrankung | 0/1 (Nein/Ja) |
Leber_MS |
schwere Lebererkrankung | 0/1 (Nein/Ja) |
DM_KOMP |
Diabetes mit Komplikationen | 0/1 (Nein/Ja) |
PARA_HEMI |
Paraplegie und Hemiplegie | 0/1 (Nein/Ja) |
NIEREN |
Nierenerkrankungen | 0/1 (Nein/Ja) |
NEUBILD |
Neubildungen | 0/1 (Nein/Ja) |
CARC_MET |
metastasierende Karzinome | 0/1 (Nein/Ja) |
AIDS_HIV |
AIDS-HIV | 0/1 (Nein/Ja) |
- Importieren Sie den SAS-Datensatz
Krankenhausfaelle.sas
in IhreR
-Session und überführen Sie ihn in einedata.table
mit dem Namenkh
. Machen Sie sich mit dem Datensatz vertraut. - Ersetzen Sie die Kodierung der dichotomen Variablen von 0 auf
nein
und von 1 aufja
. Passen Sie wo nötig das Skalenniveau der Variablen an. - Klassieren Sie das Alter der Probanden in die Variable
AlterK
mit den Klassen- \(<\) 10 Jahre
- 10 bis 19 Jahre
- 20 bis 29 Jahre
- …
- \(>\) 89 Jahre
- Klassieren Sie den Charlson-Index in die Variable
CharlsonK
mit den Klassen- 0
- 1 bis 2
- \(>\) 2
- Welche Nebendiagnose kommt am häufigsten vor?
- Wieviele Patienten ohne Nebendiagnosen sind enthalten?
- Erzeugen Sie eine neue Spalte
"KEINE"
in derdata.table
, die in jeder Reihe den Wert"nein"
hat. Überschreiben Sie diesen Wert für solche Patienten, die keine Nebendiagnosen haben, mit dem Wert"ja"
. - Erstellen Sie zwei Kreuztabelle der Nebendiagnosen und der Variable
DIED
in Prozentzahlen. Bei der ersten Tabelle sollen die Prozentwerte auf das Gesamt-N bezogen sein (100% bedeuten = alle Probanden). Bei der zweiten Tabelle sollen sich die Prozente nur auf die Gruppe von Probanden beziehen, welche diese Nebndiagnose haben (100% = alle Probanden, die diese Diagnose haben). Gelingt es Ihnen, das N der Nebendiagnosen den Tabellen hinzuzufügen?
Lösung siehe Abschnitt 4.11
3.12 Neugeborene: Gewicht
Der Datensatz Neugeborene.sav
(verfügbar unter https://www.produnis.de/tabletrainer/data/Neugeborene.sav) beinhaltet Daten von 120 Neugeborenen und ihrer Eltern.
- Laden Sie den SPSS-Datensatz
Neugeborene.sav
in IhreR
-Session und überführen Sie ihn in einedata.table
mit dem Namenng2
. - In einigen Variablen finden Sie die Merkmalsausprägungen 9, 99 oder 999. Diese stehen für fehlende Werte und müssen in
NA
umgewandelt werden. Somit ist sichergestellt, dassR
diese Werte in weiteren Auswertungen nicht berücksichtigt. - Wandeln Sie die Variable
SEX
in einen Factor mit den Levels “männlich
” (statt 1) und “weiblich
” (statt 2) um. - Bilden Sie aus der Variable Geburtsgewicht (
GEBGEWI
) eine neue Variable (GEWIKAT
), welche das Geburtsgewicht den folgenden Kategorien zuordnet:- \(\le\) 2500g
- \(>\) 2500 bis 3000g
- \(>\) 3000 bis 3500g
- \(>\) 3500 bis 4000g
- \(>\) 4000g
- Berechnen Sie zur Variable Geburtsgewicht getrennt für Jungen und Mädchen folgende Stichprobenmerkmale:
- Minimum, 5. Perzentil, 1. Quartil, Median, Mittelwert,
- Quartil, 95. Perzentil, Maximum, Interquartilabstand
- Erstellen Sie Boxplots des Geburtsgewichts für alle Kinder, sowie separat für Jungen und Mädchen.
- Erstellen Sie zur Variable
GEWIKAT
je eine Häufigkeitstabelle und ein Säulendiagramm für a) die gesamte Stichprobe und b) unter Berücksichtigung des 2. MerkmalsSEX
- Analysieren Sie den (linearen) Zusammenhang zwischen dem Geburtsgewicht [
GEBGEWI
] und der Körpergröße bei Geburt [GEBGROE
]. - Einfluss des BMI
- Bilden Sie aus den Variablen Größe des Vaters [
VATGROE
] und Gewicht des Vaters [VATGEW
] den Body Mass Index [VATBMI
] (kg/m2). - Bilden Sie den BMI der Mutter [
MUTBMI
] aus den Variablen Gewicht der Mutter [MUTGEW
] und Größe der Mutter [MUTGROE
]. - Gibt es einen (linearen) Zusammenhang zwischen dem BMI der Mutter und dem des Vaters?
- Hat der BMI der Mutter einen Einfluss auf das Geburtsgewicht des Neugeborenen?
- Bilden Sie aus den Variablen Größe des Vaters [
- Bilden Sie aus der Variable Gewicht im Alter von 6 Wochen [
FUGEW
] und Größe im Alter von 6 Wochen [FUGROE
] die Variable Ponderal Index im Alter von 6 Wochen. Für Säuglinge lautet die Formel \(PI = 100 \cdot \frac{g}{cm^3}\). - Bilden Sie eine neue Variable: Gewichtszunahme des Kindes von Geburt bis zum Alter von 6 Wochen.
- Bilden Sie eine neue Variable: Gewichtszunahme von Geburt bis zum Alter von 6 Wochen in % vom Geburtsgewicht.
- Wie viele Kinder wurden gestillt ([
JSTILL
], (1,2))? - Vergleichen Sie die gestillten und die nicht gestillten Kinder
- bezüglich ihres Gewichts im Alter von 6 Wochen,
- ihrer Gewichtszunahme (Geburt – 6 Wochen),
- ihrer prozentualen Gewichtszunahme (Geburt – 6 Wochen),
- ihres Ponderal Index im Alter von 6 Wochen.
- Bilden Sie eine neue Variable Schwangerschaftsdauer [
SCHDAUG
] in Gesamttagen, die Sie aus den Variablen Schwangerschaftsdauer in (ganzen) Wochen (SCHDAUW
, fehlende Werte =99) und Schwangerschaftsrestdauer in Tagen (SCHDAUT
; fehlende Werte=9; “.” = 0) bilden.Hat die Schwangerschaftsdauer einen Einfluss auf das Geburtsgewicht? - Bilden Sie aus der Variable Nationalität der Mutter [
NATMUT
] eine neue Variable, welche die Nationalität der Mutter in 3 Kategorien zusammenfasst:deutsch
(NATMUT=D),türkisch
(NATMUT=TR) undsonstige
(alle anderen, auch die ohne Angabe). - Unterscheiden sich die Kinder von Müttern der verschiedenen Nationalitäten hinsichtlich ihres Geburtsgewichts und ihres Ponderal Index im Alter von 6 Wochen?
- Werden die Kinder von Müttern unterschiedlicher Nationalitäten gleich häufig gestillt?
- Vergleichen Sie das mittlere Geburtsgewicht mit der Referenz 3500g (t-Test für eine Stichprobe).
- Vergleichen Sie das mittlere Geburtsgewicht von männlichen und weiblichen Neugeborenen (t-Test für zwei Stichprobe).
Lösung siehe Abschnitt 4.12