3 Aufgaben
Schön, dass Sie Ihre data.table-Fähigkeiten überprüfen und festigen möchten. Bleiben Sie am Ball, Sie schaffen das!
3.1 Größe und Gewicht
Von 10 Personen wurden folgende Körpergrößen in Meter gemessen:
1,68 1,87 1,95 1,74 1,80
1,75 1,59 1,77 1,82 1,74
… sowie folgende Gewichte in Gramm:
78500 110100 97500 69200 82500
71500 81500 87200 75500 65500
- Überführen Sie die Daten in eine
data.tablemit den VariablenGroesseundGewicht. - Rechnen Sie das Gewicht um in Kilogramm, und speichern Sie Ihr Ergebnis in der neuen Variable
Kilogramm. - Lassen Sie die Daten von Proband 4, 7 und 9 ausgeben.
- Lassen Sie die Daten der Probanden ausgeben, deren Gewicht größer ist als 80kg.
- Lassen Sie die Daten der Probanden ausgeben, die größer als 1,7m sind und leichter als 85kg.
- Speichern Sie Ihr
data.table-Objekt in die Dateigroegew.csv. Lassen Sie sich dabei zunächst anzeigen, was in die Datei geschrieben werden wird.
Lösung siehe Abschnitt 4.1
3.2 Datentabelle
Von 6 Probanden wurde der Cholesterolspiegel in mg/dl gemessen.
| Name | Geschlecht | Gewicht | Größe | Cholesterol |
|---|---|---|---|---|
| Anna Tomie | W | 85 | 179 | 182 |
| Bud Zillus | M | 115 | 173 | 232 |
| Dieter Mietenplage | M | 79 | 181 | 191 |
| Hella Scheinwerfer | W | 60 | 170 | 200 |
| Inge Danken | W | 57 | 158 | 148 |
| Jason Zufall | M | 96 | 174 | 249 |
- Übertragen Sie die Daten in eine
data.tablemit dem Namenchol. - Erstellen Sie eine neue Variable
Alter, die zwischenNameundGeschlechtliegt und folgende Daten beinhaltet:
| Name | Alter |
|---|---|
| Anna Tomie | 18 |
| Bud Zillus | 32 |
| Dieter Mietenplage | 24 |
| Hella Scheinwerfer | 35 |
| Inge Danken | 46 |
| Jason Zufall | 68 |
- Fügen Sie einen weiteren Fall mit folgenden Daten dem Datenframe hinzu
| Name | Alter | Geschlecht | Gewicht | Größe | Cholesterol |
|---|---|---|---|---|---|
| Mitch Mackes | 44 | M | 92 | 178 | 220 |
- Erzeugen Sie eine neue Variable
BMI(\(\text{BMI}=\frac{kg}{m^2}\)). - Fügen Sie die Variable
Adipositashinzu, in welcher Sie dieBMI-Werte wie folgt klassieren:- weniger als 18,5 \(\rightarrow\ \) Untergewicht
- zwischen 18,5 und 24.5 \(\rightarrow\ \) Normalgewicht
- zwischen 24,5 und 30 \(\rightarrow\ \) Übergewicht
- größer als 30 \(\rightarrow\ \) Adipositas
- Filtern Sie Ihren Datensatz, so dass Sie einen neuen Datensatz
maleerhalten, welcher nur die Daten der Männer beinhaltet. - Speichern Sie die Objekte
cholundmaleals Textdatei auf Ihre Festplatte. Lassen Sie sich dabei jeweils zuvor anzeigen, welcher Inhalt in die Textdatei geschrieben werden wird.
Lösung siehe Abschnitt 4.2
3.3 Big Five
{data.table} ist vor allem bei großen Datensätzen beliebt, da es schneller ist als herkömmliches R. Die Datei big_five_scores.csv enthält Daten von 307.313 Probanden aus 236 Ländern zu den Big Five der Persönlichkeitspsychologie, siehe https://de.wikipedia.org/wiki/Big_Five_(Psychologie). Die Datei liegt als ZIP-Paket unter https://www.produnis.de/tabletrainer/data/big_five.zip. Laden Sie die ZIP Datei herunter, und entpacken Sie big_five_scores.csv in Ihren Projektordner (bzw. dort in den data-Ordner).
case_id: Eindeutige ID der Person, zu der die Ergebnisse gehörencountry: Herkunftsland der Personage: Alter der Personsex: biologisches Geschlecht der Person. 1 = männlich, 2 = weiblich
Die restlichen Spalten sind die Punktzahlen der Person von 0 bis 1 für jede ihrer fünf großen Persönlichkeitsmerkmale:
Agreeableness(Verträglichkeit)Extraversion(Extraversion)Openness(Offenheit)Conscientiousness(Gewissenhaftigkeit)Neuroticism(Neurotizismus.
- Lesen Sie den Datensatz
big_five_scores.csvalsdata.tablein IhreR-Session und machen Sie sich mit dem Datensatz vertraut. - Ändern Sie die Geschlechtskodierung, so dass
männlichundweiblichverwendet werden. - Passen Sie das Skalenniveau der Variablen an.
Lösung siehe Abschnitt 4.3
3.4 Rolling Stone Magazine
Die Datei rolling_stone.csv enthält die 500 Greatest Albums of All Time Listen des Rolling Stone Magazines aus den Jahren 2003, 2012 und 2020. Der Datensatz stammt aus dem Tidy Tuesday Projekt (2022) vom 07.05.2024 und kann auch unter https://www.produnis.de/tabletrainer/data/rolling_stone.csv herutergeladen werden. Die Aufgaben sind inspiriert von Corrales & Campitelli (2024).
- Laden Sie die Datei
rolling_stone.csvalsdata.tablein IhreR-Session und machen Sie sich mit dem Datensatz vertraut. - Passen Sie das Skalenniveau der Variablen an.
- Welche sind die Nummer 1 Alben der Jahre 2003, 2012 und 2020?
- Ist Ihre Lieblingsband in der Liste?
- Welche weiblichen Bands haben mehr als 3 Mitglieder?
- Welche Band hat die meisten Alben im Datensatz?
- Prüfen Sie per Korrelationsverfahren, ob die Beliebtheit bei Spotify (
spotify_popularity) mit der Liste von 2020 übereinstimmt. - Welchen durchschnittlichen Rang erzielen Alben des Genres “
Electronic” in den Jahren 2003, 2012 und 2020? - Berechnen Sie das arithmetische Mittel und den Median des Albenrankings für jedes Genre im Jahr 2020. Wieviele Alben sind pro Genre enthalten? Sortieren Sie die Ausgabe einmal absteigend nach dem Median, und einmal aufsteigend nach
genre. - Manche Künstler haben es in jede der 3 Listen geschafft. Wie groß ist die Anzahl an Bands, die in jeder der 3 Listen vertreten sind, wieviele Alben haben in jeder der 3 Listen eine Platzierung, welche Alben sind in jeder der 3 Listen auf dem selben Platz, welche haben sich kontinuierlich verbessert, welche kontinuierlich verschlechtert?
- Erzeugen Sie eine neue Variable
soloband, in welcher festeghalten wird, ob es sich um eine(n) Solokünstler(in) handelt (solo), oder um eine Band (band). - Der Datensatz liegt als
wide.tablevor, da die Rankings für 2003, 2012 und 2020 als Variablen nebeneinander stehen. Wandeln Sie den Datensatz in einelong.table(Tidy Data) um, so dass die Rankingangaben in den VariablenRangundRangjahrangegeben sind. - Plotten Sie mittels
ggplot()die Rangveränderungen von 2003 bis 2020 für solche Alben, die sich kontinuierlich verschlechter haben. Was fällt Ihnen auf?
Lösung siehe Abschnitt 4.4
3.5 Taylor Swift
Im Datensatz taylor_swift_spotify2024.csv (siehe https://www.produnis.de/tabletrainer/data/taylor_swift_spotify2024.csv) sind Daten von Taylor Swift bei Spotify enthalten (Stand 2024).
- Laden Sie den Datensatz
taylor_swift_spotify2024.csvalsdata.tablein Ihre R-Session. Nennen Sie Ihr Objekt dabeitsund verschaffen Sie sich mittelsstr()einen Überblick über die enthaltenen Daten. - Wenn nötig, korrigiern Sie das Skalenniveau (nominal, ordinal, metrisch) der Variablen innerhalb des Datensatzes.
- Erstellen Sie eine neue Variable
sekunden, welche die Songlängen in Sekunden enthält - Wie lang dauern die Songs im Durchschnitt? Bei welcher Songlänge liegt der Median?
- Welcher Song ist laut Datensatz der populärste, welcher der längste, und welcher der langsamste insgesamt? Stellen Sie anschließend die Werte pro Album dar.
- Welches Album hat die meisten Songs, und welches hat die wenigsten Songs?
- Plotten Sie die Anzahl der Tracks pro Album als Punkt-Liniendiagramm, wobei das Datum auf der X-Achse, und die Trackanzahl auf der Y-Achse dargestellt werden.
Lösung siehe Abschnitt 4.5
3.6 Anscombe-Quartett
Das Anscombe-Quartett ist ein bekannter Datensatz in der Statistik, der von Francis Anscombe (1973) erdacht wurde, siehe https://de.wikipedia.org/wiki/Anscombe-Quartett.
Der dazugehörige Datensatz ist in der R-Standardinstallation bereits implementiert und heisst anscombe.
- Laden Sie den Datensatz
anscombein Ihre R-Session und überführen Sie ihn in eindata.tableObjekt mit dem Namenac. - Die Daten liegen als breite Tabelle (wide tabel) vor. Überführen Sie sie ins long table (tidy) Format, so dass Ihre data.table aus den Spalten
x,y, undGruppebesteht. - Berechnen Sie für jede
Gruppedie Mittelwerte, Standardabweichungen, Korrelations- und Regressionskoeffizienten vonxundy, wobei Sie Ihre Ergebnisse auf 2 Stellen runden sollen.
- Erzeugen Sie mittels
ggplot()eine Punktwolke mit Regressionsgeraden für jedeGruppe, wobei alle 4 Diagramme mit einem Plotaufruf erzeugt werden sollen.
Lösung siehe Abschnitt 4.6
3.7 Neugeborene: Rauchen
Der Datensatz neonates von rk.Teaching1, auch verfügbar unter https://www.produnis.de/tabletrainer/data/neonates.RData, enthält Informationen über eine Stichprobe von 320 Neugeborenen, die im Laufe eines Jahres nach normaler Schwangerschaftsdauer geboren wurden.
- Überführen Sie die Daten in ein
data.table-Objekt mit dem Namenng. - Die Variabel
apgar1enthält die APGAR-Scores nach 1 Minute. Wenn ein Score von 3 oder weniger anzeigt, dass das Neugeborene in einem kritischen Zusatand ist, wie viel Prozent der Neugeborenen in der Stichprobe sind dann in einem kritischen Zustand? - Erstellen Sie die Häufigkeitstabelle des Geburtsgewichts der Neugeborenen, indem Sie die Daten in Klassen mit einer Breite von 0,5 kg von 2 bis 4,5 kg einteilen. Welches Intervall enthält die meisten Neugeborenen?
- Vergleichen Sie die Häufigkeitsverteilung des APGAR-Scores nach 1 Minute für Mütter unter 20 Jahren und für Mütter über 20 Jahren. Welche Gruppe hat mehr Neugeborene in kritischem Zustand?
- Vergleichen Sie die relative Häufigkeitsverteilung des Geburtsgewichts der Neugeborenen, je nachdem, ob die Mutter während der Schwangerschaft geraucht hat (
smoke) oder nicht. Wenn ein Gewicht unter 2,5 kg als niedriges Gewicht gilt, welche Gruppe hat einen höheren Prozentsatz an Neugeborenen mit niedrigem Gewicht? - Berechnen Sie die Prävalenz von Neugeborenen mit niedrigem Gewicht für Mütter, die vor der Schwangerschaft geraucht haben (
smoke.before), und den Nichtraucherinnen. - Berechnen Sie die Odds Ratio eines niedrigen Geburtsgewichts des Neugeborenen, wenn die Mutter während der Schwangerschaft raucht, im Vergleich dazu, wenn die Mutter nicht raucht.
- Erstellen Sie das Balkendiagramm der kumulierten relativen Häufigkeit des APGAR-Scores nach 1 Minute. Unter welchem Wert liegen die Hälfte der Neugeborenen?
- Vergleichen Sie die Balkendiagramme der relativen Häufigkeitsverteilungen des APGAR-Scores nach 1 Minute, je nachdem, ob die Mutter während der Schwangerschaft geraucht hat oder nicht. Welche Schlussfolgerungen können gezogen werden?
- Berechnen Sie Median, Durchschnitt und Standardabweichung für die APGAR-Scores nach 1 und nach 5 Minuten jeweils für die Kinder von Müttern, die vor der Schwangerschaft geraucht haben, und den Nichtraucherinnen. Geben Sie auch die Anzahl an Fällen (N) an. Bewerten Sie die Ergebnisse.
- Ist der Unterschied der APGAR-Scores aus Aufgabe j) signifikant?
Lösung siehe Abschnitt 4.7
3.8 Verteidigung gegen die dunklen Künste
In den Textdatein VgddK_Lupin.txt, VgddK_Moody.txt und VgddK_Umbridge.txt (verfügbar unter https://www.produnis.de/tabletrainer/data/) sind die Leistungspunkte (von 1 bis 10) von 25 Schüler:innen aus Hogwarts im Fach Verteidigung gegen die dunklen Künste enthalten, wobei diese Punkte jeweils für die Professoren Lupin, Moody und Umbridge erhoben wurde.
- Laden Sie die Textdateien als
data.tablein IhreR-Session, und führe Sie diese zu einem einzelnendata.table-Objekt mit dem Namenhpzusammen. - Erstellen Sie mit
ggplot()ein Diagramm, welches die Leistungspunkte als Boxplots für jeden Professor darstellt. Hierfür bietet es sich an, die Daten inslong tableFormat zu überführen.
Lösung siehe Abschnitt 4.8
3.9 Hogwarts Hauspunkte
In der Datei PotterHauspunkte.RData (verfügbar unter https://www.produnis.de/tabletrainer/data/PotterHauspunkte.RData) sind die Hauspunkte erfasst, die 3.273 Schüler in ihrem ersten, dritten und fünften Schuljahr an Hogwarts für ihr Haus gesammelt haben.
- Laden Sie den Datensatz von https://www.produnis.de/tabletrainer/data/PotterHauspunkte.RData in Ihre
R-Session, und überführen Sie ihn in einedata.tablemit dem Namenpp. - Berechnen Sie Median, Mittelwert und Standardabweichung für die Hauspunkte insgesamt, und jeweils für jedes Haus und Jahr gesondert.
- Plotten Sie die Punkte als Boxplots in Abhängigkeit zum Schuljahr, und dann in Abhängigkeit zum Haus.
Lösung siehe Abschnitt 4.9
3.10 Lungenkapazität
Tager et al. (1983) haben die Auswirkungen des mütterlichen Zigarettenrauchens auf die Lungenfunktion in einer Kohorte von Kindern und Jugendlichen untersucht, die über einen Zeitraum von sieben Jahren prospektiv beobachtet wurden. Dabei wurde auch erfasst, ob die Kinder selbst rauchen oder nicht. Die dazugehörigen Daten stehen unter anderem im GLMsData-Zusatzpaket unter dem Namen lungcap zur Verfügung. Im Datensatz beschreibt FEV das forcierte exspiratorische Volumen in Litern, ein Maß für die Lungenkapazität. Die Variable Ht beschreibt die Körpergröße der Probanden in Zoll. Ob die Kinder selbst auch rauchen, ist in der Variable Smoke erfasst.
- Laden Sie den Datensatz
lungcapalsdata.tablemit dem Namenlcin IhreR-Session - Erzeugen Sie eine neue Variable
Körpergröße, welche die Körpergröße in Zentimetern enthält (1 Zoll = 2,54cm) - Ändern Sie die Kodierung der Variable
Smoke, so dass statt 0 “nein”, und statt 1 “ja” enthalten ist. Passen Sie dabei auch das Skalenniveau an. - Plotten Sie nebeneinander die Boxplots der Lungenkapazität nichtrauchenden und rauchenden Kindern. Legt das Diagramm einen Zusammenhang nahe?
- Führen Sie einen Signifikanztest durch, um zu überprüfen, ob sich die Lungenkapazitäten in Abhängigkeit zu
Smokeunterscheidet. - Erzeugen Sie eine Punktwole des Lungenvolumens und des Alters, sowie des Lungenvolumens und der Körpergröße. Legen die Diagramme einen Zusammenhang nahe?
- Welches Regressionsmodell ist am besten geeignet, um
FEV erklärt durch Alterzu bestimmen, und welches ist am besten geeignet, umFEV erklärt durch Körpergrößezu bestimmen? - Berechnen Sie das Modell, welches
FEVam besten erklärt. - Plotten Sie eine Punktwolke, mit
FEVauf der Y-Achse, und dem besten Prädiktor auf der X-Achse. Färben Sie die Daten mittels der VariableSmoke. Fügen Sie anschließend Ihre Modelllinie dem Plot hinzu. - Fügen Sie
Smoke,AgeundGenderals weitere Prädiktor dem Modell hinzu. Hat Rauchen einen Einfluss aufFEV?
Weitere Informationen zur Auswertungsstrategie finden sich bei Kahn (2005).
Lösung siehe Abschnitt 4.10
3.11 Charlson-Index
Der Datensatz Krankenhausfaelle.sas (verfügbar unter https://www.produnis.de/tabletrainer/data/Krankenhausfaelle.sas) beinhaltet den Charlson-Index2 sowie weitere Daten von 26.561 Patienten, die stationär im Krankenhaus behandelt wurden.
| Variable | Merkmal | Merkmalsausprägung |
|---|---|---|
ID |
laufende Nummer | numerisch |
Geschlecht |
Geschlecht | m/w (charakter) |
Alter |
Alter | numerisch |
CHARLSON_SUM_G |
Charlson-Index Gewichtssumme | numerisch |
DIED |
im KH verstorben | 0/1 (Nein/Ja) |
Herzdekomp |
Herzdekompensationen | 0/1 (Nein/Ja) |
Demenz |
Demenz | 0/1 (Nein/Ja) |
LUNG_CHRON |
chron. Lungenkrankheit | 0/1 (Nein/Ja) |
RHEUMA |
rheumat. Erkrankungen | 0/1 (Nein/Ja) |
Leber_L |
leichte Lebererkrankung | 0/1 (Nein/Ja) |
Leber_MS |
schwere Lebererkrankung | 0/1 (Nein/Ja) |
DM_KOMP |
Diabetes mit Komplikationen | 0/1 (Nein/Ja) |
PARA_HEMI |
Paraplegie und Hemiplegie | 0/1 (Nein/Ja) |
NIEREN |
Nierenerkrankungen | 0/1 (Nein/Ja) |
NEUBILD |
Neubildungen | 0/1 (Nein/Ja) |
CARC_MET |
metastasierende Karzinome | 0/1 (Nein/Ja) |
AIDS_HIV |
AIDS-HIV | 0/1 (Nein/Ja) |
- Importieren Sie den SAS-Datensatz
Krankenhausfaelle.sasin IhreR-Session und überführen Sie ihn in einedata.tablemit dem Namenkh. Machen Sie sich mit dem Datensatz vertraut. - Ersetzen Sie die Kodierung der dichotomen Variablen von 0 auf
neinund von 1 aufja. Passen Sie wo nötig das Skalenniveau der Variablen an. - Klassieren Sie das Alter der Probanden in die Variable
AlterKmit den Klassen- \(<\) 10 Jahre
- 10 bis 19 Jahre
- 20 bis 29 Jahre
- …
- \(>\) 89 Jahre
- Klassieren Sie den Charlson-Index in die Variable
CharlsonKmit den Klassen- 0
- 1 bis 2
- \(>\) 2
- Welche Nebendiagnose kommt am häufigsten vor?
- Wieviele Patienten ohne Nebendiagnosen sind enthalten?
- Erzeugen Sie eine neue Spalte
"KEINE"in derdata.table, die in jeder Reihe den Wert"nein"hat. Überschreiben Sie diesen Wert für solche Patienten, die keine Nebendiagnosen haben, mit dem Wert"ja". - Erstellen Sie zwei Kreuztabelle der Nebendiagnosen und der Variable
DIEDin Prozentzahlen. Bei der ersten Tabelle sollen die Prozentwerte auf das Gesamt-N bezogen sein (100% bedeuten = alle Probanden). Bei der zweiten Tabelle sollen sich die Prozente nur auf die Gruppe von Probanden beziehen, welche diese Nebndiagnose haben (100% = alle Probanden, die diese Diagnose haben). Gelingt es Ihnen, das N der Nebendiagnosen den Tabellen hinzuzufügen?
Lösung siehe Abschnitt 4.11
3.12 Neugeborene: Gewicht
Der Datensatz Neugeborene.sav (verfügbar unter https://www.produnis.de/tabletrainer/data/Neugeborene.sav) beinhaltet Daten von 120 Neugeborenen und ihrer Eltern.
- Laden Sie den SPSS-Datensatz
Neugeborene.savin IhreR-Session und überführen Sie ihn in einedata.tablemit dem Namenng2. - In einigen Variablen finden Sie die Merkmalsausprägungen 9, 99 oder 999. Diese stehen für fehlende Werte und müssen in
NAumgewandelt werden. Somit ist sichergestellt, dassRdiese Werte in weiteren Auswertungen nicht berücksichtigt. - Wandeln Sie die Variable
SEXin einen Factor mit den Levels “männlich” (statt 1) und “weiblich” (statt 2) um. - Bilden Sie aus der Variable Geburtsgewicht (
GEBGEWI) eine neue Variable (GEWIKAT), welche das Geburtsgewicht den folgenden Kategorien zuordnet:- \(\le\) 2500g
- \(>\) 2500 bis 3000g
- \(>\) 3000 bis 3500g
- \(>\) 3500 bis 4000g
- \(>\) 4000g
- Berechnen Sie zur Variable Geburtsgewicht getrennt für Jungen und Mädchen folgende Stichprobenmerkmale:
- Minimum, 5. Perzentil, 1. Quartil, Median, Mittelwert,
- Quartil, 95. Perzentil, Maximum, Interquartilabstand
- Erstellen Sie Boxplots des Geburtsgewichts für alle Kinder, sowie separat für Jungen und Mädchen.
- Erstellen Sie zur Variable
GEWIKATje eine Häufigkeitstabelle und ein Säulendiagramm für a) die gesamte Stichprobe und b) unter Berücksichtigung des 2. MerkmalsSEX - Analysieren Sie den (linearen) Zusammenhang zwischen dem Geburtsgewicht [
GEBGEWI] und der Körpergröße bei Geburt [GEBGROE]. - Einfluss des BMI
- Bilden Sie aus den Variablen Größe des Vaters [
VATGROE] und Gewicht des Vaters [VATGEW] den Body Mass Index [VATBMI] (kg/m2). - Bilden Sie den BMI der Mutter [
MUTBMI] aus den Variablen Gewicht der Mutter [MUTGEW] und Größe der Mutter [MUTGROE]. - Gibt es einen (linearen) Zusammenhang zwischen dem BMI der Mutter und dem des Vaters?
- Hat der BMI der Mutter einen Einfluss auf das Geburtsgewicht des Neugeborenen?
- Bilden Sie aus den Variablen Größe des Vaters [
- Bilden Sie aus der Variable Gewicht im Alter von 6 Wochen [
FUGEW] und Größe im Alter von 6 Wochen [FUGROE] die Variable Ponderal Index im Alter von 6 Wochen. Für Säuglinge lautet die Formel \(PI = 100 \cdot \frac{g}{cm^3}\). - Bilden Sie eine neue Variable: Gewichtszunahme des Kindes von Geburt bis zum Alter von 6 Wochen.
- Bilden Sie eine neue Variable: Gewichtszunahme von Geburt bis zum Alter von 6 Wochen in % vom Geburtsgewicht.
- Wie viele Kinder wurden gestillt ([
JSTILL], (1,2))? - Vergleichen Sie die gestillten und die nicht gestillten Kinder
- bezüglich ihres Gewichts im Alter von 6 Wochen,
- ihrer Gewichtszunahme (Geburt – 6 Wochen),
- ihrer prozentualen Gewichtszunahme (Geburt – 6 Wochen),
- ihres Ponderal Index im Alter von 6 Wochen.
- Bilden Sie eine neue Variable Schwangerschaftsdauer [
SCHDAUG] in Gesamttagen, die Sie aus den Variablen Schwangerschaftsdauer in (ganzen) Wochen (SCHDAUW, fehlende Werte =99) und Schwangerschaftsrestdauer in Tagen (SCHDAUT; fehlende Werte=9; “.” = 0) bilden.Hat die Schwangerschaftsdauer einen Einfluss auf das Geburtsgewicht? - Bilden Sie aus der Variable Nationalität der Mutter [
NATMUT] eine neue Variable, welche die Nationalität der Mutter in 3 Kategorien zusammenfasst:deutsch(NATMUT=D),türkisch(NATMUT=TR) undsonstige(alle anderen, auch die ohne Angabe). - Unterscheiden sich die Kinder von Müttern der verschiedenen Nationalitäten hinsichtlich ihres Geburtsgewichts und ihres Ponderal Index im Alter von 6 Wochen?
- Werden die Kinder von Müttern unterschiedlicher Nationalitäten gleich häufig gestillt?
- Vergleichen Sie das mittlere Geburtsgewicht mit der Referenz 3500g (t-Test für eine Stichprobe).
- Vergleichen Sie das mittlere Geburtsgewicht von männlichen und weiblichen Neugeborenen (t-Test für zwei Stichprobe).
Lösung siehe Abschnitt 4.12