3  Aufgaben

Schön, dass Sie Ihre data.table-Fähigkeiten überprüfen und festigen möchten. Bleiben Sie am Ball, Sie schaffen das!

3.1 Größe und Gewicht

Von 10 Personen wurden folgende Körpergrößen in Meter gemessen:

          1,68   1,87   1,95   1,74   1,80
          1,75   1,59   1,77   1,82   1,74

… sowie folgende Gewichte in Gramm:

          78500  110100  97500   69200   82500
          71500   81500  87200   75500   65500
  1. Überführen Sie die Daten in eine data.table mit den Variablen Groesse und Gewicht.
  2. Rechnen Sie das Gewicht um in Kilogramm, und speichern Sie Ihr Ergebnis in der neuen Variable Kilogramm.
  3. Lassen Sie die Daten von Proband 4, 7 und 9 ausgeben.
  4. Lassen Sie die Daten der Probanden ausgeben, deren Gewicht größer ist als 80kg.
  5. Lassen Sie die Daten der Probanden ausgeben, die größer als 1,7m sind und leichter als 85kg.
  6. Speichern Sie Ihr data.table-Objekt in die Datei groegew.csv. Lassen Sie sich dabei zunächst anzeigen, was in die Datei geschrieben werden wird.

Lösung siehe Abschnitt 4.1

 

3.2 Datentabelle

Von 6 Probanden wurde der Cholesterolspiegel in mg/dl gemessen.

Name Geschlecht Gewicht Größe Cholesterol
Anna Tomie W 85 179 182
Bud Zillus M 115 173 232
Dieter Mietenplage M 79 181 191
Hella Scheinwerfer W 60 170 200
Inge Danken W 57 158 148
Jason Zufall M 96 174 249
  1. Übertragen Sie die Daten in eine data.table mit dem Namen chol.
  2. Erstellen Sie eine neue Variable Alter, die zwischen Name und Geschlecht liegt und folgende Daten beinhaltet:
Name Alter
Anna Tomie 18
Bud Zillus 32
Dieter Mietenplage 24
Hella Scheinwerfer 35
Inge Danken 46
Jason Zufall 68
  1. Fügen Sie einen weiteren Fall mit folgenden Daten dem Datenframe hinzu
Name Alter Geschlecht Gewicht Größe Cholesterol
Mitch Mackes 44 M 92 178 220
  1. Erzeugen Sie eine neue Variable BMI (\(\text{BMI}=\frac{kg}{m^2}\)).
  2. Fügen Sie die Variable Adipositas hinzu, in welcher Sie die BMI-Werte wie folgt klassieren:
    • weniger als 18,5 \(\rightarrow\ \) Untergewicht
    • zwischen 18,5 und 24.5 \(\rightarrow\ \) Normalgewicht
    • zwischen 24,5 und 30 \(\rightarrow\ \) Übergewicht
    • größer als 30 \(\rightarrow\ \) Adipositas
  3. Filtern Sie Ihren Datensatz, so dass Sie einen neuen Datensatz male erhalten, welcher nur die Daten der Männer beinhaltet.
  4. Speichern Sie die Objekte chol und male als Textdatei auf Ihre Festplatte. Lassen Sie sich dabei jeweils zuvor anzeigen, welcher Inhalt in die Textdatei geschrieben werden wird.

Lösung siehe Abschnitt 4.2

 

3.3 Big Five

{data.table} ist vor allem bei großen Datensätzen beliebt, da es schneller ist als herkömmliches R. Die Datei big_five_scores.csv enthält Daten von 307.313 Probanden aus 236 Ländern zu den Big Five der Persönlichkeitspsychologie, siehe https://de.wikipedia.org/wiki/Big_Five_(Psychologie). Die Datei liegt als ZIP-Paket unter https://www.produnis.de/tabletrainer/data/big_five.zip. Laden Sie die ZIP Datei herunter, und entpacken Sie big_five_scores.csv in Ihren Projektordner (bzw. dort in den data-Ordner).

Der Datensatz beinhaltet folgende Variablen
  • case_id: Eindeutige ID der Person, zu der die Ergebnisse gehören
  • country: Herkunftsland der Person
  • age: Alter der Person
  • sex: biologisches Geschlecht der Person. 1 = männlich, 2 = weiblich

Die restlichen Spalten sind die Punktzahlen der Person von 0 bis 1 für jede ihrer fünf großen Persönlichkeitsmerkmale:

  • Agreeableness (Verträglichkeit)
  • Extraversion (Extraversion)
  • Openness (Offenheit)
  • Conscientiousness (Gewissenhaftigkeit)
  • Neuroticism (Neurotizismus.
  1. Lesen Sie den Datensatz big_five_scores.csv als data.table in Ihre R-Session und machen Sie sich mit dem Datensatz vertraut.
  2. Ändern Sie die Geschlechtskodierung, so dass männlich und weiblich verwendet werden.
  3. Passen Sie das Skalenniveau der Variablen an.

Lösung siehe Abschnitt 4.3

 

3.4 Rolling Stone Magazine

Die Datei rolling_stone.csv enthält die 500 Greatest Albums of All Time Listen des Rolling Stone Magazines aus den Jahren 2003, 2012 und 2020. Der Datensatz stammt aus dem Tidy Tuesday Projekt (2022) vom 07.05.2024 und kann auch unter https://www.produnis.de/tabletrainer/data/rolling_stone.csv herutergeladen werden. Die Aufgaben sind inspiriert von Corrales & Campitelli (2024).

  1. Laden Sie die Datei rolling_stone.csv als data.table in Ihre R-Session und machen Sie sich mit dem Datensatz vertraut.
  2. Passen Sie das Skalenniveau der Variablen an.
  3. Welche sind die Nummer 1 Alben der Jahre 2003, 2012 und 2020?
  4. Ist Ihre Lieblingsband in der Liste?
  5. Welche weiblichen Bands haben mehr als 3 Mitglieder?
  6. Welche Band hat die meisten Alben im Datensatz?
  7. Prüfen Sie per Korrelationsverfahren, ob die Beliebtheit bei Spotify (spotify_popularity) mit der Liste von 2020 übereinstimmt.
  8. Welchen durchschnittlichen Rang erzielen Alben des Genres “Electronic” in den Jahren 2003, 2012 und 2020?
  9. Berechnen Sie das arithmetische Mittel und den Median des Albenrankings für jedes Genre im Jahr 2020. Wieviele Alben sind pro Genre enthalten? Sortieren Sie die Ausgabe einmal absteigend nach dem Median, und einmal aufsteigend nach genre.
  10. Manche Künstler haben es in jede der 3 Listen geschafft. Wie groß ist die Anzahl an Bands, die in jeder der 3 Listen vertreten sind, wieviele Alben haben in jeder der 3 Listen eine Platzierung, welche Alben sind in jeder der 3 Listen auf dem selben Platz, welche haben sich kontinuierlich verbessert, welche kontinuierlich verschlechtert?
  11. Erzeugen Sie eine neue Variable soloband, in welcher festeghalten wird, ob es sich um eine(n) Solokünstler(in) handelt (solo), oder um eine Band (band).
  12. Der Datensatz liegt als wide.table vor, da die Rankings für 2003, 2012 und 2020 als Variablen nebeneinander stehen. Wandeln Sie den Datensatz in eine long.table (Tidy Data) um, so dass die Rankingangaben in den Variablen Rang und Rangjahr angegeben sind.
  13. Plotten Sie mittels ggplot() die Rangveränderungen von 2003 bis 2020 für solche Alben, die sich kontinuierlich verschlechter haben. Was fällt Ihnen auf?

Lösung siehe Abschnitt 4.4

 

3.5 Taylor Swift

Im Datensatz taylor_swift_spotify2024.csv (siehe https://www.produnis.de/tabletrainer/data/taylor_swift_spotify2024.csv) sind Daten von Taylor Swift bei Spotify enthalten (Stand 2024).

  1. Laden Sie den Datensatz taylor_swift_spotify2024.csv als data.table in Ihre R-Session. Nennen Sie Ihr Objekt dabei ts und verschaffen Sie sich mittels str() einen Überblick über die enthaltenen Daten.
  2. Wenn nötig, korrigiern Sie das Skalenniveau (nominal, ordinal, metrisch) der Variablen innerhalb des Datensatzes.
  3. Erstellen Sie eine neue Variable sekunden, welche die Songlängen in Sekunden enthält
  4. Wie lang dauern die Songs im Durchschnitt? Bei welcher Songlänge liegt der Median?
  5. Welcher Song ist laut Datensatz der populärste, welcher der längste, und welcher der langsamste insgesamt? Stellen Sie anschließend die Werte pro Album dar.
  6. Welches Album hat die meisten Songs, und welches hat die wenigsten Songs?
  7. Plotten Sie die Anzahl der Tracks pro Album als Punkt-Liniendiagramm, wobei das Datum auf der X-Achse, und die Trackanzahl auf der Y-Achse dargestellt werden.

Lösung siehe Abschnitt 4.5

 

3.6 Anscombe-Quartett

Das Anscombe-Quartett ist ein bekannter Datensatz in der Statistik, der von Francis Anscombe (1973) erdacht wurde, siehe https://de.wikipedia.org/wiki/Anscombe-Quartett.

Der dazugehörige Datensatz ist in der R-Standardinstallation bereits implementiert und heisst anscombe.

  1. Laden Sie den Datensatz anscombe in Ihre R-Session und überführen Sie ihn in ein data.table Objekt mit dem Namen ac.
  2. Die Daten liegen als breite Tabelle (wide tabel) vor. Überführen Sie sie ins long table (tidy) Format, so dass Ihre data.table aus den Spalten x, y, und Gruppe besteht.
  3. Berechnen Sie für jede Gruppe die Mittelwerte, Standardabweichungen, Korrelations- und Regressionskoeffizienten von x und y, wobei Sie Ihre Ergebnisse auf 2 Stellen runden sollen.
  4. Erzeugen Sie mittels ggplot() eine Punktwolke mit Regressionsgeraden für jede Gruppe, wobei alle 4 Diagramme mit einem Plotaufruf erzeugt werden sollen.

Lösung siehe Abschnitt 4.6

 

3.7 Neugeborene: Rauchen

Der Datensatz neonates von rk.Teaching1, auch verfügbar unter https://www.produnis.de/tabletrainer/data/neonates.RData, enthält Informationen über eine Stichprobe von 320 Neugeborenen, die im Laufe eines Jahres nach normaler Schwangerschaftsdauer geboren wurden.

  1. Überführen Sie die Daten in ein data.table-Objekt mit dem Namen ng.
  2. Die Variabel apgar1 enthält die APGAR-Scores nach 1 Minute. Wenn ein Score von 3 oder weniger anzeigt, dass das Neugeborene in einem kritischen Zusatand ist, wie viel Prozent der Neugeborenen in der Stichprobe sind dann in einem kritischen Zustand?
  3. Erstellen Sie die Häufigkeitstabelle des Geburtsgewichts der Neugeborenen, indem Sie die Daten in Klassen mit einer Breite von 0,5 kg von 2 bis 4,5 kg einteilen. Welches Intervall enthält die meisten Neugeborenen?
  4. Vergleichen Sie die Häufigkeitsverteilung des APGAR-Scores nach 1 Minute für Mütter unter 20 Jahren und für Mütter über 20 Jahren. Welche Gruppe hat mehr Neugeborene in kritischem Zustand?
  5. Vergleichen Sie die relative Häufigkeitsverteilung des Geburtsgewichts der Neugeborenen, je nachdem, ob die Mutter während der Schwangerschaft geraucht hat (smoke) oder nicht. Wenn ein Gewicht unter 2,5 kg als niedriges Gewicht gilt, welche Gruppe hat einen höheren Prozentsatz an Neugeborenen mit niedrigem Gewicht?
  6. Berechnen Sie die Prävalenz von Neugeborenen mit niedrigem Gewicht für Mütter, die vor der Schwangerschaft geraucht haben (smoke.before), und den Nichtraucherinnen.
  7. Berechnen Sie die Odds Ratio eines niedrigen Geburtsgewichts des Neugeborenen, wenn die Mutter während der Schwangerschaft raucht, im Vergleich dazu, wenn die Mutter nicht raucht.
  8. Erstellen Sie das Balkendiagramm der kumulierten relativen Häufigkeit des APGAR-Scores nach 1 Minute. Unter welchem Wert liegen die Hälfte der Neugeborenen?
  9. Vergleichen Sie die Balkendiagramme der relativen Häufigkeitsverteilungen des APGAR-Scores nach 1 Minute, je nachdem, ob die Mutter während der Schwangerschaft geraucht hat oder nicht. Welche Schlussfolgerungen können gezogen werden?
  10. Berechnen Sie Median, Durchschnitt und Standardabweichung für die APGAR-Scores nach 1 und nach 5 Minuten jeweils für die Kinder von Müttern, die vor der Schwangerschaft geraucht haben, und den Nichtraucherinnen. Geben Sie auch die Anzahl an Fällen (N) an. Bewerten Sie die Ergebnisse.
  11. Ist der Unterschied der APGAR-Scores aus Aufgabe j) signifikant?

Lösung siehe Abschnitt 4.7

 

3.8 Verteidigung gegen die dunklen Künste

In den Textdatein VgddK_Lupin.txt, VgddK_Moody.txt und VgddK_Umbridge.txt (verfügbar unter https://www.produnis.de/tabletrainer/data/) sind die Leistungspunkte (von 1 bis 10) von 25 Schüler:innen aus Hogwarts im Fach Verteidigung gegen die dunklen Künste enthalten, wobei diese Punkte jeweils für die Professoren Lupin, Moody und Umbridge erhoben wurde.

  1. Laden Sie die Textdateien als data.table in Ihre R-Session, und führe Sie diese zu einem einzelnen data.table-Objekt mit dem Namen hp zusammen.
  2. Erstellen Sie mit ggplot() ein Diagramm, welches die Leistungspunkte als Boxplots für jeden Professor darstellt. Hierfür bietet es sich an, die Daten ins long table Format zu überführen.

Lösung siehe Abschnitt 4.8

 

3.9 Hogwarts Hauspunkte

In der Datei PotterHauspunkte.RData (verfügbar unter https://www.produnis.de/tabletrainer/data/PotterHauspunkte.RData) sind die Hauspunkte erfasst, die 3.273 Schüler in ihrem ersten, dritten und fünften Schuljahr an Hogwarts für ihr Haus gesammelt haben.

  1. Laden Sie den Datensatz von https://www.produnis.de/tabletrainer/data/PotterHauspunkte.RData in Ihre R-Session, und überführen Sie ihn in eine data.table mit dem Namen pp.
  2. Berechnen Sie Median, Mittelwert und Standardabweichung für die Hauspunkte insgesamt, und jeweils für jedes Haus und Jahr gesondert.
  3. Plotten Sie die Punkte als Boxplots in Abhängigkeit zum Schuljahr, und dann in Abhängigkeit zum Haus.

Lösung siehe Abschnitt 4.9

 

3.10 Lungenkapazität

Tager et al. (1983) haben die Auswirkungen des mütterlichen Zigarettenrauchens auf die Lungenfunktion in einer Kohorte von Kindern und Jugendlichen untersucht, die über einen Zeitraum von sieben Jahren prospektiv beobachtet wurden. Dabei wurde auch erfasst, ob die Kinder selbst rauchen oder nicht. Die dazugehörigen Daten stehen unter anderem im GLMsData-Zusatzpaket unter dem Namen lungcap zur Verfügung. Im Datensatz beschreibt FEV das forcierte exspiratorische Volumen in Litern, ein Maß für die Lungenkapazität. Die Variable Ht beschreibt die Körpergröße der Probanden in Zoll. Ob die Kinder selbst auch rauchen, ist in der Variable Smoke erfasst.

  1. Laden Sie den Datensatz lungcap als data.table mit dem Namen lc in Ihre R-Session
  2. Erzeugen Sie eine neue Variable Körpergröße, welche die Körpergröße in Zentimetern enthält (1 Zoll = 2,54cm)
  3. Ändern Sie die Kodierung der Variable Smoke, so dass statt 0 “nein”, und statt 1 “ja” enthalten ist. Passen Sie dabei auch das Skalenniveau an.
  4. Plotten Sie nebeneinander die Boxplots der Lungenkapazität nichtrauchenden und rauchenden Kindern. Legt das Diagramm einen Zusammenhang nahe?
  5. Führen Sie einen Signifikanztest durch, um zu überprüfen, ob sich die Lungenkapazitäten in Abhängigkeit zu Smoke unterscheidet.
  6. Erzeugen Sie eine Punktwole des Lungenvolumens und des Alters, sowie des Lungenvolumens und der Körpergröße. Legen die Diagramme einen Zusammenhang nahe?
  7. Welches Regressionsmodell ist am besten geeignet, um FEV erklärt durch Alter zu bestimmen, und welches ist am besten geeignet, um FEV erklärt durch Körpergröße zu bestimmen?
  8. Berechnen Sie das Modell, welches FEV am besten erklärt.
  9. Plotten Sie eine Punktwolke, mit FEV auf der Y-Achse, und dem besten Prädiktor auf der X-Achse. Färben Sie die Daten mittels der Variable Smoke. Fügen Sie anschließend Ihre Modelllinie dem Plot hinzu.
  10. Fügen Sie Smoke, Age und Gender als weitere Prädiktor dem Modell hinzu. Hat Rauchen einen Einfluss auf FEV?

Weitere Informationen zur Auswertungsstrategie finden sich bei Kahn (2005).

Lösung siehe Abschnitt 4.10

 

3.11 Charlson-Index

   Der Datensatz Krankenhausfaelle.sas (verfügbar unter https://www.produnis.de/tabletrainer/data/Krankenhausfaelle.sas) beinhaltet den Charlson-Index2 sowie weitere Daten von 26.561 Patienten, die stationär im Krankenhaus behandelt wurden.

Datensatzdokumentation
Variable Merkmal Merkmalsausprägung
ID laufende Nummer numerisch
Geschlecht Geschlecht m/w (charakter)
Alter Alter numerisch
CHARLSON_SUM_G Charlson-Index Gewichtssumme numerisch
DIED im KH verstorben 0/1 (Nein/Ja)
Herzdekomp Herzdekompensationen 0/1 (Nein/Ja)
Demenz Demenz 0/1 (Nein/Ja)
LUNG_CHRON chron. Lungenkrankheit 0/1 (Nein/Ja)
RHEUMA rheumat. Erkrankungen 0/1 (Nein/Ja)
Leber_L leichte Lebererkrankung 0/1 (Nein/Ja)
Leber_MS schwere Lebererkrankung 0/1 (Nein/Ja)
DM_KOMP Diabetes mit Komplikationen 0/1 (Nein/Ja)
PARA_HEMI Paraplegie und Hemiplegie 0/1 (Nein/Ja)
NIEREN Nierenerkrankungen 0/1 (Nein/Ja)
NEUBILD Neubildungen 0/1 (Nein/Ja)
CARC_MET metastasierende Karzinome 0/1 (Nein/Ja)
AIDS_HIV AIDS-HIV 0/1 (Nein/Ja)
  1. Importieren Sie den SAS-Datensatz Krankenhausfaelle.sas in Ihre R-Session und überführen Sie ihn in eine data.table mit dem Namen kh. Machen Sie sich mit dem Datensatz vertraut.
  2. Ersetzen Sie die Kodierung der dichotomen Variablen von 0 auf nein und von 1 auf ja. Passen Sie wo nötig das Skalenniveau der Variablen an.
  3. Klassieren Sie das Alter der Probanden in die Variable AlterK mit den Klassen
    • \(<\) 10 Jahre
    • 10 bis 19 Jahre
    • 20 bis 29 Jahre
    • \(>\) 89 Jahre
    und plotten Sie ein Histogramm der relativen Häufigkeiten der klassierten Werte.
  4. Klassieren Sie den Charlson-Index in die Variable CharlsonK mit den Klassen
    • 0
    • 1 bis 2
    • \(>\) 2
  5. Welche Nebendiagnose kommt am häufigsten vor?
  6. Wieviele Patienten ohne Nebendiagnosen sind enthalten?
  7. Erzeugen Sie eine neue Spalte "KEINE" in der data.table, die in jeder Reihe den Wert "nein" hat. Überschreiben Sie diesen Wert für solche Patienten, die keine Nebendiagnosen haben, mit dem Wert "ja".
  8. Erstellen Sie zwei Kreuztabelle der Nebendiagnosen und der Variable DIED in Prozentzahlen. Bei der ersten Tabelle sollen die Prozentwerte auf das Gesamt-N bezogen sein (100% bedeuten = alle Probanden). Bei der zweiten Tabelle sollen sich die Prozente nur auf die Gruppe von Probanden beziehen, welche diese Nebndiagnose haben (100% = alle Probanden, die diese Diagnose haben). Gelingt es Ihnen, das N der Nebendiagnosen den Tabellen hinzuzufügen?

Lösung siehe Abschnitt 4.11

3.12 Neugeborene: Gewicht

   Der Datensatz Neugeborene.sav (verfügbar unter https://www.produnis.de/tabletrainer/data/Neugeborene.sav) beinhaltet Daten von 120 Neugeborenen und ihrer Eltern.

  1. Laden Sie den SPSS-Datensatz Neugeborene.sav in Ihre R-Session und überführen Sie ihn in eine data.table mit dem Namen ng2.
  2. In einigen Variablen finden Sie die Merkmalsausprägungen 9, 99 oder 999. Diese stehen für fehlende Werte und müssen in NA umgewandelt werden. Somit ist sichergestellt, dass R diese Werte in weiteren Auswertungen nicht berücksichtigt.
  3. Wandeln Sie die Variable SEX in einen Factor mit den Levels “männlich” (statt 1) und “weiblich” (statt 2) um.
  4. Bilden Sie aus der Variable Geburtsgewicht (GEBGEWI) eine neue Variable (GEWIKAT), welche das Geburtsgewicht den folgenden Kategorien zuordnet:
    • \(\le\) 2500g
    • \(>\) 2500 bis 3000g
    • \(>\) 3000 bis 3500g
    • \(>\) 3500 bis 4000g
    • \(>\) 4000g
  5. Berechnen Sie zur Variable Geburtsgewicht getrennt für Jungen und Mädchen folgende Stichprobenmerkmale:
    • Minimum, 5. Perzentil, 1. Quartil, Median, Mittelwert,
      1. Quartil, 95. Perzentil, Maximum, Interquartilabstand
  6. Erstellen Sie Boxplots des Geburtsgewichts für alle Kinder, sowie separat für Jungen und Mädchen.
  7. Erstellen Sie zur Variable GEWIKAT je eine Häufigkeitstabelle und ein Säulendiagramm für a) die gesamte Stichprobe und b) unter Berücksichtigung des 2. Merkmals SEX
  8. Analysieren Sie den (linearen) Zusammenhang zwischen dem Geburtsgewicht [GEBGEWI] und der Körpergröße bei Geburt [GEBGROE].
  9. Einfluss des BMI
    • Bilden Sie aus den Variablen Größe des Vaters [VATGROE] und Gewicht des Vaters [VATGEW] den Body Mass Index [VATBMI] (kg/m2).
    • Bilden Sie den BMI der Mutter [MUTBMI] aus den Variablen Gewicht der Mutter [MUTGEW] und Größe der Mutter [MUTGROE].
    • Gibt es einen (linearen) Zusammenhang zwischen dem BMI der Mutter und dem des Vaters?
    • Hat der BMI der Mutter einen Einfluss auf das Geburtsgewicht des Neugeborenen?
  10. Bilden Sie aus der Variable Gewicht im Alter von 6 Wochen [FUGEW] und Größe im Alter von 6 Wochen [FUGROE] die Variable Ponderal Index im Alter von 6 Wochen. Für Säuglinge lautet die Formel \(PI = 100 \cdot \frac{g}{cm^3}\).
  11. Bilden Sie eine neue Variable: Gewichtszunahme des Kindes von Geburt bis zum Alter von 6 Wochen.
  12. Bilden Sie eine neue Variable: Gewichtszunahme von Geburt bis zum Alter von 6 Wochen in % vom Geburtsgewicht.
  13. Wie viele Kinder wurden gestillt ([JSTILL], (1,2))?
  14. Vergleichen Sie die gestillten und die nicht gestillten Kinder
    • bezüglich ihres Gewichts im Alter von 6 Wochen,
    • ihrer Gewichtszunahme (Geburt – 6 Wochen),
    • ihrer prozentualen Gewichtszunahme (Geburt – 6 Wochen),
    • ihres Ponderal Index im Alter von 6 Wochen.
  15. Bilden Sie eine neue Variable Schwangerschaftsdauer [SCHDAUG] in Gesamttagen, die Sie aus den Variablen Schwangerschaftsdauer in (ganzen) Wochen (SCHDAUW, fehlende Werte =99) und Schwangerschaftsrestdauer in Tagen (SCHDAUT; fehlende Werte=9; “.” = 0) bilden.Hat die Schwangerschaftsdauer einen Einfluss auf das Geburtsgewicht?
  16. Bilden Sie aus der Variable Nationalität der Mutter [NATMUT] eine neue Variable, welche die Nationalität der Mutter in 3 Kategorien zusammenfasst: deutsch (NATMUT=D), türkisch (NATMUT=TR) und sonstige (alle anderen, auch die ohne Angabe).
  17. Unterscheiden sich die Kinder von Müttern der verschiedenen Nationalitäten hinsichtlich ihres Geburtsgewichts und ihres Ponderal Index im Alter von 6 Wochen?
  18. Werden die Kinder von Müttern unterschiedlicher Nationalitäten gleich häufig gestillt?
  19. Vergleichen Sie das mittlere Geburtsgewicht mit der Referenz 3500g (t-Test für eine Stichprobe).
  20. Vergleichen Sie das mittlere Geburtsgewicht von männlichen und weiblichen Neugeborenen (t-Test für zwei Stichprobe).

Lösung siehe Abschnitt 4.12

 


  1. https://github.com/rkward-community/rk.Teaching↩︎

  2. siehe https://flexikon.doccheck.com/de/Charlson-Komorbidit%C3%A4tsindex↩︎