Hufflepuff Slytherin
Kräuterkunde Zaubertränke
Pflege magischer Geschöpfe Zauberkunst
Geschichte der Zauberei Dunkle Künste
Alte Runen Legilimentik
2 Aufgaben für geübte Anwender:innen
2.1 Objekte in R
2.1.1 Aufgabe 2.1.1 Hogwarts-Kurse
In Hogwarts wurden jeweils die vier beliebtesten Kurse der Schüler pro Haus ermittelt. Die Ergebnisse liegen in 2 Tabellen vor.
Gryffindor Ravenclaw
Verteidigung gegen die dunklen Künste Arithmantik
Zauberkunst Astronomie
Verwandlung Verwandlung
Besenflugunterricht Verteidigung gegen die dunklen Künste
- Benutzen Sie die
tribble()-Funktion, um die Daten in die Objektetab1undtab2zu überführen. - Fügen Sie
tab1undtab2zu einem ObjektHogwartszusammen. - Nutzen Sie die
mutate()-Funktion, um die Datenklassen der Variablen anzupassen (Skalenniveau). - Ändern Sie anschließend mit der
mutate()-Funktion den Kurs “Geschichte der Zauberei” in “Geisterkunde” um. - Die Daten liegen nicht im Tidy-Data-Format vor. Erzeugen Sie ein neues Objekt
Kursemit den VariablenHausundKurs. - Überführen Sie die Objekte
tab1undtab2aus a) jeweils in einedata.table. Wiederholen Sie nun die Aufgaben b) bis e), indem Sie ausschließlich Funktionen desdata.table-Paketes nutzen.
Lösung siehe Abschnitt 5.1.1
2.1.2 Aufgabe 2.1.2 Aufnahme und Entlassung
Im Datensatz Krankenhaus.RData1 sind die Aufnahme- und Entlassungsdaten von Patienten eines Krankenhauses enthalten, die an einer bestimmten Krankheit leiden.
- Laden Sie den Datensatz
Krankenhaus.RDatain Ihre R-Session. - Ein Variablenname enthält einen Tippfehler. Reparieren Sie auch die Datenklassen der Variablen. Entfernen Sie alle Einträge mit ungültigen Zeitstempeln.
- Erstellen Sie die neue Variable
Liegedauer, welche die Aufenthaltsdauer in Tagen beinhaltet. - Über welchen Zeitraum wurden die Daten erhoben?
- Klassieren Sie die Daten der Aufnahme mit einer neuen Variable
Kalenderjahr. - Klassieren Sie die Daten der Entlassung je mit einer neuen Variable
WochentagundMonat.
Lösung siehe Abschnitt 5.1.2
2.1.3 Aufgabe 2.1.3 SPSS Datensatz
Gegeben ist folgender Datensatz: https://www.produnis.de/trainingslager/data/alteDaten-kurz.sav.
- Laden Sie den Datensatz in ein R-Objekt
- Passen Sie die Datenklassen der Variablen entsprechend des Skalenniveaus an, indem Sie nur Funktionen aus der
RStandardinstallation verwenden. Dabei sollen die Variablennamen als Labels erhalten bleiben. - Wiederholen Sie den Vorgang und verwenden dabei Funktionen aus dem
tidyverse.
Lösung siehe Abschnitt 5.1.3
2.2 Datensätze auswerten
2.2.1 Aufgabe 2.2.1 Aufnahme und Entlassung
Im Datensatz Krankenhaus.RData2 sind die Aufnahme- und Entlassungsdaten von Patienten eines Krankenhauses enthalten, die an einer bestimmten Krankheit leiden.
- Laden Sie den Datensatz
Krankenhaus.RDatain Ihre R-Session, korrigieren Sie den Tippfehler der VariableALter, reparieren Sie die Datenklassen der Variablen und entfernen Sie alle Einträge mit ungültigen Zeitstempeln. - Plotten Sie die absoluten Häufigkeiten der Aufnahmen und Entlassungen pro Kalendertag. Was fällt Ihnen auf?
- Plotten Sie die durchschnittlichen absoluten Häufigkeiten an täglichen Aufnahmen und Entlassungen pro Wochentag. Was fällt Ihnen auf?
- Plotten Sie die durchschnittlichen absoluten Häufigkeiten an täglichen Aufnahmen und Entlassungen pro Monat sowie die absoluten Häufigkeiten pro Tagesstunde.
- Erstellen Sie ein Poissionregressionsmodell für die Anzahl der täglichen Aufnahmen erklärt durch den Wochentag. Ist das Modell überdispersioniert? Wieviele Aufnahmen sind an einem Dienstag und an einem Sonntag zu erwarten?
- Fügen Sie den Monat als weiteren Prädiktor hinzu. Wird das Modell dadurch besser? Wieviele Aufnahmen sind an einem Donnerstag im Mai zu erwarten, und wieviele im September?
- Wie groß ist die Wahrscheinlichkeit, dass an einem Mittwoch im Mai 10 Patienten aufgenommen werden?
- Wie groß ist die Wahrscheinlichkeit, dass an einem Mittwoch im Mai zwischen 4 und 7 Patienten aufgenommen werden?
- Wie groß ist die Wahrscheinlichkeit, dass an einem Montag im Januar maximal 2 Patienten aufgenommen werden?
- Erzeugen Sie ein Histogramm des Alters der Probanden. Was fällt Ihnen auf? Korrigieren Sie wenn nötig die Daten. Ist das Alter der Probanden normalverteilt?
- Stellen Sie das Alter der Männern und Frauen tabellarisch und graphisch dar. Unterscheidet sich das Alter der Probanden zwischen Männern und Frauen?
- Ist der Unterschied signifikant?
- Ab welchem Alter sind 10% der Männer älter als dieser Wert?
- Ab welchem Alter sind 80% der Frauen jünger als dieser Wert?
- Wie groß ist die mittlere Liegedauer in Tagen? Stellen Sie die Liegedauer mittels Kennwerten sowie graphisch dar. Was fällt Ihnen auf?
- Wie viel Prozent der Patienten haben eine Liegedauer von mehr als 7 Tagen?
- Unterscheiden sich Männer und Frauen hinsichtlich der Liegedauer? Stellen Sie den Unterschied ebenfalls tabellarisch und graphisch dar.
- Ist der Unterschied der Liegedauer zwischen Männern und Frauen signifikant?
Lösung siehe Abschnitt 5.2.1
2.2.2 Aufgabe 2.2.2 Lungenkapazität
Tager et al. (1983) haben die Auswirkungen des mütterlichen Zigarettenrauchens auf die Lungenfunktion in einer Kohorte von Kindern und Jugendlichen untersucht, die über einen Zeitraum von sieben Jahren prospektiv beobachtet wurden. Dabei wurde auch erfasst, ob die Kinder selbst rauchen oder nicht. Die dazugehörigen Daten stehen unter anderem im GLMsData-Zusatzpaket unter dem Namen lungcap zur Verfügung. Im Datensatz beschreibt FEV das forcierte exspiratorische Volumen in Litern, ein Maß für die Lungenkapazität. Die Variable Ht beschreibt die Körpergröße der Probanden in Zoll. Ob die Kinder selbst auch rauchen, ist in der Variable Smoke erfasst.
- Laden Sie den Datensatz
lungcapin IhreR-Session - Erzeugen Sie eine neue Variable, welche die Körpergröße in Zentimetern enthält (1 Zoll = 2,54cm)
- Plotten Sie nebeneinander die Boxplots der Lungenkapazität nichtrauchenden und rauchenden Kindern. Legt das Diagramm einen Zusammenhang nahe?
- Führen Sie einen Signifikanztest durch, um zu überprüfen, ob sich die Lungenkapazitäten in Abhängigkeit zu
Smokeunterscheidet. - Erzeugen Sie eine Punktwole des Lungenvolumens und des Alters. Legt das Diagramm einen Zusammenhang nahe?
- Erzeugen Sie eine Punktwole des Lungenvolumens und der Körpergröße. Legt das Diagramm einen Zusammenhang nahe?
- Welches Regressionsmodell ist am besten geeignet, um
FEV erklärt durch Alterzu bestimmen? - Welches Regressionsmodell ist am besten geeignet, um
FEV erklärt durch Körpergrößezu bestimmen? - Berechnen Sie das Modell, welches
FEVam besten erklärt. - Plotten Sie eine Punktwolke, mit
FEVauf der Y-Achse, und dem besten Prädiktor auf der X-Achse. Färben Sie die Daten mittels der VariableSmoke. Fügen Sie anschließend Ihre Modelllinie dem Plot hinzu. - Fügen Sie
Smoke,AgeundGenderals weitere Prädiktor dem Modell hinzu. Hat Rauchen einen Einfluss aufFEV?
Weitere Informationen zur Auswertungsstrategie finden sich bei Kahn (2005).
Lösung siehe Abschnitt 5.2.2
2.2.3 Aufgabe 2.2.3 Brustkrebs
Die Daten von mehr als 1200 Patientinnen mit Brustkrebs finden sich im Datensatz https://www.produnis.de/trainingslager/data/breast.sav.
- Importieren Sie den Datensatz in Ihre R-Session und machen Sie sich mit dem Datensatz vertraut.
- Klassieren Sie die Variablen
pathsizein die Größen- “2cm und weniger”,
- “2 - 5cm” und
- “> 5cm”
lnposin die Kategorien- “0 \(\rightarrow\) nein” und
- “>0 \(\rightarrow\) ja”
erin die Kategorien- “0 \(\rightarrow\) negativ” und
- “>0 \(\rightarrow\) positiv”
prin die Kategorien- “0 \(\rightarrow\) negativ” und
- “>0 \(\rightarrow\) positiv”
- Kodieren Sie die Variable
histgradum, so dass korrekteNAs enthalten sind. - Erstellen Sie ein Überlebenszeitmodell
status erklärt durch timeund geben Sie die Überlebenstafel sowie die Kaplan-Meier-Plots der kumulierten Überlebenswahrscheinlichkeiten aus. - Gruppieren Sie Ihr Modell mit den zuvor klassierten Variablen zum
- Lymphknotenbefall
- Östrogenstatus
- Progesteronstatus
- histologischen Grad
- Tumorgröße
- Führen Sie eine Cox-Regression auf das Überleben durch, wobei die klassierten Werte der Tumorgröße, des Lymphknotenbefalls, des Östrogen- und Progesteronstatus sowie des histologischen Grades als Prädiktoren verwendet werden. Stellen Sie Ihre Ergebnisse als Forest-Plot dar.
Lösung siehe Abschnitt 5.2.3
2.2.4 Aufgabe 2.2.4 data.table Rolling Stone
In dieser Aufgabe soll der Tidy Tuesday Datensatz “Rolling Stone” vom 07.05.20243 mit dem Paket data.table ausgewertet werden. Er enthält die „500 besten Alben aller Zeiten“-Listen des Rolling Stone Magazine aus den Jahren 2003, 2012 und 2020.
- Laden Sie den Datensatz als
data.tablevon https://www.produnis.de/trainingslager/data/rolling_stone.csv in Ihre R-Session, und machen Sie sich mit den Daten vertraut.
Lösung siehe Abschnitt 5.2.4