Hufflepuff Slytherin
Kräuterkunde Zaubertränke
Pflege magischer Geschöpfe Zauberkunst
Geschichte der Zauberei Dunkle Künste
Alte Runen Legilimentik
2 Aufgaben für geübte Anwender:innen
2.1 Objekte in R
2.1.1 Aufgabe 2.1.1 Hogwarts-Kurse
In Hogwarts wurden jeweils die vier beliebtesten Kurse der Schüler pro Haus ermittelt. Die Ergebnisse liegen in 2 Tabellen vor.
Gryffindor Ravenclaw
Verteidigung gegen die dunklen Künste Arithmantik
Zauberkunst Astronomie
Verwandlung Verwandlung
Besenflugunterricht Verteidigung gegen die dunklen Künste
- Benutzen Sie die
tribble()
-Funktion, um die Daten in die Objektetab1
undtab2
zu überführen. - Fügen Sie
tab1
undtab2
zu einem ObjektHogwarts
zusammen. - Nutzen Sie die
mutate()
-Funktion, um die Datenklassen der Variablen anzupassen (Skalenniveau). - Ändern Sie anschließend mit der
mutate()
-Funktion den Kurs “Geschichte der Zauberei” in “Geisterkunde” um. - Die Daten liegen nicht im Tidy-Data-Format vor. Erzeugen Sie ein neues Objekt
Kurse
mit den VariablenHaus
undKurs
. - Überführen Sie die Objekte
tab1
undtab2
aus a) jeweils in einedata.table
. Wiederholen Sie nun die Aufgaben b) bis e), indem Sie ausschließlich Funktionen desdata.table
-Paketes nutzen.
Lösung siehe Abschnitt 5.1.1
2.1.2 Aufgabe 2.1.2 Aufnahme und Entlassung
Im Datensatz Krankenhaus.RData
1 sind die Aufnahme- und Entlassungsdaten von Patienten eines Krankenhauses enthalten, die an einer bestimmten Krankheit leiden.
- Laden Sie den Datensatz
Krankenhaus.RData
in Ihre R-Session. - Ein Variablenname enthält einen Tippfehler. Reparieren Sie auch die Datenklassen der Variablen. Entfernen Sie alle Einträge mit ungültigen Zeitstempeln.
- Erstellen Sie die neue Variable
Liegedauer
, welche die Aufenthaltsdauer in Tagen beinhaltet. - Über welchen Zeitraum wurden die Daten erhoben?
- Klassieren Sie die Daten der Aufnahme mit einer neuen Variable
Kalenderjahr
. - Klassieren Sie die Daten der Entlassung je mit einer neuen Variable
Wochentag
undMonat
.
Lösung siehe Abschnitt 5.1.2
2.1.3 Aufgabe 2.1.3 SPSS Datensatz
Gegeben ist folgender Datensatz: https://www.produnis.de/trainingslager/data/alteDaten-kurz.sav.
- Laden Sie den Datensatz in ein R-Objekt
- Passen Sie die Datenklassen der Variablen entsprechend des Skalenniveaus an, indem Sie nur Funktionen aus der
R
Standardinstallation verwenden. Dabei sollen die Variablennamen als Labels erhalten bleiben. - Wiederholen Sie den Vorgang und verwenden dabei Funktionen aus dem
tidyverse
.
Lösung siehe Abschnitt 5.1.3
2.2 Datensätze auswerten
2.2.1 Aufgabe 2.2.1 Aufnahme und Entlassung
Im Datensatz Krankenhaus.RData
2 sind die Aufnahme- und Entlassungsdaten von Patienten eines Krankenhauses enthalten, die an einer bestimmten Krankheit leiden.
- Laden Sie den Datensatz
Krankenhaus.RData
in Ihre R-Session, korrigieren Sie den Tippfehler der VariableALter
, reparieren Sie die Datenklassen der Variablen und entfernen Sie alle Einträge mit ungültigen Zeitstempeln. - Plotten Sie die absoluten Häufigkeiten der Aufnahmen und Entlassungen pro Kalendertag. Was fällt Ihnen auf?
- Plotten Sie die durchschnittlichen absoluten Häufigkeiten an täglichen Aufnahmen und Entlassungen pro Wochentag. Was fällt Ihnen auf?
- Plotten Sie die durchschnittlichen absoluten Häufigkeiten an täglichen Aufnahmen und Entlassungen pro Monat sowie die absoluten Häufigkeiten pro Tagesstunde.
- Erstellen Sie ein Poissionregressionsmodell für die Anzahl der täglichen Aufnahmen erklärt durch den Wochentag. Ist das Modell überdispersioniert? Wieviele Aufnahmen sind an einem Dienstag und an einem Sonntag zu erwarten?
- Fügen Sie den Monat als weiteren Prädiktor hinzu. Wird das Modell dadurch besser? Wieviele Aufnahmen sind an einem Donnerstag im Mai zu erwarten, und wieviele im September?
- Wie groß ist die Wahrscheinlichkeit, dass an einem Mittwoch im Mai 10 Patienten aufgenommen werden?
- Wie groß ist die Wahrscheinlichkeit, dass an einem Mittwoch im Mai zwischen 4 und 7 Patienten aufgenommen werden?
- Wie groß ist die Wahrscheinlichkeit, dass an einem Montag im Januar maximal 2 Patienten aufgenommen werden?
- Erzeugen Sie ein Histogramm des Alters der Probanden. Was fällt Ihnen auf? Korrigieren Sie wenn nötig die Daten. Ist das Alter der Probanden normalverteilt?
- Stellen Sie das Alter der Männern und Frauen tabellarisch und graphisch dar. Unterscheidet sich das Alter der Probanden zwischen Männern und Frauen?
- Ist der Unterschied signifikant?
- Ab welchem Alter sind 10% der Männer älter als dieser Wert?
- Ab welchem Alter sind 80% der Frauen jünger als dieser Wert?
- Wie groß ist die mittlere Liegedauer in Tagen? Stellen Sie die Liegedauer mittels Kennwerten sowie graphisch dar. Was fällt Ihnen auf?
- Wie viel Prozent der Patienten haben eine Liegedauer von mehr als 7 Tagen?
- Unterscheiden sich Männer und Frauen hinsichtlich der Liegedauer? Stellen Sie den Unterschied ebenfalls tabellarisch und graphisch dar.
- Ist der Unterschied der Liegedauer zwischen Männern und Frauen signifikant?
Lösung siehe Abschnitt 5.2.1
2.2.2 Aufgabe 2.2.2 Lungenkapazität
Tager et al. (1983) haben die Auswirkungen des mütterlichen Zigarettenrauchens auf die Lungenfunktion in einer Kohorte von Kindern und Jugendlichen untersucht, die über einen Zeitraum von sieben Jahren prospektiv beobachtet wurden. Dabei wurde auch erfasst, ob die Kinder selbst rauchen oder nicht. Die dazugehörigen Daten stehen unter anderem im GLMsData
-Zusatzpaket unter dem Namen lungcap
zur Verfügung. Im Datensatz beschreibt FEV
das forcierte exspiratorische Volumen in Litern, ein Maß für die Lungenkapazität. Die Variable Ht
beschreibt die Körpergröße der Probanden in Zoll. Ob die Kinder selbst auch rauchen, ist in der Variable Smoke
erfasst.
- Laden Sie den Datensatz
lungcap
in IhreR
-Session - Erzeugen Sie eine neue Variable, welche die Körpergröße in Zentimetern enthält (1 Zoll = 2,54cm)
- Plotten Sie nebeneinander die Boxplots der Lungenkapazität nichtrauchenden und rauchenden Kindern. Legt das Diagramm einen Zusammenhang nahe?
- Führen Sie einen Signifikanztest durch, um zu überprüfen, ob sich die Lungenkapazitäten in Abhängigkeit zu
Smoke
unterscheidet. - Erzeugen Sie eine Punktwole des Lungenvolumens und des Alters. Legt das Diagramm einen Zusammenhang nahe?
- Erzeugen Sie eine Punktwole des Lungenvolumens und der Körpergröße. Legt das Diagramm einen Zusammenhang nahe?
- Welches Regressionsmodell ist am besten geeignet, um
FEV erklärt durch Alter
zu bestimmen? - Welches Regressionsmodell ist am besten geeignet, um
FEV erklärt durch Körpergröße
zu bestimmen? - Berechnen Sie das Modell, welches
FEV
am besten erklärt. - Plotten Sie eine Punktwolke, mit
FEV
auf der Y-Achse, und dem besten Prädiktor auf der X-Achse. Färben Sie die Daten mittels der VariableSmoke
. Fügen Sie anschließend Ihre Modelllinie dem Plot hinzu. - Fügen Sie
Smoke
,Age
undGender
als weitere Prädiktor dem Modell hinzu. Hat Rauchen einen Einfluss aufFEV
?
Weitere Informationen zur Auswertungsstrategie finden sich bei Kahn (2005).
Lösung siehe Abschnitt 5.2.2
2.2.3 Aufgabe 2.2.3 Brustkrebs
Die Daten von mehr als 1200 Patientinnen mit Brustkrebs finden sich im Datensatz https://www.produnis.de/trainingslager/data/breast.sav.
- Importieren Sie den Datensatz in Ihre R-Session und machen Sie sich mit dem Datensatz vertraut.
- Klassieren Sie die Variablen
pathsize
in die Größen- “2cm und weniger”,
- “2 - 5cm” und
- “> 5cm”
lnpos
in die Kategorien- “0 \(\rightarrow\) nein” und
- “>0 \(\rightarrow\) ja”
er
in die Kategorien- “0 \(\rightarrow\) negativ” und
- “>0 \(\rightarrow\) positiv”
pr
in die Kategorien- “0 \(\rightarrow\) negativ” und
- “>0 \(\rightarrow\) positiv”
- Kodieren Sie die Variable
histgrad
um, so dass korrekteNA
s enthalten sind. - Erstellen Sie ein Überlebenszeitmodell
status erklärt durch time
und geben Sie die Überlebenstafel sowie die Kaplan-Meier-Plots der kumulierten Überlebenswahrscheinlichkeiten aus. - Gruppieren Sie Ihr Modell mit den zuvor klassierten Variablen zum
- Lymphknotenbefall
- Östrogenstatus
- Progesteronstatus
- histologischen Grad
- Tumorgröße
- Führen Sie eine Cox-Regression auf das Überleben durch, wobei die klassierten Werte der Tumorgröße, des Lymphknotenbefalls, des Östrogen- und Progesteronstatus sowie des histologischen Grades als Prädiktoren verwendet werden. Stellen Sie Ihre Ergebnisse als Forest-Plot dar.
Lösung siehe Abschnitt 5.2.3
2.2.4 Aufgabe 2.2.4 data.table
Rolling Stone
In dieser Aufgabe soll der Tidy Tuesday Datensatz “Rolling Stone” vom 07.05.20243 mit dem Paket data.table
ausgewertet werden. Er enthält die „500 besten Alben aller Zeiten“-Listen des Rolling Stone Magazine aus den Jahren 2003, 2012 und 2020.
- Laden Sie den Datensatz als
data.table
von https://www.produnis.de/trainingslager/data/rolling_stone.csv in Ihre R-Session, und machen Sie sich mit den Daten vertraut.
Lösung siehe Abschnitt 5.2.4