44  Übungsaufgaben

In diesem Kapitel werden Übungsaufgaben zu verschiedenen Teilen der Statistik vorgestellt und gelöst.

Die Aufgaben stammen von Gimeno et al. (2022)1. Dort werden die Lösungswege nur teilweise und nur unter Verwendung der Software RKWard2, aber ohne konkreten R-Code besprochen.

Auf den Seiten ab Kapitel 45 werden die Lösungen “zu Fuß” mit R-Code erarbeitet. Versuchen Sie möglichst, zunächst selbst eine Lösung zu finden, bevor Sie sich die Auflösungen anschauen.

Die Aufgaben und Lösungen stehen auch als Quartodokument auf GitHub zur Verfügung, siehe https://github.com/produnis/angewandte_uebungen_in_R.

Weitere Aufgaben finden Sie zudem im trainingslageR unter https://www.produnis.de/trainingslager.

Die vorgestellten Lösungen stellen immer nur eine mögliche Vorgehensweisen dar und sind sicherlich nicht der Weisheit letzter Schluss. In R führen viele Wege nach Rom, und wenn Sie mit anderem Code zu den richtigen Ergebnissen kommen, dann ist das völlig in Ordnung.

Die Aufgaben sind nach unterschiedlichen Bereichen der Statistik gegliedert.

44.1 Häufigkeitsverteilungen

44.1.1 Aufgabe 44.1.1 Kinder in Familien

Für 25 Familien liegt die Anzahl an Kindern vor:

1, 2, 4, 2, 2, 2, 3, 2, 1, 1, 0, 2, 2, 0, 2, 2, 1, 2, 2, 3, 1, 2, 2, 1, 2

  1. Erstellen Sie ein Datenframe mit der Variable Kinder und übertragen Sie die Daten.
  2. Erzeugen Sie eine einfache Häufigkeitstabelle
  3. Erzeugen Sie ein Balkendiagramm der Häufigkeiten
  4. Erzeugen Sie eine vollständige Häufigkeitstabelle, inklusive absoluter, relativer und jeweils kumulativer Häufigkeiten

Für die Lösung siehe Abschnitt 45.1

44.1.2 Aufgabe 44.1.2 Patienten in der Notaufnahme

Den gesamten November über wurde die Anzahl an Patienten in der Notaufnahme erhoben

15 23 12 10 28 50 12 17 20 21 18 13 11 12 26 0 6 16 19 22 14 17 21 28 9 16 13 11 16 20

  1. Erstellen Sie ein Datenframe mit der Variable Patienten und übertragen Sie die Daten.
  2. Erzeugen Sie ein Boxplot. Gibt es Ausreißer? Wenn ja, entfernen Sie diese, bevor Sie weitermachen.
  3. Erzeugen Sie eine Häufigkeitstabelle, welche die Daten in 5 Klassen gruppiert.
  4. Erzeugen Sie ein Histogram der klassierten absoluten Häufigkeiten.
  5. Erzeugen Sie ebenso Histogramme der relativen und jeweils kumulativen Häufigkeiten, inklusive Polygonzügen.

Für die Lösung siehe Abschnitt 45.2

44.1.3 Aufgabe 44.1.3 Blutgruppen

Von 30 Personen wurden die Blutgruppen wie folgt bestimmt:

A, B, B, A, AB, 0, 0, A, B, B, A, A, A, A, AB, A, A, A, B, 0, B, B, B, A, A, A, 0, A, AB, 0

  1. Erstellen Sie ein Datenframe mit der Variable Blutgruppe und übertragen Sie die Daten.
  2. Erzeugen Sie eine Häufigkeitstabelle
  3. Erzeugen Sie ein Kreisdiagramm

Für die Lösung siehe Abschnitt 45.3

44.1.4 Aufgabe 44.1.4 Familienstand

Das Alter und der Familienstand von 28 Personen wurden wie folgt erhoben:

Familienstand Alter
Single 31 45 35 65 21 38 62 22 31
Verheiratet 72 39 62 59 25 44 54
Verwitwet 80 68 65 40 78 69 75
Geschieden 31 65 59 58 50
  1. Erstellen Sie ein Datenframe mit den Variablen Alter und Familienstand und übertragen Sie die Daten.
  2. Erzeugen Sie für jeden Familienstand eine Häufigkeitstabelle des Alters.
  3. Erzeugen Sie für jeden Familienstand eine Boxplot des Alters. Gibt es Ausreißer? In welcher Gruppe streut das Alter am meisten?
  4. Erzeugen Sie für jeden Familienstand eine Histogram des Alters. Wie unterscheiden sich die Histogramme?

Für die Lösung siehe Abschnitt 45.4

44.1.5 Aufgabe 44.1.5 Handballverletzungen

Die Anzahl der Verletzungen von Handballspielern eines Teams wurden wie folgt erhoben:

0, 1, 2, 1, 3, 0, 1, 0, 1, 2, 0, 1, 1, 1, 2, 0, 1, 3, 2, 1, 2, 1, 0, 1

  1. Erstellen Sie eine Häufigkeitstabelle
  2. Erzeugen Sie ein Säulendiagramm der relativen und kumulativen relativen Häufigkeiten.
  3. Erzeugen Sie ein Boxplot

Für die Lösung siehe Abschnitt 45.5

44.1.6 Aufgabe 44.1.6 Körpergröße

Von 30 Studierenden wurde die Körpergröße gemessen

179, 173, 181, 170, 158, 174, 172, 166, 194, 185,
162, 187, 198, 177, 178, 165, 154, 188, 166, 171,
175, 182, 167, 169, 172, 186, 172, 176, 168, 187

  1. Erstellen Sie ein Histogram der Körpergröße mit Klassen von 150cm bis 200cm, die jeweils 10cm breit sind.
  2. Gibt es Ausreißer?

Für die Lösung siehe Abschnitt 45.6

44.1.7 Aufgabe 44.1.7 Neugeborene

Der Datensatz neonates von rk.Teaching3 enthält Informationen über eine Stichprobe von 320 Neugeborenen, die im Laufe eines Jahres nach normaler Schwangerschaftsdauer geboren wurden.

  1. Erstellen Sie die Häufigkeitstabelle des APGAR-Scores nach 1 Minute. Wenn ein Score von 3 oder weniger anzeigt, dass das Neugeborene in einem kritischen Zusatand ist, wie viel Prozent der Neugeborenen in der Stichprobe sind dann in einem kritischen Zustand?

  2. Erstellen Sie die Häufigkeitstabelle des Geburtsgewichts der Neugeborenen, indem Sie die Daten in Klassen mit einer Breite von 0,5 kg von 2 bis 4,5 kg einteilen. Welches Intervall enthält die meisten Neugeborenen?

  3. Vergleichen Sie die Häufigkeitsverteilung des APGAR-Scores nach 1 Minute für Mütter unter 20 Jahren und für Mütter über 20 Jahren. Welche Gruppe hat mehr deprimierte Neugeborene?

  4. Vergleichen Sie die relative Häufigkeitsverteilung des Geburtsgewichts der Neugeborenen, je nachdem, ob die Mutter während der Schwangerschaft geraucht hat oder nicht. Wenn ein Gewicht unter 2,5 kg als niedriges Gewicht gilt, welche Gruppe hat einen höheren Prozentsatz an Neugeborenen mit niedrigem Gewicht?

  5. Berechnen Sie die Prävalenz von Neugeborenen mit niedrigem Gewicht für Mütter, die vor der Schwangerschaft geraucht haben, und den Nichtraucherinnen.

  6. Berechnen Sie das relative Risiko eines niedrigen Geburtsgewichts des Neugeborenen, wenn die Mutter während der Schwangerschaft raucht, im Vergleich dazu, wenn die Mutter nicht raucht.

  7. Erstellen Sie ein Balkendiagramm des APGAR-Scores nach 1 Minute. Welcher Score ist am häufigsten?

  8. Erstellen Sie das Balkendiagramm der kumulierten relativen Häufigkeit des APGAR-Scores nach 1 Minute. Unter welchem Wert liegen die Hälfte der Neugeborenen?

  9. Vergleichen Sie die Balkendiagramme der relativen Häufigkeitsverteilungen des APGAR-Scores nach 1 Minute, je nachdem, ob die Mutter während der Schwangerschaft geraucht hat oder nicht. Welche Schlussfolgerungen können gezogen werden?

  10. Erstellen Sie ein Histogramm der Geburtsgewichte der Neugeborenen mit Klassenbreiten von 0,5 kg von 2 bis 4,5 kg. Welche Klasse enthält die meisten Neugeborenen?

  11. Vergleichen Sie die relativen Häufigkeitshistogramme der Geburtsgewichte der Neugeborenen, mit Klassenbreiten von 0,5 kg von 2 bis 4,5 kg, je nachdem, ob die Mutter während der Schwangerschaft geraucht hat oder nicht. Welche Gruppe hat Neugeborene mit geringeren Gewichten?

  12. Vergleichen Sie die relativen Häufigkeitshistogramme der Geburtsgewichte der Neugeborenen, mit Klassenbreiten von 0,5 kg von 2 bis 4,5 kg, je nachdem, ob die Mutter vor der Schwangerschaft geraucht hat oder nicht. Welche Schlussfolgerungen können gezogen werden?

  13. Erstellen Sie ein Boxplot der Geburtsgewichte der Neugeborenen. Welcher Gewichtsbereich kann in der Stichprobe als normal angesehen werden? Gibt es Ausreißer in der Stichprobe?

  14. Vergleichen Sie die Boxplots der Geburtsgewichte der Neugeborenen je nachdem, ob die Mutter während der Schwangerschaft geraucht hat oder nicht und ob die Mutter unter 20 oder über 20 Jahre alt war. Welche Gruppe hat eine größere zentrale Streuung? Welche Gruppe hat Neugeborene mit geringerem Gewicht?

  15. Vergleichen Sie die Boxplots der APGAR-Scores nach 1 Minute und nach 5 Minuten. Welche Variable hat eine größere zentrale Streuung?

Für die Lösung siehe Abschnitt 45.7

44.2 Stichprobenstatistik

Bei diesen Aufgaben geht es vor allem um Lage- und Streuungskenngrößen.

44.2.1 Aufgabe 44.2.1 Kinder in Familien

Die Anzahl an Kindern in einer Stichprobe aus 25 Familien sind:

1, 2, 4, 2, 2, 2, 3, 2, 1, 1, 0, 2, 2, 0, 2, 2, 1, 2, 2, 3, 1, 2, 2, 1, 2

  1. Erstellen Sie ein Datenframe mit der Variable Kinder und übertragen Sie die Daten.
  2. Berechnen Sie das arithmetische Mittel, die Varianz sowie die Standardabweichung für die Anzahl an Kindern.
  3. Berechnen Sie die Quartile, die Spannweite, den Interquartilsabstand, das dritte Dezil sowie das 68te Perzentil.

Für die Lösung siehe Abschnitt 46.1

44.2.2 Aufgabe 44.2.2 Patienten in Notaufnahme

Den gesamten November über wurde die Anzahl an Patienten in der Notaufnahme erhoben

15 23 12 10 28 50 12 17 20 21 18 13 11 12 26 30 6 16 19 22 14 17 21 28 9 16 13 11 16 20

  1. Erstellen Sie ein Datenframe mit der Variable Patienten und übertragen Sie die Daten.
  2. Berechnen Sie das arithmetische Mittel, die Varianz, die Standardabweichung und den Variationskoeffizienten.
  3. Berechnen Sie die Skewness (Schiefe) und Kurtosis (“Spitzigkeit”) und interpretieren Sie die Werte.

Für die Lösung siehe Abschnitt 46.2

44.2.3 Aufgabe 44.2.3 Studierendenbewertung

Im letzten R-Kurs haben 20 Studenten folgende Abschlussbewertungen erhalten

SS, AP, SS, AP, AP, NT, NT, AP, SB, SS SB, SS, AP, AP, NT, AP, SS, NT, SS, NT

  1. Erstellen Sie ein Datenframe mit der Variable Bewertung und übertragen Sie die Daten.
  2. Wandeln Sie die Bewertung in Punkte um, nach dem Schema “SS” = 2,5 | “AP” = 6 | “NT” = 8 | “SB” = 9,5.
  3. Bestimmen Sie den Median und den Interquartilsabstand.

Für die Lösung siehe Abschnitt 46.3

44.2.4 Aufgabe 44.2.4 Körpergröße nach Geschlecht

Von 30 Studierenden wurde die Körpergröße wie folgt gemessen:

Geschlecht Größe
weiblich 173, 158, 174, 166, 162, 177, 165, 154, 166, 182, 169, 172, 170, 168
männlich 179, 181, 172, 194, 185, 187, 198, 178, 188, 171, 175, 167, 186, 172, 176, 187
  1. Erstellen Sie ein Datenframe mit den Variable Geschlecht und Koerpergroesse und übertragen Sie die Daten.
  2. Bestimmen Sie in Abhängigkeit zum Geschlecht das arithmetische Mittel, den Median, die Varianz, die Standardabweichung sowie die Quartile.

Für die Lösung siehe Abschnitt 46.4

44.2.5 Aufgabe 44.2.5 Handballverletzungen

Die Anzahl der Verletzungen von Handballspielern eines Teams wurden wie folgt erhoben:

0, 1, 2, 1, 3, 0, 1, 0, 1, 2, 0, 1, 1, 1, 2, 0, 1, 3, 2, 1, 2, 1, 0, 1

  1. Bestimmen Sie das arithmetische Mittel, den Median, die Varianz sowie die Standardabweichung der Verletzungen.
  2. Bestimmen Sie die Skewness und Kortosis der Verteilung.
  3. Berechnen Sie das vierte und achte Dezil der Verteilung.

Für die Lösung siehe Abschnitt 46.5

44.2.6 Aufgabe 44.2.6 Blutdruckmessung

Wir möchten die Zuverlässigkeit zweier Blutdruckmonitore bestimmen. Gerät 1 misst den Blutdruck am Handgelenk, Gerät 2 am Unterarm. Es wurden 8 Messungen mit jedem Gerät bei der selben Person durchgeführt, wobei folgende systolischen Werte gemessen wurden:

Position Messdaten
Unterarm 111, 109, 112, 111, 113, 113, 114, 111
Handgelenk 115, 113, 117, 116, 112, 112, 117, 112

Welcher Monitor funktioniert besser?

Für die Lösung siehe Abschnitt 46.6

44.2.7 Aufgabe 44.2.7 Alter und Familienstand

Das Alter und der Familienstand von 28 Personen wurden wie folgt erhoben:

Familienstand Alter
Single 31 45 35 65 21 38 62 22 31
Verheiratet 72 39 62 59 25 44 54
Verwitwet 80 68 65 40 78 69 75
Geschieden 31 65 59 58 50
  1. Bestimmen Sie das arithmetische Mittel, den Median, die Varianz sowie die Standardabweichung des Alters für jeden Familienstand.
  2. Welche Gruppe hat den “besten” Mittelwert?

Für die Lösung siehe Abschnitt 46.7

44.2.8 Aufgabe 44.2.8 Tabak, Alkohol und Blutdruck

Eine Studie möchte den möglichen Zusammenhang zwischen dem Blutdruck und dem Alkohol- und Tabakkonsum untersuchen. Hierzu wurden folgende Daten von 25 Personen erhoben.

Kategorie Werte
Rauchen ja, nein, ja, ja, ja, nein, nein, ja, nein, ja, nein, ja, nein
Alkohol nein, nein, ja, ja, nein, nein, ja, ja, nein, ja, nein, ja, ja
Blutdruck 80, 92, 75, 56, 89, 93, 101, 67, 89, 63, 98, 58, 91
Kategorie Werte
Rauchen ja, nein, nein, ja, nein, nein, nein, ja, nein, ja, nein, ja
Alkohol ja, nein, ja, ja, nein, nein, ja, ja, ja, nein, ja, nein
Blutdruck 71, 52, 98, 104, 57, 89, 70, 93, 69, 82, 70, 49
  1. Vergleichen Sie das arithmetische Mittel, die Standardabweichung, die Skewness und Kurtosis des Blutdrucks zwischen Rauchern und Nichtrauchern.
  2. Vergleichen Sie die selben Werte zwischen der Alkohol- und Nicht-Alkoholgruppe.
  3. Vergleichen Sie die selben Werte zwischen der Raucher- und Alkoholgruppe, zwischen der Raucher- und Nicht-Alkoholgruppe, der Nichtraucher- und Alkoholgruppe sowie der Nichtraucher- und Nicht-Alkoholgruppe.

Für die Lösung siehe Abschnitt 46.7

44.3 Lineare Regression

44.3.1 Aufgabe 44.3.1 X und Y

Bei 10 Personen wurden x und y erhoben.

x 0 1 2 3 4 5 6 7 8 9
y 2 5 8 11 14 17 20 23 26 29
  1. Erstellen Sie ein Datenframe mit den Variablen x und y.
  2. Erzeugen Sie ein Scatterplot von x und y. Bestimmen Sie anhand des Plots, welche Regressionsfunktion die Daten am besten erklären würde.
  3. Führen Sie die Regression durch.
  4. Fügen Sie die Regressionsfunktion y erklärt durch x dem Plot hinzu.
  5. Fügen Sie die Regressionsfunktion x erklärt durch y ebenfalls dem Plot hinzu, aber in roter Farbe.
  6. Wie große sind die Residuen?

Für die Lösung siehe Abschnitt 47.1

44.3.2 Aufgabe 44.3.2 Lernen und Durchfallen

Eine Studie gibt vor, den Zusammenhang zwischen den täglichen Lernstunden und der Anzahl nicht bestandener Prüfungen im Semester zu untersuchen. Bei 30 Studierenden wurden folgende Werte erhoben:

Lernen Durchgefallen Lernen Durchgefallen Lernen Durchgefallen
3.5 1 2.2 2 1.3 4
0.6 5 3.3 0 3.1 0
2.8 1 1.7 3 2.3 2
2.5 3 1.1 3 3.2 2
2.6 1 2.0 3 0.9 4
3.9 0 3.5 0 1.7 2
1.5 3 2.1 2 0.2 5
0.7 3 1.8 2 2.9 1
3.6 1 1.1 4 1.0 3
3.7 1 0.7 4 2.3 2
  1. Erstellen Sie ein Datenframe mit den Variablen Lernen und Durchgefallen.
  2. Erzeugen Sie eine Kreuztabelle der Variablen Lernen und Durchgefallen.
  3. Führen Sie eine lineare Regression Durchgefallen erklärt durch Lernen durch und plotten Sie Ihr Ergebnis.
  4. Wie lauten die Regressionskoeffizient des Modells, und wie ist er zu interpretieren?
  5. Ist das soeben erstellte Modell besser als das in Abschnitt 44.3.1 berechnete? Vergleichen Sie zur Beantwortung die Residuen beider Modelle.
  6. Berechnen Sie den linearen Bestimmungskoeffizient und den Korrelationskoeffizient. Ist das lineare Modell ein gutes Modell, um die Beziehung zwischen den gescheiterten Prüfungen und den täglichen Studienzeiten zu erklären? Wie viel Prozent der Variabilität der durchgefallenen Prüfungen wird durch das lineare Modell erklärt?
  7. Benutzen Sie das lineare Modell, um die Anzahl an durchgefallenen Prüfungen für einen Studenten zu bestimmen, der 3 Stunden Lernzeit investiert hat. Wie glaubwürdig ist die Vorhersage?
  8. Wie viele Stunden Lernzeit wird benötigt, um alle Kurse zu bestehen?

Für die Lösung siehe Abschnitt 47.2

44.3.3 Aufgabe 44.3.3 Metabolismus

Um herauszufinden, wie der Körper Alkohol verstoffwechselt, hat ein Proband einen Liter Wein zügig getrunken. Anschließend wurde alle 30 Minuten der Blutalkoholspiegel gemessen.

Minuten 30 60 90 120 150 180 210
Alkohol (g/l) 1.6 1.7 1.5 1.1 0.7 0.2 2.1
  1. Erstellen Sie ein Datenframe mit den Variablen Minuten und Alkohol.
  2. Bestimmen Sie den passenden Korrelationskoeffizienten. Werden die Daten ausreichend gut durch das Modell beschrieben?
  3. Plotten Sie das lineare Regressionsmodell Alkohol erklärt durch Minuten. Gibt es Punkte mit großen Residuen? Wenn ja, entfernen Sie diese und führen die Berechnungen erneut durch. Hat sich der Korrelationskoeffizient verbessert?
  4. Mit welcher Geschwindigkeit wird der Alkohol pro Minute verstoffwechselt?
  5. Wenn es gesetzlich erlaubt wäre, mit einem Blutalkoholwert von \(0,3\) g/l Auto zu fahren, wie lange muss die Person warten, nachdem sie \(1\) Liter Weingetrunken hat, um wieder fahrtüchtig zu sein? Wie zuverlässig ist diese Vorhersage?

Für die Lösung siehe Abschnitt 47.3

44.3.4 Aufgabe 44.3.4 Alter und Körpergröße

Im Datensatz age.height von rk.Teaching4 sind Alter und Körpergröße von 30 Probanden enthalten.

  1. Laden Sie den Datensatz age.height in Ihre R-Session.
  2. Berechnen Sie die Regressionsgerade Größe erklärt durch Alter. Ist das lineare Modell geeignet, den Zusammenhang zwischen Alter und Körpergröße zu erklären?
  3. Erstellen Sie eine Punktwolke inklusive der Regressionsgeraden. Ab welchem Alter ändert sich die Punktetendenz?
  4. Erstellen Sie eine Gruppierungsvariable, welche Alter in einen ordinalen Faktor mit den Ausprägungen “jünger als 20” und “20 und älter” einteilt.
  5. Führen Sie die lineare Regressionsanalyse für beide Gruppen erneut durch. In welcher Gruppe wird der Zusammenhang zwischen Alter und Körpergröße am besten erklärt?
  6. Plotten Sie die Modelle.
  7. Welche Körpergröße sagt Ihr Modell für eine 14jährige Person vorher, und welche für eine 38jährige Person?

Für die Lösung siehe Abschnitt 47.4

44.3.5 Aufgabe 44.3.5 Wirksamkeitsverlust

Eine Studie Untersucht den Wirksamkeitsverlust eines Medikaments, das über Jahre von vielen Probanden eingenommen wurde. Folgende Aussagen zur Wirksamkeit konnten aus den Daten ermittelt werden.

Jahr 1 2 3 4 5
Wirksamkeit (%) 96 84 70 58 52
  1. Führen Sie eine lineare Regression Wirksamkeit erklärt durch Jahr durch und plotten Sie Ihr Ergebnis.
  2. Wie große ist der jährliche Wirksamkeitsverlust in %?
  3. Nach wie vielen Jahren ist die Wirksamkeit bei 80%, und nach wie vielen bei 0%? Sind beide Werte gleich zuverlässig?

Für die Lösung siehe Abschnitt 47.5

44.3.6 Aufgabe 44.3.6 Dosierung

In einer Studie über die Wirkung verschiedener Dosen eines Medikaments erhielten 2 Patienten 2 mg und benötigten 5 Tage zur Heilung, 4 Patienten erhielten 2 mg und benötigten 6 Tage zur Heilung, 2 Patienten erhielten 3 mg und benötigten 3 Tage zur Heilung, 4 Patienten erhielten 3 mg und benötigten 5 Tage zur Heilung, 1 Patient erhielt 3 mg und benötigte 6 Tage zur Heilung, 5 Patienten erhielten 4 mg und benötigten 3 Tage zur Heilung und 2 Patienten erhielten 4 mg und benötigten 5 Tage zur Heilung.

  1. Berechnen Sie die Regressionsgerade der Heilungstage in Abhängigkeit von der Dosis.
  2. Berechnen Sie den Regressionskoeffizienten der Heilungstage in Abhängigkeit von der Dosis und interpretieren Sie ihn.
  3. Berechnen Sie den Korrelationskoeffizienten und interpretieren Sie ihn.
  4. Bestimmen Sie die erwartete Zeit, die für die Heilung mit einer Dosis von 5 mg benötigt wird. Ist diese Vorhersage zuverlässig? Begründen Sie die Antwort.
  5. Welche Dosis muss angewendet werden, um in 4 Tagen zu heilen? Ist diese Vorhersage zuverlässig? Begründen Sie die Antwort.

Für die Lösung siehe Abschnitt 47.6

44.3.7 Aufgabe 44.3.7 Gewicht und Körpergröße

Im Datensatz heigths.weights.students von rk.Teaching5 sind Gewicht und Körpergröße von 100 Probanden enthalten.

  1. Laden Sie den Datensatz heigths.weights.students in Ihre R-Session.
  2. Führen Sie eine lineare Regression Gewicht erklärt durch Größe durch und plotten Sie Ihr Modell.
  3. Erstellen Sie eine Punktwolke inklusive Regressionsgeraden jeweils für Männer und Frauen getrennt.
  4. Berechnen Sie die Bestimmtheitskoeffizienten (R2) für beide Modelle. Welches Modell erklärt besser die Beziehung zwischen Gewicht und Größe, das der Männer oder das der Frauen? Begründen Sie die Antwort.
  5. Was ist das zu erwartende Gewicht für einen Mann mit 170cm Körpergröße? Und für eine Frau der selben Größe?

Für die Lösung siehe Abschnitt 47.7

44.3.8 Aufgabe 44.3.8 Neugeborene

Der Datensatz neonates von rk.Teaching6 enthält Informationen über eine Stichprobe von 320 Neugeborenen, die im Laufe eines Jahres nach normaler Schwangerschaftsdauer geboren wurden.

  1. Erstellen Sie eine Kreuztabelle vom APGAR-Wert nach 1 Minute und dem Rauchverhalten der Mütter während der Schwangerschaft. Welche Schlüsse lassen sich ziehen?
  2. Erstellen Sie eine Kreuztabelle vom APGAR-Wert nach 1 Minute und der Alterskategorie der Mütter. Welche Schlüsse lassen sich ziehen?
  3. Führen Sie eine lineare Regression für Geburtsgewicht erklärt durch Anzahl täglich gerauchter Zigaretten durch. Gibt es einen starken linearen Zusammenhang?
  4. Plotten Sie Ihre Regression. Passt die Regressionsgerade gut zur Punktwolke?
  5. Wiederholen Sie die Regression, aber nutzen Sie dieses Mal nur Daten von Raucherinnen. Ist dieses Modell besser oder schlechter als das vorherige? Wieviel Gewicht verliert ein Neugeborenes nach diesem Modell pro täglich gerauchter Zigarette?
  6. Welches Geburtsgewicht sagt dieses Modell für ein Neugeborenes vorher, dessen Mutter 5 Zigaretten täglich während der Schwangerschaft geraucht hat? Wieviel für eine Mutter, die 30 Zigaretten täglich raucht. Wie zuverlässich sind diese Ergebnisse?
  7. Ändert sich der lineare Zusammenhang, wenn die Daten nach Altersgruppen getrennt untersucht werden?

Für die Lösung siehe Abschnitt 47.8

44.4 Nicht-lineare Regression

 

44.4.1 Aufgabe 44.4.1 Bakterien

Die Anzahl an Bakterien in einer Kultur vermehrt sich wie folgt:

Stunden 1 2 3 4 5 6 7 8 9
Bakterien 25 28 47 65 86 121 190 290 362
  1. Erstellen Sie ein Datenframe mit den Variablen Stunden und Bakterien.
  2. Erzeugen Sie ein Scatterplot. Welche Regression würden Sie auf Grundlage des Plots vorschlagen?
  3. Berechnen Sie die quadratischen und exponentiellen Modelle für die Bakterienvermehrung über die Zeit.
  4. Plotten Sie das bessere Modell in die Punktwolke.
  5. Wie viele Bakterien werden nach dem besten Modell 3 Stunden nach Anlegen der Kultur vorhanden sein? Und nach 10 Stunden? Sind diese Vorhersagen zuverlässig?
  6. Machen Sie eine möglichst zuverlässige Vorhersage über die Zeit, die benötigt wird, um 100 Bakterien in der Kultur zu haben.

Für die Lösung siehe Abschnitt 48.1

44.4.2 Aufgabe 44.4.2 Diät

Der Datensatz diet von rk.Teaching7 enthält Informationen über eine Diätenuntersuchung. Für jede Person wurde die Anzahl der Diättage, der Gewichtsverlust und die regelmäßige körperliche Betätigung gemessen.

  1. Laden Sie den Datensatz diet in Ihre R-Session.
  2. Erstellen Sie eine Punktwolke. Welche Art von Modell erklärt auf Grundlage der Punktwolke den Gewichtsverlust pro Diättag besser?
  3. Berechnen Sie das Regressionsmodell, welches den Gewichtsverlust mit der Anzahl an Diättagen am besten (im Vergleich zu anderen) erklären kann. Wird das Modell zuverlässige Vorhersagen machen?
  4. Plotten Sie Ihr Modell.
  5. Berechnen Sie das Regressionsmodell, das den Gewichtsverlust anhand der Tage der Diät für die Gruppe der Personen, die sich nicht regelmäßig körperlich betätigen, am besten erklärt.
  6. Wiederholen Sie die Analyse für die Gruppe, die sich regelmäßig körperlich betätigt.
  7. Benutzen Sie die erstellen Modelle, um den Gewichtsverlust nach 30 und nach 100 Tagen Diät für Personen, die sich körperlich betätigen, und für solche, die dies nicht tun, vorherzusagen. Sind diese Vorhersagen zuverlässig?

Für die Lösung siehe Abschnitt 48.2

44.4.3 Aufgabe 44.4.3 Blutkonzentration

Die Konzentration eines Arzneimittels im Blut in mg/dl hängt von der Zeit ab, wie aus den folgenden Daten hervorgeht.

Stunden 2 3 4 5 6 7 8
Konzentration 25 36 48 64 86 114 168
  1. Benutzen Sie ein exponentielles Modell, um die Konzentration nach 10 Stunden vorherzusagen. Ist die Vorhersage zuverlässig?
  2. Benutzen Sie ein logarithmisches Modell um zu bestimmen, nach wie vielen Stunden eine Konzentration von 100 mg/dl erreicht sein wird.

Für die Lösung siehe Abschnitt 48.3

44.5 Wahrscheinlichkeiten

44.5.1 Aufgabe 44.5.1 Glücksspiel

Lassen Sie in R …

  1. eine beliebige Poker-Spielkarte8 ziehen.
  2. 2 Münzen werfen.
  3. 2 Würfeln werfen.

Für die Lösung siehe Abschnitt 49.1

44.5.2 Aufgabe 44.5.2 Münzwürfe

Wiederholen Sie die Zufallsexperimente und lassen Sie R \(10\) mal, \(100\) mal \(1.000\) mal und \(1.000.000\) mal zwei Münzen werfen.

  1. Erstellen Sie je eine relative Häufigkeitstabelle der Ergebnisse. Wie sind die Tabellen zu bewerten?
  2. Welche theoretischen Wahrscheinlichkeiten haben die möglichen Wurfergebnisse? Stimmen diese mit den beobachteten Ergebnissen überein?

Für die Lösung siehe Abschnitt 49.2

44.5.3 Aufgabe 44.5.3 Medizinschrank

In einem Medizinschrank befinden sich drei Boxen mit Medikament A, zwei Boxen mit Medikament B und eine Box mit Medikament C.

  1. Ziehen Sie zufällig 3 Boxen, ohne zurücklegen.
  2. Ziehen Sie zufällig 3 Boxen, diesmal mit zurücklegen.

Für die Lösung siehe Abschnitt 49.3

44.5.4 Aufgabe 44.5.4 Kinderkrankheiten

Eine epidemiologische Untersuchung wurde durchgeführt, um die Lebenszeitprävalenz von drei häufigen Kinderkrankheiten zu ermitteln: Windpocken, Masern und Röteln. Die beobachteten Häufigkeiten sind in der nachstehenden Tabelle aufgeführt.

Windpocken Masern Röteln Häufigkeit
No No No 2654
No No Yes 1436
No Yes No 1682
No Yes Yes 668
Yes No No 1747
Yes No Yes 476
Yes Yes No 876
Yes Yes Yes 265
  1. Erstellen Sie ein Datenframe mit den Variablen Windpocken, Masern, Röteln und Häufigkeit und übertragen Sie die Daten.
  2. Erstellen Sie den Wahrscheinlichkeitsraum der Lebenszeitprävalenz.
  3. Wie groß ist die Wahrscheinlichkeit, dass eine zufällig gezogene Person Windpocken hatte?
  4. Wie groß ist die Wahrscheinlichkeit, dass eine zufällig gezogene Person Windpocken oder Masern hatte?
  5. Wie groß ist die Wahrscheinlichkeit, dass eine zufällig gezogene Person Masern und Röteln hatte?
  6. Wie groß ist die Wahrscheinlichkeit, dass eine zufällig gezogene Person, die bereits an Masern erkrankte, nun an Windpocken erkrankt?
  7. Wie groß ist die Wahrscheinlichkeit, dass eine zufällig gezogene Person, die keine Masern und keine Röteln hatte, an Windpocken erkrankt?

Für die Lösung siehe Abschnitt 49.4

44.5.5 Aufgabe 44.5.5 Schwangerschaftstest

Ein Schwangerschaftstest, der von vielen Frauen angewendet wurde, erzielte folgende Ergebnisse.

Schwanger Test Häufigkeit
Nein - 3876
Nein + 47
Ja - 12
Ja + 131
  1. Erstellen Sie ein Datenframe mit den Variablen Schwanger, Testergebnis und Häufigkeit.
  2. Erstellen Sie den Wahrscheinlichkeitsraum.
  3. Berechnen Sie die Prävalenz der Schwangerschaften.
  4. Wie groß ist die Wahrscheinlichkeit, ein positives Testergebnis zu ziehen?
  5. Bestimmen Sie die Sensitivität des Tests
  6. Bestimmen Sie die Spezifität des Tests
  7. Bestimmen Sie den positiv prädiktiven Wert des Tests
  8. Bestimmen Sie den negativ prädiktiven Wert des Tests

Für die Lösung siehe Abschnitt 49.5

44.5.6 Aufgabe 44.5.6 Glückspielwahrscheinlichkeiten

Erstelle den Ereignisraum des Zufallsexperiments, das aus dem Werfen einer Münze, dem Werfen eines Würfels und dem Ziehen einer Karte aus einem spanischen Kartenspiel besteht.

Für die Lösung siehe Abschnitt 49.6

44.5.7 Aufgabe 44.5.7 Grippeimpfung

Die Wirksamkeit eines Grippeimpfstoffs wurde an 1.000 Probanden erprobt.

Impfung Grippe Häufigkeit
Nein Nein 418
Nein Ja 312
Ja Nein 233
Ja Ja 37
  1. Erzeugen Sie den Wahrscheinlichkeitsraum
  2. Wie groß ist die Wahrscheinlichkeit, dass eine zufällig ausgewählte Person geimpft ist?
  3. Wie hoch ist die Prävalenz der Grippe?
  4. Wie groß ist die Wahrscheinlichkeit, dass geimpfte Personen an Grippe erkranken? Ist die Impfung effektiv?

Für die Lösung siehe Abschnitt 49.7

44.5.8 Aufgabe 44.5.8 Ebola

Um die Wirksamkeit eines Diagnosetests zur Feststellung von Ebola in einem zentralafrikanischen Land zu ermitteln, wurde der Test an vielen Personen durchgeführt. Das Ergebnis des Tests war positiv bei 147 Personen mit Ebola, aber aber auch bei 28 Personen ohne Ebola. Negativ war das Ergebnis des Tests bei 97465 Personen ohne Ebola, aber auch bei 65 Personen mit Ebola.

  1. Erzeugen Sie den Wahrscheinlichkeitsraum des Tests.
  2. Berechnen Sie die Prävalenz von Ebola in der Bevölkerung.
  3. Wie hoch ist die Wahrscheinlichkeit, ein negatives Testergebnis zu erhalten?
  4. Berechnen Sie die Sensitivität und Spezifität des Tests.
  5. Kann der Test besser Erkrankte erkennen, oder Gesunde?
  6. Wenn eine Person einen positiven Test erhält, wie hoch ist dann die Wahrscheinlichkeit, dass er tatsächlich krank ist?
  7. Wenn eine Person einen negativen Test erhält, wie hoch ist dann die Wahrscheinlichkeit, dass er tatsächlich gesund ist?

Für die Lösung siehe Abschnitt 49.8

44.6 Diskrete Wahrscheinlichkeitsverteilungen

44.6.1 Aufgabe 44.6.1 Münzwurf

Wir haben 10 mal eine Münze geworfen, wobei das Ergebnis der Binomialverteilung B(10;0.5) folgt. Die Variable X misst, wie häufig dabei “Kopf” geworfen wurde.

  1. Berechnen Sie die Wahrscheinlichkeitsverteilung von X
  2. Plotten Sie die Wahrscheinlichkeitsfunktion von X
  3. Plotten Sie die Verteilungsfunktion.
  4. Berechnen Sie die Wahrscheinlichkeit, 7 mal Kopf zu werfen.
  5. Berchnen Sie die Wahrscheinlichkeit, weniger als als 4 mal Kopf zu werfen.
  6. Berchnen Sie die Wahrscheinlichkeit, mehr als als 5 mal Kopf zu werfen.
  7. Berechnen Sie die Wahrscheinlichkeit, 2 bis 8 mal Kopf zu werfen.

Für die Lösung siehe Abschnitt 50.1

44.6.2 Aufgabe 44.6.2 Geburten pro Tag

Die Anzahl an täglichen Geburten X in unserer Stadt folgt einer Poissonverteilung mit durchschnittlich 6 Geburten am Tag.

  1. Plotten Sie die Wahrscheinlichkeitsfunktion von X
  2. Plotten Sie die Verteilungsfunktion von X
  3. Wie groß ist die Wahrscheinlicheit, dass an einem zufälligen Tag (nur) 1 Geburt stattfindet?
  4. Wie groß ist die Wahrscheinlicheit, dass an einem zufälligen Tag weniger als 6 Geburten stattfinden?
  5. Wie groß ist die Wahrscheinlicheit, dass an einem zufälligen Tag 4 oder mehr Geburten stattfinden?
  6. Wie groß ist die Wahrscheinlicheit, dass an einem zufälligen Tag 4 bis 8 Geburten stattfinden?
  7. Wie groß ist die Wahrscheinlicheit, dass in einer Woche zwischen 30 und 40 Geburten stattfinden?

Für die Lösung siehe Abschnitt 50.2

44.6.3 Aufgabe 44.6.3 Gesetz der seltenen Ereignisse

Kommen wir nochmal auf das Münzwurfbeispiel aus Abschnitt 44.6.1 zurück.

Das Gesetz der seltenen Ereignisse besagt, dass das Binomial-Verteilungsmodell \(B(n,p)\) zum Poisson-Wahrscheinlichkeitsverteilungsmodell \(P(np)\) tendiert, wenn \(n\) gegen \(\infty\) und \(p\) gegen \(0\) tendiert. Insbesondere ist das Poisson-Modell eine gute Annäherung an das Binomialmodell für \(n \geq 30\) und \(p \leq 0,1\).

Zur Überprüfung dieses Gesetz,

  1. berechnen Sie die Wahrscheinlichkeitsverteilung des binomialen Modells \(B(30, 0.1)\).
  2. berechnen Sie die Wahrscheinlichkeitsverteilung des Poissonmodells \(P(3)\) und vergleichen Sie es mit dem binomialen Modell \(B(30, 0.1)\).
  3. berechnen Sie die Wahrscheinlichkeitsverteilung des binomialen Modells \(B(100, 0.3)\) und vergleichen Sie es es mit dem Modell \(P(3)\). Sind diese Modelle ähnlicher als die vorherigen?
  4. Plotten Sie die Wahrscheinlichkeitsfunktionen der vorherigen Modelle. Erhöhen Sie die Anzahl der Wiederholungen und verringern Sie die Erfolgswahrscheinlichkeit im Binomialmodell und beobachten Sie, wie sich die Wahrscheinlichkeiten des Binomialmodells und des Poissonmodells annähern.

Für die Lösung siehe Abschnitt 50.3

44.6.4 Aufgabe 44.6.4 Münzwürfe (II)

Wie groß ist die Wahrscheinlichkeit, beim Werfen von 100 Münzen zwischen 40 und 60 Mal Kopf zu erhalten (beide Werte eingeschlossen)?

Für die Lösung siehe Abschnitt 50.4

44.6.5 Aufgabe 44.6.5 Behandlungserfolg

Die Wahrscheinlichkeit, dass eine Behandlung Erfolg hat, liegt bei 85%. Wenn wir an 6 Personen die Behandlung durchführen,

  1. wie groß ist die Wahrscheinlichkeit, dass die Hälfte der Patienten geheilt wird?
  2. wie groß ist die Wahrscheinlichkeit, dass mindestens 4 Patienten geheilt werden?
  3. plotten Sie die Wahrscheinlichkeitsfunktion für die Anzahl geheilter Patienten.

Für die Lösung siehe Abschnitt 50.5

44.6.6 Aufgabe 44.6.6 Impfreaktion

Die Wahrscheinlichkeit einer starken Impfreaktion beträgt \(0,001\). Wenn 2.000 Personen geimpft werden, wie hoch ist die Wahrscheinlichkeit für starke Reaktionen?

Für die Lösung siehe Abschnitt 50.6

44.6.7 Aufgabe 44.6.7 Telefonanrufe

Die durchschnittliche Anzahl an Telefonanrufen in unserer Telefonzentrale beträgt 120 Anrufe pro Minute.

  1. Wie hoch ist die Wahrscheinlichkeit, dass weniger als 4 Anrufe in 2 Sekunden eintreffen?
  2. Wie hoch ist die Wahrscheinlichkeit, dass mindestens 3 Anrufe in 3 Sekunden eintreffen?

Für die Lösung siehe Abschnitt 50.7

44.7 Kontinuierliche Wahrscheinlichkeitsverteilungen

44.7.1 Aufgabe 44.7.1 Bushaltestelle

Nehmen wir an, dass ein Bus alle 15 Minuten an einer Haltestelle vorbeifährt und dass eine Person zu jedem Zeitpunkt mit der gleichen Wahrscheinlichkeit eintreffen kann. Dann folgt die Variable, die die Wartezeit auf den Bus misst, einer gleichmäßigen Wahrscheinlichkeitsverteilung \(U(0,15)\), da jede Wartezeit zwischen \(0\) und \(15\) Minuten die gleiche Wahrscheinlichkeit hat.

  1. Plotten Sie die Dichtefunktion der Wartezeit.
  2. Plotten Sie die Verteilungsfunktion der Wartezeit.
  3. Berechnen Sie die Wahrscheinlichkeit, weniger als 5 Minuten auf den Bus zu warten.
  4. Berechnen Sie die Wahrscheinlichkeit, länger als 12 Minuten auf den Bus zu warten.
  5. Berechnen Sie die Wahrscheinlichkeit, zwischen 5 und 10 Minuten auf den Bus zu warten.
  6. Bei welcher Zeit zwischen 0 und 15 Minuten muss die Hälft der Personen kürzer auf den Bus warten als die angegebene Zeit?
  7. Bei welcher Zeit zwischen 0 und 15 Minuten müssen 10% der Personen länger auf den Bus warten als die angegebene Zeit?

Für die Lösung siehe Abschnitt 51.1

44.7.2 Aufgabe 44.7.2 Standardnormalverteilung

Eine Variable folgt in ihren Ausprägungen der Standardnormalverteilung (\(Z \sim N(0,1)\))

  1. Plotten Sie die Dichtefunktion von \(Z\).
  2. Wie beeinflussen Mittelwert und Standardabweichung die Form der Gausschen Glockenkurve?
  3. Plotten Sie die Verteilungsfunktion von \(Z\).
  4. Berechnen Sie die Wahrscheinlichkeit \(P(Z < -1)\).
  5. Berechnen Sie die Wahrscheinlichkeit \(P(Z > 1)\)
  6. Berechnen Sie die Wahrscheinlichkeit, dass \(Z\) zwischen dem Mittelwert minus der Standardabweichung und dem Mittelwert plus der Standardabweichung liegt, d. h. \(P(-1 \leq Z \leq 1)\).
  7. Berechnen Sie die Wahrscheinlichkeit, dass \(Z\) zwischen dem Mittelwert minus zwei Standardabweichungen und dem Mittelwert plus zwei Standardabweichungen liegt, d. h. \(P(-2 \leq Z \leq 2)\).
  8. Berechnen Sie die Wahrscheinlichkeit, dass \(Z\) zwischen dem Mittelwert minus drei Standardabweichungen und dem Mittelwert plus drei Standardabweichungen liegt, d. h. \(P(-3 \leq Z \leq 3)\).
  9. Berechnen Sie die Quartile.
  10. Bei welchem \(Z\)-Wert liegen 95% der Fläche unterhalb des Wertes?
  11. Bei welchem \(Z\)-Wert liegen 2,5% der Fläche oberhalb des Wertes?

Für die Lösung siehe Abschnitt 51.2

44.7.3 Aufgabe 44.7.3 Chiquadratverteilungen

Wenn \(X_{1}, \dots, X_{n}\) unabhängige standardnormalverteilte Werte sind, dann folgt die Variable \(X = X_{1}^{2} + \dots + X_{n}^{2}\) einer Chiquadratverteilung mit \(n\) Freiheitsgraden (\(\chi^2(n)\)). Nehmen wir nun an, X würde der Chiquadratverteilung mit \(6\) Freiheitsgraden folgen (\(\chi^2(6)\)).

  1. Plotten Sie die Dichtefunktion dieser Verteilung
  2. Wie groß ist die Wahrscheinlichkeit für \(P(X<6)\)?
  3. Berechnen Sie das fünfte Perzentil der Verteilung.
  4. Bei welchem Wert liegen 10% der Fläche oberhalb des Wertes?

Für die Lösung siehe Abschnitt 51.3

44.7.4 Aufgabe 44.7.4 t-Verteilung

Wenn \(Y\) einer Chiquadratverteilung mit \(n\) Freiheitsgraden folgt (\(\chi^2(n)\)) und \(Z\) der Standardnormalverteilung (\(N(0,1)\)), dann folgt die Variable \(X = \frac{Z}{\sqrt{Y/n}}\) einer Student-t-Verteilung mit 8 Freiheitsgraden (\(T(8)\)).

  1. Plotten Sie die Dichtefunktion von \(X\) und vergleichen Sie diese mit der Dichtefunktion der Standardnormalverteilung.
  2. Berechnen Sie das 8te Perzentil von \(X\).
  3. Bei welchem Wert von \(X\) liegen 5% aller Fälle oberhalb dieses Wertes?

Für die Lösung siehe Abschnitt 51.4

44.7.5 Aufgabe 44.7.5 Fishers F-Verteilung

Wenn \(Y_{1}\) und \(Y_{2}\) zwei unabhängige Variablen aus den Chiquadratverteilungen mit \(n\) und \(m\) Freiheitsgraden stammen, dann folgt die Variable \(X = \frac{Y_{1}/n}{Y_{2}/m}\) einer Fisher-F-Verteilung mit \(n\) und \(m\) Freiheitsgraden (\(F(n,m)\)). Nehmen wir an, \(X\) folge einer Fisher-F-Verteilung mit 10 und 20 Freiheitsgeraden (\(F(10,20)\)).

  1. Plotten Sie die Dichtefunktion von \(X\).
  2. Berechnen Sie Wahrscheinlichkeit \(P(X>1)\).
  3. Berechnen Sie den Interquartilsabstand.

Für die Lösung siehe Abschnitt 51.5

44.7.6 Aufgabe 44.7.6 Blutzuckerspiegel

Es ist bekannt, dass der Glukosespiegel im Blut von Diabetikern einem Normalverteilungsmodell mit einem Mittelwert von 106 mg/100 ml und einer Standardabweichung von 8 mg/100 ml folgt.

  1. Berechnen Sie die Wahrscheinlichkeit, dass ein zufällig ausgewählter Diabetiker einen Glukosespiegel von weniger als 120 mg/100 ml hat.
  2. Wie viel Prozent der Personen haben einen Glukosespiegel zwischen 90 und 120 mg/100 ml?
  3. Berechnen und interpretieren Sie das erste Quartil des Glukosespiegels.

Für die Lösung siehe Abschnitt 51.6

44.7.7 Aufgabe 44.7.7 Cholesterinspiegel bei Männern

Es ist bekannt, dass der Cholesterinspiegel bei Männern im Alter von 30 Jahren einer Normalverteilung folgt mit Mittelwert 220 mg/dl und einer Standardabweichung von 30 mg/dl. In einer bestimmten Population gibt es 20.000 Männer im Alter von 30 Jahren.

  1. Wie viele von ihnen haben einen Cholesterinspiegel zwischen 210 und 240 mg/dl?
  2. Wenn ein Cholesterinspiegel von mehr als 250 mg/dl eine Thrombose auslösen kann, wie viele von ihnen sind thrombosegefährdet?
  3. Welcher Cholesterinwert wird von mindestens 20% der Männer erreicht?

Für die Lösung siehe Abschnitt 51.7

44.8 Konfidenzintervalle (eine Stichprobe)

44.8.1 Aufgabe 44.8.1 Wirkstoffkonzentration

Die Wirkstoffkonzentration einer Zufallsstichprobe von 10 Arzneimittelbehältern aus einer Charge beträgt (in mg/mm\(^{3}\) )

17.6 19.2 21.3 15.1 17.6 18.9 16.2 18.3 19.0 16.4

  1. Übertragen Sie die Daten in ein Datenframe mit der Variable Konzentration.
  2. Berechnen Sie das Konfidenzintervall für die mittlere Konzentration bei einem Konfidenzniveau von 95% (Signifikanzlevel \(\alpha = 0,05\)).
  3. Berechnen Sie das Konfidenzintervall für die mittlere Konzentration bei einem Konfidenzniveau von 99% (Signifikanzlevel \(\alpha = 0,01\)).
  4. Wenn wir die Genauigkeit des Intervalls als den Kehrwert seiner Breite definieren, wie ändert sich die Genauigkeit eines Intervalls, wenn wir das Konfidenzniveau erhöhen?
  5. Welche Stichprobengröße wird benötigt, um den mittleren Konzentrationswert mit einem Fehler von \(\pm 0.5\)mg/mm\(^{3}\) und einem Konfidenzniveau von 95% Sicherheit zu bestimmen?
  6. Wenn die Konzentration des Wirkstoffs mindestens 16 mg/mm\(^{3}\) betragen muss, um wirksam zu sein, ist dann unsere Medikamentencharge wirksam?

Für die Lösung siehe Abschnitt 52.1

44.8.2 Aufgabe 44.8.2 Milchfett

Ein Molkereibetrieb erhält Milch von zwei Bauernhöfen X und Y. Um die Qualität der Milch zu analysieren, wird das Milchfett für zwei Milchproben, eine von jedem Betrieb, gemessen. Die Ergebnisse sind in der nachstehenden Tabelle aufgeführt.

X Y
0.34 0.34 0.28 0.29
0.32 0.35 0.30 0.32
0.33 0.33 0.32 0.31
0.32 0.32 0.29 0.29
0.33 0.30 0.31 0.32
0.31 0.32 0.29 0.31
0.33 0.32
0.32 0.33
  1. Übertragen Sie die Daten in ein Datenframe mit den Variablen Hof1 und Hof2.
  2. Berechnen Sie das 95%-Konfidenzintervall für den durchschnittlichen Fettgehalt.
  3. Berechnen Sie das 95%-Konfidenzintervall für den durchschnittlichen Fettgehalt, getrennt nach Höfen.
  4. Plotten Sie das 95%-Konfidenzintervall für den durchschnittlichen Fettgehalt, getrennt nach Höfen.
  5. Lässt sich aus den Konfidenzintervallen ein signifikanter Untschied zwischen den Höfen feststellen?

Für die Lösung siehe Abschnitt 52.2

44.8.3 Aufgabe 44.8.3 Bibliotheksnutzung

In einer von einer Universität durchgeführten Umfrage über die Nutzung der Bibliothek wurde eine Stichprobe von 34 Studierenden gefragt, ob sie mindestens einmal pro Woche in die Bibliothek gehen.

nein ja nein nein nein ja nein ja ja ja ja nein ja nein ja nein nein nein ja ja ja nein nein ja nein nein ja ja nein nein ja nein ja nein

  1. Übertragen Sie die Daten in ein Datenframe mit der Variable Antwort.
  2. Berechnen Sie das Konfidenzintervall für den Anteil an Studierenden, welche die Bibliothek wöchentlich nutzen mit einem Signifikanzlevel von \(\alpha=0,01\).
  3. Wie präzise ist das Intervall?
  4. Welcher Stichprobenumfang ist erforderlich, um eine Schätzung des Anteils der Studenten zu erhalten, die die Bibliothek mindestens einmal pro Woche nutzen, mit einem Fehler von \(\pm1\)% und einem Konfidenzniveau von 95%?

Für die Lösung siehe Abschnitt 52.3

44.8.4 Aufgabe 44.8.4 Atemwegsprobleme und Impfung

Das Gesundheitsministerium möchte ein Konfidenzintervall für den Anteil der Personen über 65 Jahre mit Atemwegsproblemen berechnen, die geimpft worden sind. In einer Zufallsstichprobe von 200 Personen über 65 mit Atemwegsproblemen wurden 154 geimpft.

  1. Berechnen Sie das 95%-Konfidenzintervall für den Anteil an geimpften Probanden in der Grundgesamtheit.
  2. Wenn das Gesundheitsministerium das Ziel verfolgt, dass mindestens 70% der Menschen über 65 mit Atemwegserkrankungen geimpft sind, können wir dann sagen, dass das Ministerium das Ziel erreicht hat?

Für die Lösung siehe Abschnitt 52.4

44.8.5 Aufgabe 44.8.5 Cholesterin

Der Cholesterinspiegel (in mg/dl) in einer Zufallsstichprobe mit 8 Probanden beträgt

196 212 188 206 203 210 201 198

  1. Berechnen Sie die Konfidenzintervalle für den Mittelwert mit den Signifikanzniveaus \(0.1\), \(0.05\) und \(0.01\).
  2. Kann man schließen, dass der Mittelwert des Cholesterinspiegels der Bevölkerung unter 210 mg/dl liegt?

Für die Lösung siehe Abschnitt 52.5

44.8.6 Aufgabe 44.8.6 Neurologisches Syndrom

Zur Behandlung eines neurologischen Syndroms gibt es zwei Therapien, \(A\) und \(B\). In einer Studie wurde eine Stichprobe von 60 Personen gezogen. Bei 25 von ihnen wurde Therapie \(A\) angewandt, bei den anderen 35 Therapie \(B\). Insgesmant \(18\) der mit \(A\) behandelten Personen wurden geheilt, während \(21\) der mit \(B\) behandelten Personen geheilt wurden.

  1. Berechnen Sie für jede Therapie das 95% Konfidenzintervall für den Anteil an Personen, die geheilt wurden.
  2. Welches Intervall ist präziser?

Für die Lösung siehe Abschnitt 52.6

44.8.7 Aufgabe 44.8.7 Neugeborene

Der Datensatz neonates von rk.Teaching9 enthält Informationen über eine Stichprobe von 320 Neugeborenen, die im Laufe eines Jahres nach normaler Schwangerschaftsdauer geboren wurden.

  1. Berechnen Sie das 99% Konfidenzintervall für den Mittelwert des Gewichts der Neugeborenen.
  2. Berechnen Sie die Konfidenzintervalle für den APGAR-Score nach 1 Minute und für den APGAR-Score nach 5 Minuten und vergleiche sie beide Intervalle. Gibt es auf Grundlage der Konfidenzintervalle einen signifikanten Unterschied zwischen den Mittelwerten der beiden Scores?
  3. Berechnen Sie die Konfidenzintervalle für den Prozentsatz der Neugeborenen mit einem Gewicht von \(\leq 2,5\) kg für Raucher- und Nichtrauchermütter und vergleichen Sie die Intervalle.

Für die Lösung siehe Abschnitt 52.7

44.9 Konfidenzintervalle (zwei Stichproben)

44.9.1 Aufgabe 44.9.1 Medikamentenwerbung

Um festzustellen, ob eine Werbekampagne den Absatz eines Arzneimittels erhöht hat, wurde eine Stichprobe von 8 Apotheken aus einer Stadt gezogen. In jeder Apotheke wurden die monatlichen Verkäufe des Arzneimittels vor und nach der Kampagne in der folgenden Tabelle erfasst.

Vorher 147 163 121 205 132 190 176 147
Nachher 150 171 132 208 141 184 182 145
  1. Erstellen Sie ein Datenframe mit den Variablen vorher und nachher und übertragen Sie die Daten.
  2. Berechnen Sie den Mittelwert der monatlichen Umsätze vor und nach der Kampagne. Sind die Mittelwerte unterschiedlich? Hat die Kampagne den Absatz des Arzneimittels erhöht?
  3. Berechnen Sie die Konfidenzintervalle für den durchschnittlichen Unterschied mit \(\alpha = 0,05\) und \(\alpha = 0,01\). Können wir bestätigen, dass die Werbekampagne den Verkauf von Arzneimitteln erheblich gesteigert hat?
  4. Können wir dieselbe Schlussfolgerung ziehen, wenn wir die Verkäufe nach der Kampagne der beiden letzten Apotheken ändern und \(190\) statt \(182\) und \(165\) statt \(145\) angeben? Was passiert mit den Konfidenzintervallen?

Für die Lösung siehe Abschnitt 53.1

44.9.2 Aufgabe 44.9.2 Milchfett

Ein Molkereibetrieb erhält Milch von zwei Bauernhöfen X und Y. Um die Qualität der Milch zu analysieren, wird das Milchfett für zwei Milchproben, eine von jedem Betrieb, gemessen. Die Ergebnisse sind in der nachstehenden Tabelle aufgeführt.

X Y
0.34 0.34 0.28 0.29
0.32 0.35 0.30 0.32
0.33 0.33 0.32 0.31
0.32 0.32 0.29 0.29
0.33 0.30 0.31 0.32
0.31 0.32 0.29 0.31
0.33 0.32
0.32 0.33
  1. Übertragen Sie die Daten in ein Datenframe mit den Variablen Hof1 und Hof2.
  2. Berechnen Sie das 95%-Konfidenzintervall für den durchschnittlichen Fettunterschied in der Milch von Hof1 und Hof2.
  3. Kann man daraus schließen, dass der Unterschied zwischen den Milchfettmittelwerten der Betriebe signifikant ist? Welcher Betrieb hat Milch mit mehr Fett? Wie viel mehr Fett hat die Milch von Hof1 als die Milch von Hof2?

Für die Lösung siehe Abschnitt 53.2

44.9.3 Aufgabe 44.9.3 Bibliotheksnutzung nach Geschlecht

In einer von einer Universität durchgeführten Umfrage über die Nutzung der Bibliothek wurde eine Stichprobe von 34 Studierenden gefragt, ob sie mindestens einmal pro Woche in die Bibliothek gehen.

Antwort nein ja nein nein nein ja nein ja ja ja ja nein
Geschlecht m w w m m m w w w w m m
Antwort nein ja nein nein nein ja ja ja nein nein ja nein
Geschlecht m w m m w m w w w m w m
Antwort ja ja nein nein ja nein ja nein ja nein
Geschlecht w w m m w w w m w m
  1. Übertragen Sie die Daten in ein Datenframe mit den Variablen Antwort und Geschlecht.
  2. Berechnen Sie das Konfidenzintervall für den Unterschied zwischen den Anteilen der Frauen und Männern, die die Bibliothek mindestens einmal pro Woche nutzen.

Für die Lösung siehe Abschnitt 53.3

44.9.4 Aufgabe 44.9.4 Prüfungen vormittags und nachmittags

In einem Kurs gibt es zwei Gruppen von Studierenden, eine am Vormittag und die andere am Nachmittag. In der Vormittagsgruppe haben 55 von 80 Studierenden bestanden, während in der Nachmittagsgruppe 32 von 90 Studierenden bestanden haben.

  1. Gibt es signifikante Unterschiede zwischen den Prozentsätzen der Studierenden, die am Vormittag und am Nachmittag bestanden haben? Kann man daraus schließen, dass der Stundenplan die Ursache für diese Unterschiede ist?

Für die Lösung siehe Abschnitt 53.4

44.9.5 Aufgabe 44.9.5 Cholesterin und Sport

In einer Studie zur Ermittlung des Zusammenhangs zwischen körperlicher Betätigung und dem Cholesterinspiegel im Blut wurde eine wurde eine Stichprobe von 11 Personen gezogen. Der Cholesterinspiegel der Teilnehmer (in mg/dl) vor und nach der Teilnahme an einem Programm mit körperlichen Übungen ist unten dargestellt.

vorher 182 232 191 200 148 249 276 213 241 280 262
nachher 198 210 194 220 138 220 219 161 210 213 226
  1. Berechnen Sie das 95%-Konfidenzintervall für den durchschnittlichen Unterschied der Cholesterinwerte vor und nach den körperlichen Übungen
  2. Berechnen Sie das 99%-Konfidenzintervall für den durchschnittlichen Unterschied der Cholesterinwerte vor und nach den körperlichen Übungen
  3. Auf Grundlage der zuvor berechneten Intervalle, welchen Schluss bezüglich des Einflusses von körperlichen Aktivitäten auf den Cholesterinspiegel können Sie ziehen?

Für die Lösung siehe Abschnitt 53.5

44.9.6 Aufgabe 44.9.6 Patientenzufriedenheit

Insgesamt 500 Patienten aus zwei Krankenhäusern wurden zu ihrer Zufriedenheitbefragt. In Krankenhaus 1 wurden 200 Patienten befragt, von denen 140 zufrieden waren. In Krankenhaus 2 wurden 300 Patienten befragt, von denen 180 zufrieden waren.

  1. Berechnen Sie das 95%-Konfidenzintervall für den Anteilsunterschied an zufriedenen Patienten in beiden Häusern.
  2. Wenn \(\alpha = 0,01\) ist, können dann Rückschlüsse gezogen werden, ob der Unterschied der Anteile zufriedener Patienten signifikant ist?

Für die Lösung siehe Abschnitt 53.6

44.9.7 Aufgabe 44.9.7 Neugeborene

Der Datensatz neonates von rk.Teaching10 enthält Informationen über eine Stichprobe von 320 Neugeborenen, die im Laufe eines Jahres nach normaler Schwangerschaftsdauer geboren wurden.

  1. Berechnen Sie das 95%-Konfidenzintervall für den durchscnnittlichen Unterschied des Geburtsgewichts zwischen Kindern von Raucherinnen und Nichtraucherinnen. Wie groß ist der durchschnittliche Gewichtsunterschied?
  2. Berücksichtigen Sie nur die Daten der Mütter, die während der Schwangerschaft nicht geraucht haben. Berechnen Sie das 95%-Konfidenzintervall für den durchscnnittlichen Unterschied des Geburtsgewichts zwischen Kindern von Müttern, die vor der Schwangerschaft geraucht haben, und den Nichtraucherinnen.
  3. Berechnen Sie das 95%-Konfidenzintervall für den durchschnittlichen Unterschied von APGAR-1-Werten und APGAR-5-Werten. Wie entwickeln sich Neugeborene in den ersten 5 Minuten nach der Geburt?
  4. Wenn Neugeborene mit einem APGAR-1-Wert \(\leq3\) in einem kritischen Zustand sind, berechnen Sie das 90%-Konfidenzintervall für den Unterschied der Anteile von Neugeborenen in kritischem Zustand zwischen Müttern, die während der Schwangerschaft geraucht haben und den Nichtraucherinnen.
  5. Hat das Alter der Mutter einen signifikanten Einfluss auf den Anteil an Neugeborenen in kritischem Zustand?

Für die Lösung siehe Abschnitt 53.7

44.10 Signifikanztests

44.10.1 Aufgabe 44.10.1 Wirkstoffkonzentration

Die Wirkstoffkonzentration einer Zufallsstichprobe von 10 Arzneimittelbehältern aus einer Charge beträgt (in mg/mm\(^{3}\) )

17.6 19.2 21.3 15.1 17.6 18.9 16.2 18.3 19.0 16.4

  1. Übertragen Sie die Daten in ein Datenframe mit der Variable Konzentration.
  2. Testen Sie die zweiseitige Hypothese \(H_{0}: \mu = 18\) versus \(H_{1}: \mu \neq 18\) mit einem Signifikanzniveau von \(\alpha=0,05\).
  3. Testen Sie die zweiseitige Hypothese \(H_{0}: \mu = 19,5\) versus \(H_{1}: \mu \neq 19,5\) mit den Signifikanzniveaus von \(\alpha=0,05\) und \(0,01\). Wie beeinflusst das Signifikanzniveau das Testergebnis?
  4. Testen Sie die zweiseitige Hypothese \(H_{0}: \mu = 17\) versus \(H_{1}: \mu \neq 17\) mit einem Signifikanzniveau von \(\alpha=0,05\). Testen Sie ebenfalls die Hypothesen \(H_{0}: \mu = 17\) versus \(H_{1}: \mu > 17\) mit \(\alpha=0,05\). Was ist der Unterschied zwischen den \(p\)-Werten des zweiseitigen und des einseitigen Tests?
  5. Wenn der Hersteller angibt, die Konzentration des Wirkstoffs erhöht zu haben (im Vergleich zu früheren Chargen, bei denen der Mittelwert der Konzentration 17 mg/mm\(^{3}\) war), können wir ihm glauben?
  6. Welche Fallzahl würde benötigt, um einen Konzentrationsanstieg von 0,5 mg/mm\(^{3}\) zu erkennen (mit \(\alpha=0,05\) und einer Power von \(1-\beta=0,8\))?

Für die Lösung siehe Abschnitt 54.1

44.10.2 Aufgabe 44.10.2 Bibliotheksnutzung

In einer von einer Universität durchgeführten Umfrage über die Nutzung der Bibliothek wurde eine Stichprobe von 34 Studierenden gefragt, ob sie mindestens einmal pro Woche in die Bibliothek gehen.

nein ja nein nein nein ja nein ja ja ja ja nein ja nein ja nein nein nein ja ja ja nein nein ja nein nein ja ja nein nein ja nein ja nein

  1. Übertragen Sie die Daten in ein Datenframe mit der Variable bib.
  2. Testen Sie die Hypothese, dass der Anteil an Studierenden, die wöchentlich die Bibliothek nutzen, größer als 40% ist.

Für die Lösung siehe Abschnitt 54.2

44.10.3 Aufgabe 44.10.3 Laufen lernen

Eine Studie möchte untersuchen, ob Babies aus den unterschiedlichen Populationen \(A\) und \(B\) zu unterschiedlichen Zeiten anfangen zu laufen. In folgender Tabelle ist das Alter der Babies in Monaten aufgeführt, zu welchem sie mit dem Laufen anfingen.

A 9.5 10.5 9.0 9.8 10.0 13.0 10.0 13.5 10.0 9.8
B 12.5 9.5 13.5 13.8 12.0 13.8 12.5 9.5 12.0 13.5 12.0 12.0
  1. Übertragen Sie die Daten in ein Datenframe mit den Variablen Alter und Population.
  2. Testen Sie die Hypothese, dass das durchschnittliche Alter in den Populationen unterschiedlich ist, mit \(\alpha = 0,05\).

Für die Lösung siehe Abschnitt 54.3

44.10.4 Aufgabe 44.10.4 Bronchialretention

Forschende haben bei Rauchern einen größeren Atemwegswiderstand festgestellt als bei Nichtrauchern. Zur Überprüfung wurde bei 12 Probanden der Prozentsatz der tracheobronchialen Retention gemessen als sie Raucher waren und ein Jahr nach dem Rauchstopp.

Rauchen Nichrauchen
60.6 47.5
12.0 13.3
56.0 33.0
75.2 55.2
12.5 21.9
29.7 27.9
57.2 54.3
62.7 13.9
28.7 8.90
66.0 46.1
25.2 29.8
40.1 36.2
  1. Übertragen Sie die Daten in ein Datenframe mit den Variablen vorher und nachher.
  2. Testen Sie, ob sich die Bronchialretention nach dem Rauchstopp verringert.

Für die Lösung siehe Abschnitt 54.4

44.10.5 Aufgabe 44.10.5 Prüfungen vormittags und nachmittags

In einem Kurs gibt es zwei Gruppen von Studierenden, eine am Vormittag und die andere am Nachmittag. Unter der Vormittagsgruppe haben 55 von 80 Studierenden bestanden, während in der Nachmittagsgruppe 32 von 90 Studierenden bestanden haben.

  1. Gibt es signifikante Unterschiede zwischen den Prozentsätzen der Studiereden, die am Vormittag und am Nachmittag bestanden haben? Kann man daraus schließen, dass der Stundenplan die Ursache für diese Unterschiede ist?

Für die Lösung siehe Abschnitt 54.5

44.10.6 Aufgabe 44.10.6 Pulsmessung

Der Datensatz pulse von rk.Teaching11 enthält Informationen über den Puls einer Stichprobe von Personen nach verschiedenen Übungen:

  • Ruhepuls in Schlägen pro Minute (pulse1),
  • Puls nach Bewegung in Schlägen pro Minute (pulse2),
  • Art der Bewegung (type),
  • Geschlecht (sex) und Gewicht (weight)
  1. Testen Sie, ob der Ruhepuls weniger als 75 Schläge pro Minute beträgt.
  2. Welcher Stichprobenumfang ist erforderlich, um einen Anstieg des Ruhepulses um 2 Schläge pro Minute mit einem Signifikanzniveau von 0,05 und einer Power von 0,9 festzustellen?
  3. Testen Sie, ob der Puls nach dem Laufen größer als 85 Schläge pro Minute ist.
  4. Eine Person hat eine leichte Tachykardie, wenn der Ruhepuls größer als 90 Schläge pro Minute ist. Prüfen Sie, ob der Prozentsatz der Personen mit leichter Tachykardie größer als 5% ist.
  5. Kann man mit 95%iger Sicherheit schließen, dass Bewegung den Puls erhöht? Und bei einem Signifikanzniveau von \(\alpha =0,01\)?
  6. Gibt es einen Unterschied zwischen den durchschnittlichen Pulsschlägen nach dem Gehen und dem Laufen?
  7. Gibt es einen Unterschied zwischen den Mittelwerten des Ruhepulses von Männern und Frauen? Und nach dem Laufen?

Für die Lösung siehe Abschnitt 54.6

44.11 Varianzanalysen (ANOVA)

44.11.1 Aufgabe 44.11.1 Aknetherapie

In einer Studie wird versucht, die Wirksamkeit von drei Therapieprogrammen \(A\), \(B\) und \(C\) zur Behandlung von von Akne zu bestimmen. Die Teilnehmer der Studie wurden nach dem Zufallsprinzip in drei Gruppen eingeteilt, und in jeder Gruppe wurde eine der Behandlungen durchgeführt. Nach 16 Wochen Behandlung wurde der prozentuale Rückgang der Akneläsionen gemessen.

Therapie A Therapie B Therapie C
48.6 50.8 68.0 71.9 67.5 61.4
49.4 47.1 67.0 71.5 62.5 67.4
50.1 52.5 70.1 69.9 64.2 65.4
49.8 49.0 64.5 68.9 62.5 63.2
50.6 46.7 68.0 67.8 63.9 61.2
68.3 68.9 64.8 60.5
62.3
  1. Übertragen Sie die Daten in ein Datenframe mit den Variablen Therapie und Aknereduktion.
  2. Plotten Sie die Aknereduktion für jede Therapie. Sind Unterschiede erkennbar?
  3. Führen Sie eine ANOVA durch. Gibt es signifikante Unterschiede zwischen den Therapien?
  4. Berechnen Sie die Konfidenzintervalle für die paarweisen Unterschiede zwischen den drei Behandlungen. Bei welchen Behandlungen gibt es signifikante Unterschiede?
  5. Plotten Sie diese Konfidenzintervalle.

Für die Lösung siehe Abschnitt 55.1

44.11.2 Aufgabe 44.11.2 Schulranking

Um zu prüfen, ob es zwischen den Schulen einer Stadt Unterschiede in den sportlichen Leistungen gibt, wurde eine Zufallsstichprobe von 8 Schülern jeder Schule gezogen. Die erreichten Punkte bei einem Sportwettkampf (von 1 bis 10) der jeweiligen Schüler sind in der folgenden Tabelle dargestellt.

\(A\) \(B\) \(C\) \(D\) \(E\)
5.5 6.1 4.9 3.2 6.7
5.2 7.2 5.5 3.3 5.8
5.9 5.5 6.1 5.5 5.4
7.1 6.7 6.1 5.7 5.5
6.2 7.6 6.2 6.0 4.9
5.9 5.9 6.4 6.1 6.2
5.3 8.1 6.9 4.7 6.1
6.2 8.3 4.5 5.1 7.0
  1. Übertragen Sie die Daten in ein Datenframe mit den Variablen Schule und Punkte.
  2. Plotten Sie die durchschnittlich erreichten Punkte pro Schule. Sind Unterschiede erkennbar?
  3. Führen Sie eine ANOVA durch. Gibt es signifikante Unterschiede zwischen den Schulen?
  4. In welcher Schule sind die sportlichen Leistungen am besten?

Für die Lösung siehe Abschnitt 55.2

44.11.3 Aufgabe 44.11.3 Puls und Herzkrankheit

Die nachstehende Tabelle zeigt den Puls (in Schlägen pro Minute) von vier Patientengruppen: Kontrollen (A), Patienten mit Angina pectoris (B), Patienten mit Herzrhythmusstörungen (C) und Patienten, die sich von einem Herzinfarkt erholt haben (D).

\(A\) \(B\) \(C\) \(D\)
83 81 75 61
61 65 68 75
80 77 80 78
63 87 80 80
67 95 74 68
89 89 78 65
71 103 69 68
73 89 72 69
70 78 76 70
66 83 75 79
57 91 69 61
  1. Gibt es laut den Daten signifikante Unterschiede zwischen den vier Gruppen?

Für die Lösung siehe Abschnitt 55.3

44.11.4 Aufgabe 44.11.4 Kohlenmonoxid

Die folgende Tabelle zeigt die Atemfrequenz (Atemzüge pro Minute) bei einer Stichprobe von Laborratten, die drei Konzentrationen von Kohlenmonoxid ausgesetzt waren.

Low Medium High
36 43 45
33 38 39
35 41 33
39 34 39
41 28 33
41 44 26
44 30 39
45 31 29
  1. Gibt es laut den Daten signifikante Unterschiede zwischen den drei Gruppen?

Für die Lösung siehe Abschnitt 55.4

44.12 Chiquadratests für Anteilswerte

44.12.1 Aufgabe 44.12.1 Magengeschwür

Die folgende Tabelle enthält die Blutgruppe einer Stichprobe von 1655 Patienten mit Magengeschwüren und 10.000 Patienten ohne Magengeschwüre Patienten.

0 A B AB
Geschwür 911 579 124 41
kein Geschwür 4578 4219 890 313
  1. Übertragen Sie die Daten in ein Datenframe mit den Variablen Geschwuer und Blutgruppe.
  2. Führen Sie einen Chiquadrattest auf die Hypothese durch, dass die Geschwüre von der Blutgruppe abhängig sind.
  3. Gibt es in Anbetracht der Ergebnisse des Vergleichs einen Zusammenhang zwischen dem Magengeschwür und der Blutgruppe? Können wir behaupten, dass der Anteil der Ulkuspatienten je nach Blutgruppe unterschiedlich ist?

Für die Lösung siehe Abschnitt 56.1

44.12.2 Aufgabe 44.12.2 Blutgruppen

Mitchell et al. (1976) untersuchten die Verteilung der Blutgruppen in einer Stichprobe von 478 Personen aus verschiedenen Regionen im Südwesten Schottlands. Sie erhielten die folgenden Ergebnisse:

Eskdale Annandale Nithsdale
A 33 54 98 185
B 6 14 35 55
O 56 52 115 223
AB 5 5 5 15
100 125 253 478
  1. Übertragen Sie die Daten in ein Datenframe mit den Variablen Region und Blutgruppe.
  2. Führen Sie einen Chiquadrattest auf die Hypothese durch, dass die Blutgruppe von der Region abhängig sind.
  3. Gibt es in Anbetracht der Ergebnisse einen Zusammenhang zwischen der Blutgruppe und der Region? Können wir behaupten, dass die Region keinen Einfluss auf die Blutgruppe hat?

Für die Lösung siehe Abschnitt 56.2

44.12.3 Aufgabe 44.12.3 Rauchen und Geschlecht

Eine Studie hat versucht festzustellen, ob das Rauchen mit dem Geschlecht zusammenhängt. Es wurden 9 Männer und 17 Frauen befragt. Unter den männlichen Probanden gab es 2 Raucher, während in der weiblichen Stichprobe 6 Raucherinnen waren.

  1. Übertragen Sie die Daten in ein Datenframe mit den Variablen Rauchen und Geschlecht.
  2. Führen Sie einen Chi-Quadrat-Test durch, um festzustellen, ob das Rauchen mit dem Geschlecht zusammenhängt.
  3. Ist die Verteilung der Raucher bei beiden Geschlechtern gleich?

Für die Lösung siehe Abschnitt 56.3

44.12.4 Aufgabe 44.12.4 Migräne

Um die Wirksamkeit von zwei Medikamenten gegen Migräne zu vergleichen, wurden 20 Personen, die häufig unter Migräne litten, ausgewählt und die beiden Medikamente zu verschiedenen Zeitpunkten ausprobiert. Die folgende Tabelle zeigt die Anzahl der Personen, die eine gewisse Linderung erfuhren.

Drug 1 Yes Yes Yes Yes Yes No Yes No Yes Yes
Drug 2 No No Yes No Yes Yes No No No No
Drug 1 Yes No Yes No Yes Yes Yes No Yes Yes
Drug 2 Yes No Yes No No Yes No Yes No No
  1. Übertragen Sie die Daten in ein Datenframe mit den Variablen drug1 und drug2.
  2. Führen Sie einen McNemar-Test durch, um festzustellen, ob die Linderung mit dem Medikament zusammenhängt.
  3. Können wir nach dem Ergebnis des Tests behaupten, dass die Linderung der Migräne vom Medikament abhängt? Wenn ja, welches Medikament bewirkt eine signifikant höhere Linderung?

Für die Lösung siehe Abschnitt 56.4

44.12.5 Aufgabe 44.12.5 Komatös

Eine Studie versucht zu bestimmen, ob Patienten, die bei der Ankunft im Krankenhaus komatös sind, eine schlechtere Prognose (Überleben oder Sterben) haben.

nicht komatös komatös
überleben 484 37 521
verstorben 118 89 207
602 126 728
  1. Ist ein komatöser Zustand bei der Ankunft im Krankenhaus ein Risikofaktor zu versterben?

Für die Lösung siehe Abschnitt 56.5

44.12.6 Aufgabe 44.12.6 Heilung

Die Heilung einer Krankheit, die durch zwei Behandlungen \(A\) und \(B\) hervorgerufen wird, wird in drei Kategorien eingeteilt: sehr gut, gut und schlecht.

Die Behandlung \(A\) wird bei 32 Patienten angewandt und \(B\) bei 28. Bei Medikament \(A\) konnten 10 von insgesamt 22 sehr guten Heilungen, 14 von insgesamt 24 guten Heilungen und 8 von insgesamt 14 schlechten Heilungen beobachtet werden. Ist die Wirksamkeit der beiden Behandlungen die gleiche?

Für die Lösung siehe Abschnitt 56.6

44.12.7 Aufgabe 44.12.7 Facherfolg

Um festzustellen, ob Frauen in einem Fach erfolgreicher sind als Männer, wurde eine Stichprobe von 10 Frauen und 10 Männern gezogen. Beide Gruppen wurden von einem Lehrer geprüft, der immer 40% der Prüflinge durchfallen lässt. Wenn man weiß, dass nur 2 Männer bestanden haben, können wir dann behaupten, dass Frauen in diesem Fach erfolgreicher sind als Männer?

Für die Lösung siehe Abschnitt 56.7

44.12.8 Aufgabe 44.12.8 Statistikdozenten

150 Studierende wurden befragt, ob ihnen die Lehrmethoden von zwei Biostatistik-Dozenten (Hans und Erna) gefallen. Die Ergebnisse sind in der nachstehenden Tabelle aufgeführt:

like Hans dislike Hans
like Erna 37 48
dislike Erna 44 21

Können wir bestätigen, dass es unterschiedliche Meinungen über Hans und Erna gibt?

Für die Lösung siehe Abschnitt 56.8

Noch mehr Übungen?

Weitere Übungsaufgaben finden Sie im trainingslageR unter https://www.produnis.de/trainingslager.


  1. siehe https://github.com/asalber/statistics_practice_rkteaching↩︎

  2. siehe https://rkward.kde.org/↩︎

  3. https://github.com/rkward-community/rk.Teaching, auch verfügbar unter https://www.produnis.de/R/data/neonates.RData↩︎

  4. https://github.com/rkward-community/rk.Teaching, auch verfügbar unter https://www.produnis.de/R/data/age.height.RData↩︎

  5. https://github.com/rkward-community/rk.Teaching, auch verfügbar unter https://www.produnis.de/R/data/heights.weights.students.RData↩︎

  6. https://github.com/rkward-community/rk.Teaching, auch verfügbar unter https://www.produnis.de/R/data/neonates.RData↩︎

  7. https://github.com/rkward-community/rk.Teaching, auch verfügbar unter https://www.produnis.de/R/data/diet.RData↩︎

  8. Den Datensatz für ein Pokerkartenspiel erhalten Sie unter https://www.produnis.de/R/data/cards.RData↩︎

  9. https://github.com/rkward-community/rk.Teaching, auch verfügbar unter https://www.produnis.de/R/data/neonates.RData↩︎

  10. https://github.com/rkward-community/rk.Teaching, auch verfügbar unter https://www.produnis.de/R/data/neonates.RData↩︎

  11. https://github.com/rkward-community/rk.Teaching, auch verfügbar unter https://www.produnis.de/R/data/pulse.RData↩︎