54  Lösungen Signifikanztests

Hier finden Sie die Lösungen zu den Übungsaufgaben von Abschnitt 44.10.

Die hier vorgestellten Lösungen stellen immer nur eine mögliche Vorgehensweisen dar und sind sicherlich nicht der Weisheit letzter Schluss. In R führen viele Wege nach Rom, und wenn Sie mit anderem Code zu den richtigen Ergebnissen kommen, dann ist das völlig in Ordnung.

54.1 Lösung zur Aufgabe 44.10.1

a) Übertragen Sie die Daten in ein Datenframe mit der Variable Konzentration.
Konzentration <- c(17.6, 19.2, 21.3, 15.1, 17.6, 18.9, 16.2, 18.3, 19.0, 16.4)
b) Testen Sie die zweiseitige Hypothese \(H_{0}: \mu = 18\) versus \(H_{1}: \mu \neq 18\) mit einem Signifikanzniveau von \(\alpha=0,05\).
t.test (Konzentration, alternative="two.sided", mu=18, conf.level=0.95)

    One Sample t-test

data:  Konzentration
t = -0.07078, df = 9, p-value = 0.9451
alternative hypothesis: true mean is not equal to 18
95 percent confidence interval:
 16.68158 19.23842
sample estimates:
mean of x 
    17.96 

Das Ergebnis ist nicht signifikant.

c) Testen Sie die zweiseitige Hypothese \(H_{0}: \mu = 19,5\) versus \(H_{1}: \mu \neq 19,5\) mit den Signifikanzniveaus von \(\alpha=0,05\) und \(0,01\). Wie beeinflusst das Signifikanzniveau das Testergebnis?
t.test (Konzentration, alternative="two.sided", mu=19.5, conf.level=0.95)

    One Sample t-test

data:  Konzentration
t = -2.725, df = 9, p-value = 0.02341
alternative hypothesis: true mean is not equal to 19.5
95 percent confidence interval:
 16.68158 19.23842
sample estimates:
mean of x 
    17.96 
t.test (Konzentration, alternative="two.sided", mu=19.5, conf.level=0.99)

    One Sample t-test

data:  Konzentration
t = -2.725, df = 9, p-value = 0.02341
alternative hypothesis: true mean is not equal to 19.5
99 percent confidence interval:
 16.1234 19.7966
sample estimates:
mean of x 
    17.96 

Da der p-Wert bei \(0,02341\) liegt, ist das Ergebnis für \(\alpha = 0,05\) signifikant, für \(\alpha = 0,01\) jedoch nicht.

d) Testen Sie die zweiseitige Hypothese \(H_{0}: \mu = 17\) versus \(H_{1}: \mu \neq 17\) mit einem Signifikanzniveau von \(\alpha=0,05\). Testen Sie ebenfalls die Hypothesen \(H_{0}: \mu = 17\) versus \(H_{1}: \mu > 17\) mit \(\alpha=0,05\). Was ist der Unterschied zwischen den \(p\)-Werten des zweiseitigen und des einseitigen Tests?
t.test (Konzentration, alternative="two.sided", mu=17, conf.level=0.95)

    One Sample t-test

data:  Konzentration
t = 1.6987, df = 9, p-value = 0.1236
alternative hypothesis: true mean is not equal to 17
95 percent confidence interval:
 16.68158 19.23842
sample estimates:
mean of x 
    17.96 
t.test (Konzentration, alternative="greater", mu=17, conf.level=0.95)

    One Sample t-test

data:  Konzentration
t = 1.6987, df = 9, p-value = 0.0618
alternative hypothesis: true mean is greater than 17
95 percent confidence interval:
 16.92404      Inf
sample estimates:
mean of x 
    17.96 

Der p-Wert ist beim einseitigen Test kleiner. Beide Werte sind jedoch größer als \(0,05\).

e) Wenn der Hersteller angibt, die Konzentration des Wirkstoffs erhöht zu haben (im Vergleich zu früheren Chargen, bei denen der Mittelwert der Konzentration 17 mg/mm\(^{3}\) war), können wir ihm glauben?
t.test (Konzentration, alternative="greater", mu=17, conf.level=0.95)

    One Sample t-test

data:  Konzentration
t = 1.6987, df = 9, p-value = 0.0618
alternative hypothesis: true mean is greater than 17
95 percent confidence interval:
 16.92404      Inf
sample estimates:
mean of x 
    17.96 

Der p-Wert ist nicht signifikant. Wir können dem Hersteller also nicht glauben.

f) Welche Fallzahl würde benötigt, um einen Konzentrationsanstieg von 0,5 mg/mm\(^{3}\) zu erkennen (mit \(\alpha=0,05\) und einer Power von \(1-\beta=0,8\))?
# Power-t-test
power.t.test(delta=0.5, sd=sd(Konzentration), 
             sig.level=0.05, power=0.8, type = "one.sample")

     One-sample t test power calculation 

              n = 102.2077
          delta = 0.5
             sd = 1.787114
      sig.level = 0.05
          power = 0.8
    alternative = two.sided

Es wird eine Fallzahl von 103 benötigt.

54.2 Lösung zur Aufgabe 44.10.2

a) Übertragen Sie die Daten in ein Datenframe mit der Variable bib.
# Daten übertragen
bib <- c("nein",  "ja",  "nein",  "nein",  "nein",  "ja",  "nein",  
         "ja", "ja",  "ja",  "ja",  "nein",  "ja",  "nein", "ja",  
         "nein",  "nein", "nein",  "ja",  "ja",  "ja",  "nein",  
         "nein",  "ja",  "nein",  "nein", "ja",  "ja",  "nein",  
         "nein",  "ja",  "nein",  "ja", "nein")
b) Testen Sie die Hypothese, dass der Anteil an Studierenden, die wöchentlich die Bibliothek nutzen, größer als 40% ist.
freq <- table(bib)
# testen
prop.test(freq[["ja"]], sum(freq), alternative="greater", p=0.4, conf.level=0.95)

    1-sample proportions test with continuity correction

data:  freq[["ja"]] out of sum(freq), null probability 0.4
X-squared = 0.4424, df = 1, p-value = 0.253
alternative hypothesis: true p is greater than 0.4
95 percent confidence interval:
 0.3238772 1.0000000
sample estimates:
        p 
0.4705882 

Der Test ist nicht signifikant.

54.3 Lösung zur Aufgabe 44.10.3

a) Übertragen Sie die Daten in ein Datenframe mit den Variablen Alter und Population.
# Daten übertragen
df <- data.frame(Alter = c(9.5, 10.5, 9.0, 9.8, 10.0, 13.0, 
                           10.0, 13.5, 10.0, 9.8, 12.5, 9.5, 
                           13.5, 13.8, 12.0, 13.8, 12.5, 9.5, 
                           12.0, 13.5, 12.0, 12.0),
                 Population = c(rep("A", 10), rep("B", 12)))
b) Testen Sie die Hypothese, dass das durchschnittliche Alter in den Populationen unterschiedlich ist, mit \(\alpha = 0,05\).
# teste, ob Varianzhomogenität vorliegt
var.test(Alter ~ Population, data=df)$p.value
[1] 0.9164489
# liegt vor
t.test(Alter ~ Population, data=df, var.equal=TRUE)

    Two Sample t-test

data:  Alter by Population
t = -2.6982, df = 20, p-value = 0.01383
alternative hypothesis: true difference in means between group A and group B is not equal to 0
95 percent confidence interval:
 -3.0260864 -0.3872469
sample estimates:
mean in group A mean in group B 
       10.51000        12.21667 

Das Ergebnis ist signifikant, p ist kleiner als 0,05. Es liegt also ein Unterschied vor.

54.4 Lösung zur Aufgabe 44.10.4

a) Übertragen Sie die Daten in ein Datenframe mit den Variablen vorher und nachher.
# Daten übertragen
df <- data.frame(vorher = c(60.6, 12.0, 56.0, 75.2, 12.5, 29.7, 
                            57.2, 62.7, 28.7, 66.0, 25.2, 40.1),
                 nachher = c(47.5, 13.3, 33.0, 55.2, 21.9, 27.9, 
                             54.3, 13.9, 8.90, 46.1, 29.8, 36.2))
b) Testen Sie, ob sich die Bronchialretention nach dem Rauchstopp verringert.
# Daten übertragen
t.test (df$vorher, df$nachher, alternative="greater", paired=TRUE, conf.level=0.95)

    Paired t-test

data:  df$vorher and df$nachher
t = 2.4847, df = 11, p-value = 0.01516
alternative hypothesis: true mean difference is greater than 0
95 percent confidence interval:
 3.185837      Inf
sample estimates:
mean difference 
       11.49167 

Das Ergebnis ist signifikant, p ist kleiner als 0,05. Es liegt also ein Unterschied vor, die Retention hat sich verringert.

54.5 Lösung zur Aufgabe 44.10.5

Gibt es signifikante Unterschiede zwischen den Prozentsätzen der Studiereden, die am Vormittag und am Nachmittag bestanden haben? Kann man daraus schließen, dass der Stundenplan die Ursache für diese Unterschiede ist?
# Daten übertragen
df <- data.frame(course = c(rep("bestanden", 55), rep("durchgefallen", 25),
                            rep("bestanden", 32), rep("durchgefallen", 58)),
                 time = c(rep("morgens", 80), rep("abends", 90))
                 
                 )

freq <- table(df)
prop.test(c(freq[["bestanden","morgens"]], freq[["bestanden","abends"]]), 
          c(sum(freq[,"morgens"]), sum(freq[,"abends"])), 
          alternative="two.sided", conf.level=0.95)                 

    2-sample test for equality of proportions with continuity correction

data:  c(freq[["bestanden", "morgens"]], freq[["bestanden", "abends"]]) out of c(sum(freq[, "morgens"]), sum(freq[, "abends"]))
X-squared = 17.372, df = 1, p-value = 3.072e-05
alternative hypothesis: two.sided
95 percent confidence interval:
 0.1783764 0.4855125
sample estimates:
   prop 1    prop 2 
0.6875000 0.3555556 

Das Ergebnis ist signifikant, p ist kleiner als 0,05. Es liegt also ein Unterschied zwischen morgens und abends vor.

54.6 Lösung zur Aufgabe 44.10.6

# lade Datensatz
load(url("https://www.produnis.de/R/data/pulse.RData"))
a) Testen Sie, ob der Ruhepuls weniger als 75 Schläge pro Minute beträgt.
t.test(pulse$pulse1, mu=75, alternative = "less")

    One Sample t-test

data:  pulse$pulse1
t = -1.8562, df = 91, p-value = 0.03333
alternative hypothesis: true mean is less than 75
95 percent confidence interval:
     -Inf 74.77684
sample estimates:
mean of x 
 72.86957 

Das Ergebnis ist signifikant.

b) Welcher Stichprobenumfang ist erforderlich, um einen Anstieg des Ruhepulses um 2 Schläge pro Minute mit einem Signifikanzniveau von 0,05 und einer Power von 0,9 festzustellen?
power.t.test(delta=2, sd=sd(pulse$pulse1), 
             sig.level=0.05, power=0.9)

     Two-sample t test power calculation 

              n = 637.6676
          delta = 2
             sd = 11.00871
      sig.level = 0.05
          power = 0.9
    alternative = two.sided

NOTE: n is number in *each* group

Es werden 638 Probanden benötigt.

c) Testen Sie, ob der Puls nach dem Laufen größer als 85 Schläge pro Minute ist.
t.test(pulse$pulse2, mu=85, alternative="greater")

    One Sample t-test

data:  pulse$pulse2
t = -2.8056, df = 91, p-value = 0.9969
alternative hypothesis: true mean is greater than 85
95 percent confidence interval:
 77.03847      Inf
sample estimates:
mean of x 
       80 

Das Ergebnis ist nicht signifikant

d) Eine Person hat eine leichte Tachykardie, wenn der Ruhepuls größer als 90 Schläge pro Minute ist. Prüfen Sie, ob der Prozentsatz der Personen mit leichter Tachykardie größer als 5% ist.
pulse$tachy <- "nein"
pulse$tachy[pulse$pulse1 > 90] <- "ja"

freq <- table(pulse$tachy)
prop.test(freq[["ja"]], sum(freq), alternative="greater", 
          p=0.05, conf.level=0.95)

    1-sample proportions test with continuity correction

data:  freq[["ja"]] out of sum(freq), null probability 0.05
X-squared = 0.18535, df = 1, p-value = 0.3334
alternative hypothesis: true p is greater than 0.05
95 percent confidence interval:
 0.03035962 1.00000000
sample estimates:
         p 
0.06521739 

Das Ergebnis ist nicht signifikant.

e) Kann man mit 95%iger Sicherheit schließen, dass Bewegung den Puls erhöht? Und bei einem Signifikanzniveau von \(\alpha =0,01\)?
# test ob pulse1 kleiner ist als pulse2
t.test(pulse$pulse1, pulse$pulse2, alternative="less", conf.level = 0.95)

    Welch Two Sample t-test

data:  pulse$pulse1 and pulse$pulse2
t = -3.3638, df = 155.41, p-value = 0.0004841
alternative hypothesis: true difference in means is less than 0
95 percent confidence interval:
      -Inf -3.622838
sample estimates:
mean of x mean of y 
 72.86957  80.00000 
t.test(pulse$pulse1, pulse$pulse2, alternative="less", conf.level = 0.99)

    Welch Two Sample t-test

data:  pulse$pulse1 and pulse$pulse2
t = -3.3638, df = 155.41, p-value = 0.0004841
alternative hypothesis: true difference in means is less than 0
99 percent confidence interval:
      -Inf -2.147776
sample estimates:
mean of x mean of y 
 72.86957  80.00000 

Das Ergebnis ist in beiden Fällen signifikant. Bewegung erhöht also den Puls.

f) Gibt es einen Unterschied zwischen den durchschnittlichen Pulsschlägen nach dem Gehen und dem Laufen?
# test ob pulse1 kleiner ist als pulse2
t.test(pulse2 ~ type, data=pulse, conf.level = 0.95)

    Welch Two Sample t-test

data:  pulse2 by type
t = 5.8335, df = 45.695, p-value = 5.251e-07
alternative hypothesis: true difference in means between group running and group walking is not equal to 0
95 percent confidence interval:
 13.22755 27.16944
sample estimates:
mean in group running mean in group walking 
             92.51429              72.31579 

Es gibt einen signifikanten Unterschied.

g) Gibt es einen Unterschied zwischen den Mittelwerten des Ruhepulses von Männern und Frauen? Und nach dem Laufen?
# test ob pulse1 kleiner ist als pulse2
t.test(pulse1 ~ sex, data=pulse, conf.level = 0.95)

    Welch Two Sample t-test

data:  pulse1 by sex
t = -2.7217, df = 63.675, p-value = 0.008367
alternative hypothesis: true difference in means between group male and group female is not equal to 0
95 percent confidence interval:
 -11.160619  -1.711561
sample estimates:
  mean in group male mean in group female 
            70.42105             76.85714 
t.test(pulse2 ~ sex, data=pulse, conf.level = 0.95)

    Welch Two Sample t-test

data:  pulse2 by sex
t = -2.7849, df = 51.047, p-value = 0.007494
alternative hypothesis: true difference in means between group male and group female is not equal to 0
95 percent confidence interval:
 -18.64912  -3.02507
sample estimates:
  mean in group male mean in group female 
            75.87719             86.71429 

Für beide Pulse gibt es signifikante Unterschiede zwischen Männern und Frauen.