1 Kindersterblichkeitsraten

library(Rcmdr)
library(car) # activate package "car"

data("Leinhardt") # load data set

Nachschlagen, was die Spalten in den Daten bedeuten

#?Leinhardt

2 Aufgaben

  • Veranschaulichen Sie den Zusammenhang zwischen Einkommen und Sterblichkeitsrate (auch unter Berücksichtigung der verschiedenen Weltregionen).

  • Erstellen Sie eine Grafik, die den Zusammenhang zw. Weltregion und Sterberate zeigt.

  • Ordnen Sie die Faktorstufen für “region” anhand der Sterberate aufsteigend an.

  • Erstellen Sie dann wieder eine Mittelwertsgrafik.

  • Außerdem einen Strip-Chart (jitter nicht vergessen).

  • Prüfen Sie die Voraussetzung der Varianzhomogenität.

  • Analysieren Sie, ob der Faktor “Weltregion” Unterschiede in den Sterblichkeitsraten erklärt. (Wie können Sie hier eine mögliche Veletzung der Varianzhomogenität berücksichtigen?)

3 Analysen

3.1 Grafik: Einkommen und Sterberate in versch. Regionen

scatterplot(infant~income | region, regLine=TRUE, smooth=list(span=0.5, 
  spread=FALSE), boxplots=FALSE, by.groups=TRUE, data=Leinhardt)

3.2 Grafik: Weltregion und Sterberate

with(Leinhardt, plotMeans(infant, region, error.bars="conf.int", level=0.95,
   connect=TRUE))

3.3 Neuanordnung Faktorstufen

Leinhardt$region <- with(Leinhardt, factor(region, levels=c('Europe',
  'Americas','Asia','Africa')))

3.4 Nochmal Grafik

with(Leinhardt, plotMeans(infant, region, error.bars="conf.int", level=0.95,
   connect=TRUE))

3.5 Strip-Chart

stripchart(infant ~ region, vertical=TRUE, method="jitter", ylab="infant", 
  data=Leinhardt, col = c("blue","red","green","pink"))

3.6 Var. Homogenität

Tapply(infant ~ region, var, na.action=na.omit, data=Leinhardt) 
##     Europe   Americas       Asia     Africa 
##   109.7085   997.9971 18896.1799  3018.7633
  # variances by group
leveneTest(infant ~ region, data=Leinhardt, center="mean")
## Levene's Test for Homogeneity of Variance (center = "mean")
##       Df F value    Pr(>F)    
## group  3  6.7466 0.0003509 ***
##       97                      
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Mann muss annehmen, dass die Varianzen nicht homogen sind. Daher muss bei der ANOVA die Welch-Korrektur angewendet werden.

3.7 Einfaktorielle ANOVA (mit Welch-Korrektur): Weltregion und Sterblichkeit

library(mvtnorm, pos=17)
library(survival, pos=17)
library(MASS, pos=17)
library(TH.data, pos=17)
## 
## Attaching package: 'TH.data'
## The following object is masked from 'package:MASS':
## 
##     geyser
library(multcomp, pos=17)
library(abind, pos=22)
AnovaModel.1 <- aov(infant ~ region, data=Leinhardt)
summary(AnovaModel.1)
##             Df Sum Sq Mean Sq F value   Pr(>F)    
## region       3 210752   70251    11.1 2.49e-06 ***
## Residuals   97 613743    6327                     
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 4 observations deleted due to missingness
with(Leinhardt, numSummary(infant, groups=region, statistics=c("mean", "sd")))
##               mean        sd data:n data:NA
## Europe    19.25556  10.47418     18       0
## Americas  55.12273  31.59109     22       1
## Asia      96.17037 137.46338     27       3
## Africa   142.29118  54.94327     34       0
local({
  .Pairs <- glht(AnovaModel.1, linfct = mcp(region = "Tukey"))
  print(summary(.Pairs)) # pairwise tests
  print(confint(.Pairs, level=0.95)) # confidence intervals
  print(cld(.Pairs, level=0.05)) # compact letter display
  old.oma <- par(oma=c(0, 5, 0, 0))
  plot(confint(.Pairs))
  par(old.oma)
})
## 
##   Simultaneous Tests for General Linear Hypotheses
## 
## Multiple Comparisons of Means: Tukey Contrasts
## 
## 
## Fit: aov(formula = infant ~ region, data = Leinhardt)
## 
## Linear Hypotheses:
##                        Estimate Std. Error t value Pr(>|t|)    
## Americas - Europe == 0    35.87      25.28   1.419   0.4892    
## Asia - Europe == 0        76.91      24.20   3.178   0.0103 *  
## Africa - Europe == 0     123.04      23.19   5.306   <0.001 ***
## Asia - Americas == 0      41.05      22.85   1.797   0.2796    
## Africa - Americas == 0    87.17      21.76   4.005   <0.001 ***
## Africa - Asia == 0        46.12      20.50   2.249   0.1166    
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## (Adjusted p values reported -- single-step method)
## 
## 
##   Simultaneous Confidence Intervals
## 
## Multiple Comparisons of Means: Tukey Contrasts
## 
## 
## Fit: aov(formula = infant ~ region, data = Leinhardt)
## 
## Quantile = 2.611
## 95% family-wise confidence level
##  
## 
## Linear Hypotheses:
##                        Estimate lwr      upr     
## Americas - Europe == 0  35.8672 -30.1415 101.8758
## Asia - Europe == 0      76.9148  13.7163 140.1133
## Africa - Europe == 0   123.0356  62.4953 183.5759
## Asia - Americas == 0    41.0476 -18.6041 100.6994
## Africa - Americas == 0  87.1684  30.3405 143.9964
## Africa - Asia == 0      46.1208  -7.4172  99.6588
## 
##   Europe Americas     Asia   Africa 
##      "a"     "ab"     "bc"      "c"

oneway.test(infant ~ region, data=Leinhardt) # Welch test
## 
##  One-way analysis of means (not assuming equal variances)
## 
## data:  infant and region
## F = 58.705, num df = 3.000, denom df = 47.931, p-value = 4.456e-16

Effektstärke berechnen:

library(lsr)
etaSquared(AnovaModel.1)
##           eta.sq eta.sq.part
## region 0.2556136   0.2556136

Die einfaktorielle Varianzanalyse mit dem Faktor “Weltregion” ist signifikant, \(F(3,97)~= 11.1\), \(p~< .001\), \(\eta^2~= 0.26\). Die Hypothese, dass sich die Raten in verschiedenen Weltregionen unterscheiden, wird angenommen. Die post-hoc-Tets zeigen, dass Afrika und Asien sich von Europa und Amerika unterscheiden.