1 Szenario

Ein große Modelagentur interessiert sich für die möglichen Faktoren, die das Einkommen von Supermodels vorhersagen. Es wurden 231 Supermodels nach ihrem Jahreseinkommen (in Mio Dollar) gefragt. Die erhobenen Prädiktoren sind Alter (in Jahren; “age” im Datensatz), die Berufsjahre (in Jahren; “years” im Datensatz) und die “Schönheit” (erfasst durch eine Umfrage; “beauty” im Datensatz).

Da man sich in der Modelagentur nicht sehr oft mit Statistik befasst, ist unklar, ob diese Maße geeignet sind, um das Einkommen von Supermodels gut zu erfassen.

Man geht davon aus, dass die Prädiktoren “Age” und “Schönheit” positiv mit dem Kriterium “Einkommen” zusammenhängen. Der Prädiktor “years” (also die Berufsjahre) sollten dagegen negativ mit dem Kriterium zusammenhängen.

2 Aufgaben

Die Daten befinden sich in der Datei “Daten_Supermodels.csv”

  1. Stellen Sie für die drei Hypothesen statistische Hypothesenpaare auf. Beziehen Sie dabei die Hypothesen auf die Regressionskoeffizienten.
  2. Berechnen Sie eine multiple Regressionsanalyse. Interpretieren Sie das Ergebnis.
  3. Berechnen Sie die vorhergesagten Werte, die Residuen, standardisierten und studentisierten Residuen. Fügen Sie diese der Datenmatrix hinzu.
  4. Prüfen Sie ob die folgenden Annahmen erfüllt sind:
  • Linearität der Zusammenhänge
  • Normalverteilung der Residuen
  • Homoskedastizität
  • keine Multikollinearität.

Interpretieren Sie das Ergebnis ihrer Analysen.

  1. Was bedeutet das Ergebnis der Prüfung der Annahmen für die Analyse der Daten?
# R-Commander laden

library(Rcmdr)
#library(RcmdrMisc)
library(lmtest)

3 Analyse

3.1 Daten importieren und erste Zeilen anzeigen

Daten <- read.delim("Daten_Supermodels.csv")


head(Daten, 10) # dieser Code zeigt euch die ersten (deshalb "head") 10 Zeilen des Datensatzes.
##         salary      age    years   beauty
## 1   0.37039711 16.66699 3.148455 78.25149
## 2  53.72478935 20.34707 5.506886 68.56999
## 3   1.46015912 18.20307 5.330748 75.04376
## 4   0.02433401 15.35626 3.840088 65.14253
## 5  95.33807011 24.17183 8.532050 71.77039
## 6  14.63547789 18.26022 4.393158 78.05224
## 7   8.67333220 17.69861 4.396633 72.06817
## 8   2.64927429 17.48589 4.110735 75.32745
## 9   7.54732264 17.06954 3.515077 72.03374
## 10  1.20251467 20.07689 6.828727 71.93139

Wundern Sie sich nicht, dass die Werte so viele Nachkommastellen haben (da hatte wohl jemand ein sehr sehr genaues Messinstrument).

Ab hier können Sie jetzt das Script erweitern und selbständig weiterrechnen.