Übersicht

In dieser Sitzung beginnen wir mit dem Thema Multiple Regressionsanalyse. Den theoretischen Hintergrund (zumindest den Anfang) dazu haben Sie in der Vorlesung bereits kennengelernt.

Das heutige Beispiel ist eine fiktive Untersuchung, in der eine Forschungsgruppe pädagogischer Psycholog_innen der Frage nachgehen, welche Faktoren die Prüfungsleistung von Studierenden vorhersagen können. Die Forschergruppe hat dazu eine zufällig ausgewählte Stichprobe von 103 Studierenden der Psychologie gezogen und für jede Versuchsperson die folgenden drei Merkmale gemessen:

Prüfungsangst (mittels Fragebogen)
Lernzeit (Stunden, die eine Person zur Prüfungsvorbereitung genutzt hat)
Geschlecht

Als Kriterium wurde anschließend die Testleistung (erreichte Punkte) in der Klausur Quantitative Methoden II gemessen.

Der zum Beispiel gehörenden Datensatz heißt “04a_PruefungsleistungDaten.csv”.

Die Annahme der Forschungsgruppe lautet: Die Prüfungsleistung lässt sich durch eine Kombination der drei oben genannten Prädiktorvariablen vorhersagen. Die zwei Prädiktoren, die dabei die Prüfungsleistung wirklich vorhersagen sind Prüfungsangst und Lernzeit. Geschlecht sollte dagegen kaum eine Vorhersagekraft haben.

Aufgaben/ Ziele für heute

Stellen Sie für die drei Hypothesen statistische Hypothesenpaare in Bezug auf die Regressionskoeffizienten auf.
Berechnen Sie eine multiple Regressionsanalyse und standardisieren Sie die Regressionskoeffizienten. Interpretieren Sie das Ergebnis im Hinblick auf die Hypothesen.
Bestimmen Sie, ob das Modell eine statistisch signifikante Vorhersage der Kriteriumsvariablen erlaubt.
Berechnen Sie die Effekt- und Teststärke für das Modell.

Erweiterte Aufgaben zur Prüfungsvorbereitung (für später, bisher noch nicht behandelt):

Prüfen Sie – wie in der Formelsammlung beschrieben – ob die Voraussetzungen für eine Regressionsanalyse auf Basis des Allgemeinen linearen Modells erfüllt sind (Normalverteilung AV, Homoskedastizität, keine Multikollinearität, keine verzerrenden Ausreißer).

Form des Modells und statistische Hypothesen

Wie bereits oben beschrieben, soll die Prüfungsleistung von Studierenden anhand der drei Prädiktoren Lernzeit, Prüfungsangst und Geschlecht vorhergesagt werden.

Die statistische Annahme ist, dass sich das Kriterium Prüfungsleistung als Linearkombination der Prädiktoren vorhersagen lässt. (Wie gut die Vorhersagbarkeit ist, wird sich zeigen.)

Allgemeint lässt sich die Annahme mathematisch wie folgt ausdrücken:

\(y = \beta_0 + \beta_1 * x_1 + \beta_2 * x_2 + \beta_3 * x_3 + e\)

wobei \(y\) das Kriterium ist, \(x_i\) die jeweiligen Prädiktoren und \(\beta\) die jeweiligen Gewichte der Prädiktoren. Der letzte Term, \(e\), beschreibt den Mess- bzw. Vorhersagefehler.

Man könnte also die Idee hinter der fiktiven Studie auch so beschreiben:

Prüfungsleistung = \(\beta_0 + \beta_1 * Lernzeit + \beta_2 * Pruefungsangst + \beta_3 * Geschlecht + e\)

Statistische Hypothesen über die drei erfassten Prädiktoren: H1,1: beta1 > 0, H0,1: beta1 <= 0 H1,2: beta2 < 0, H0,2: beta2 >= 0 H0,3: beta3 = 0, H1,3 = beta3 =/= 0

Datenanalyse

Als erstes müssen wir natürlich wieder die Daten einlesen:

(Dieser Befehl funktioniert nur, wenn das working directory korrekt gesetzt ist)

PruefungsDaten <- read.csv("PruefungsleistungDaten.csv", sep=";")

Als nächstes aktivieren wir den R-Commander und wählen dann im R-Commander die bereits über obigen Code eingelesenen Daten als aktive Datenmatrix aus.

library(Rcmdr)

Grafische Übersicht – Streudiagramm

Wie immer beginnen wir mit einer grafischen Analyse der Daten. Dazu erstellen wir eine Streudiagramm-Matrix (Scatterplot-Matrix), in der die Zusammenhänge der drei Prädiktoren mit dem Kriterium in einer Abbildung zusammengefasst werden. Eine Streudiagramm-Matrix erlaubt es uns, die folgenden Dinge optisch zu prüfen:

Ist das Kriterium (die AV) grob normalverteilt? (Die Annahme der Regression ist streng genommen, dass die Residuen nach Modellanpassung normalverteilt sein sollen, nicht die AV an sich. Aber wenn die Verteilung der AV bereits optisch grob von der Normalverteilung abweicht, ist das ein Hinweis darauf, dass diese Annahme später verletzt sein könnte.)
Scheinen lineare Zusammenhaenge zwischen Prädiktoren und AV zu bestehen?
Gehen die Zusammenhaenge in Richtung der aufgestellten Hypothesen?
Wie hängen die Prädiktoren untereinander zusammen? (Das wird in den kommenden Wochen noch wichtig, weil eine weitere Annahme der Regression ist, dass sie möglichst nicht zusammenhängen sollten, jedenfalls nicht zu stark.)

Ziel: Streudiagramm-Matrix erstellen

Vorgehen: R-Commander –> Grafiken –> Streudiagramm Matrix –> All vier Variablen markieren –> Optionen: Kleinst-Quadrat-Linie auswählen –> ok.

Hier auch der entsprechende Code:

scatterplotMatrix(~X1_Lernzeit+X2_Pruefungsangst+X3_Gender_num+Y_Pruefungsleistung,
   regLine=TRUE, smooth=list(span=0.5, spread=FALSE), 
  diagonal=list(method="density"), data=PruefungsDaten)

Auf der Diagonalen sehen Sie Dichteplots, das sind Histogramme für kontinuierliche Variablen. Die Streudiagramm-Matrix zeigt deshalb nicht nur die Zusammenhänge der Variablen, sondern auch die Verteilung jeder Variablen. Unser Kriterium (Prüfungsleistung) ist nicht perfekt normalverteilt, aber immerhin eingipflig und nicht krass asymmetrisch. (Mehr zur Prüfung der dahinterstehenden Annahme, der späteren Normalverteilung der Residuen, in den kommenden Wochen.)

Generelle Heuristik zur Interpretation der Streudiagrammmatrix: In der Zeile, in der der “Kasten”" einer Variable abgedruckt ist, ist diese Variable auf der y-Achse. Diese Zeile kann also verwendet werden, um zu schauen, wie diese Variable mit allen anderen zusammenhängt.

Die erste Zeile zeigt den Zusammenhang von Lernzeit mit allen anderen Variablen.

Die zweite Zeile zeigt den Zusammenhang von Prüfungsangst mit allen anderen Variablen.

Die dritte Zeile zeigt den Zusammenhang von Geschlecht mit allen anderen Variablen.

Die vierte Zeile zeigt den Zusammenhang von Prüfungsleistung mit allen anderen Variablen.

Da wir uns für den Zusammenhang zwischen Prüfungsleistung und den anderen drei Variablen interessieren, reicht es, wenn man in die dritte Zeile dieser Matrix schaut.

Schauen Sie sich die Streudiagramme in der letzten Zeile der Matrix genauer an. Sehen die Zusammenhänge so aus, wie von der Forscher_innengruppe erwartet?

Regressionsmodell definieren und Ergebnisse anzeigen lassen

Als nächstes passen wir ein multiples Regressionsmodell an, um die Daten statistisch zu analysieren und um über die statistichen Hypothesen zu entscheiden.

Ziel: Multiples Regressionsmodell anpassen und interpretieren

Vorgehen: R-Commander –> Modell anpassen –> Lineare Regression –> Abhängige Variable (Prüfungsleistung) und Prädiktoren auswählen (alle drei markieren); man kann auch, wenn man möchte, den Namen des Modells spezifizieren. Wir belassen es bei “RegModel.1”. –> ok.

Hier auch der Code:

RegModel.1 <- lm(Y_Pruefungsleistung~X1_Lernzeit+X2_Pruefungsangst+X3_Gender_num, data=PruefungsDaten) # Dieser Teil des Codes erstellt das Regressionsmodell 

summary(RegModel.1) # dieser Teil, der "summary Befehl" gibt das Ergebnis aus.

## 
## Call:
## lm(formula = Y_Pruefungsleistung ~ X1_Lernzeit + X2_Pruefungsangst + 
##     X3_Gender_num, data = PruefungsDaten)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -46.632 -16.960  -0.619  21.653  40.088 
## 
## Coefficients:
##                   Estimate Std. Error t value Pr(>|t|)    
## (Intercept)        87.9867    17.1423   5.133 1.43e-06 ***
## X1_Lernzeit         0.2461     0.1824   1.349   0.1803    
## X2_Pruefungsangst  -0.4814     0.1921  -2.506   0.0138 *  
## X3_Gender_num      -1.0396     4.6478  -0.224   0.8235    
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 23.42 on 99 degrees of freedom
## Multiple R-squared:  0.2091, Adjusted R-squared:  0.1851 
## F-statistic: 8.722 on 3 and 99 DF,  p-value: 3.442e-05

Was sehen wir in diesem Output und was bedeutet das alles? Wir beginnen mit dem Ende des Outputs und arbeiten uns nach oben:

Die wichtigsten Dinge sind:

F-Statistic: Dieser Teil des Outputs zeigt das Ergebnis eines F-Tests (s. Vorlesung). Dieser F-Test beantwortet die folgende Frage: Wie sehr verbessert das Modell die Vorhersage des Kriteriums (Pruefungsleistung) im Verhaeltnis zum Fehler des Modells? (Der Fehler des Modells ist der Anteil an der Prüfungsleistung, der durch das Modell nicht vorhergesagt werden kann.) Wenn z.B. ein F-Wert von 1.0 resultiert wäre, hätte das Modell zu keiner Verbesserung der Vorhersage geführt.

Berechnung: Mittlere Quadratsumme Modell / Mittlere Quadratsumme Residuen (siehe VL oder Andy Field, Kapitel 7) Wenn das Modell die Daten gut beschreibt, sollte die mittlere Quadratsumme des Modells hoch sein (entspricht: Verbesserung der Vorhersage durch Anpassen der Regressionslinie im Vergleich zum Nullmodell; Das Nullmodell entspricht schlicht dem Mittelwert der AV) und die mittlere Quadratsumme der Residuen gering (entspricht: Abweichung der durch das Modell vorhergesagten Werte von den tatsaechlich beobachteten Werten). Wenn dies beides der Fall ist, wird der F-Wert groß und der Test somit eher signifikant.

(Adjusted) R-Squared: Dieses Maß beschreibt den Anteil der Gesamtvarianz im Kriterium (Gesamtvarianz in Prüfungsleistung), die durch das angepasste Regressionsmodell erklaert werden kann.

Berechnung: Modell-Quadratsumme / Totale Quadratsumme Adjusted R-Squared (im Vgl. zu R-squared) korrigiert für die Anzahl der Prädiktoren (wird kleiner, wenn mehr Prädiktoren). Die Idee dahinter ist folgende: Durch das Hinzunehmen von Prädiktoren wird die Modellvorhersage immer besser. Die Zunahme der Verbesserung wird aber immer geringer, je mehr Prädiktoren man ergänzt. D.h., irgendwann bringt das Hinzunehmen eines weiteren Prädiktors kaum noch eine Verbesserung. Man sollte versuchen, das Modell zu finden, dass mit einer Mindestanzahl von Prädiktoren ein Maximum des Kriteriums erklären kann. (Adjusted) R-Squared fügt sozusagen eine “Bestrafungskorrektur” für das Hinzufügen “zu vieler” Prädiktoren ein.

Residual standard error: Wurzel aus der Mittleren Quadratsumme der Residuen. Schätzer dafuer, wie “schlecht” das Modell für einen typischen Fall ist.

Oberer Teil des Outputs (Coefficients Tabelle):

Coefficients: das sind die einzelnen Teile/ Parameter der Regressionsgleichung. “Estimate” listet die Schätzwerte für die Regressionsgleichungsparameter.

Intercept: Wert der AV/ des Kriteriums, wenn alle Prädiktoren = 0 wären. Hier: Lernzeit = 0, Angst-Score = 0, Gender = 0 (0 bei Geschlecht ist hier die Kategorie, die wir mit 0 kodiert haben. Das war in diesem Fall: männlich). Somit ist intercept hier die vorhergesagte Prüfungsleistung für eine männliche Versuchsperson, die 0 Stunden gelernt und gar keine Pruefungsangst hat (So eine Person gibt es gar nicht in dem Datensatz; es handelt sich hier um eine theoretische Überlegung. Der intercept ist in vielen Fällen daher nicht weiter interessant).

Estimates der Praediktoren: Geben an, wie gut jeder Praediktor für sich genommen das Kriterium (die AV) vorhersagt (unabhängig von den anderen Prädiktoren - also wenn man die anderen Prädikoren konstant halten würde).

Vorzeichen = Richtung des Zusammenhangs
Wert = Veränderung im Kriterium, wenn der Praediktor um eine Einheit steigt. Hier z.B.: Wenn man einen “Punkt” mehr Angst hat (im Angstfragebogen), dann sinkt die Prüfungsleistung um ungefähr 0.48 Punkte.

Std.Error: Standardfehler der Prädiktoren. Gibt also an, wie präzise man die wahre Ausprägung der Prädiktoren geschätzt hat (hohe Werte sind schlecht).

t Value: T-Tests auf Signifikanz der einzelnen Prädiktoren. Berechnung: Prädiktor-Schätzwert geteilt durch seinen Standardfehler.

Wichtig: Werte der Prädiktoren hängen von der Skala ab, in der sie gemessen wurden. Daher sind die Werte der verschiedenen Prädiktoren nicht direkt vergleichbar.

Hier noch eine grafische Veranschaulichung von R-Quadrat und F:

Abb. 1 Illustration von R-Quadrat und F.

Entscheidung über die Hypothesen

Der Output zeigt, dass die Prüfungsangst, wie vermutet, ein negativer Prädiktor für die Leistung ist (p < .05). Das Geschlecht sagt die Prüfungsleistung nicht vorher, wie vermutet (p = .82). Entgegen der Vorhersage war die Lernzeit kein signifikanter Prädiktor für Prüfungsleistung (p = .18). Ein kleiner Effekt von Lernzeit könnte aber evtl. mit höherer statistischer Power in einer Folgestudie nachgewiesen werden. Der F-Test für das Gesamtmodell war signifikant, was bedeutet, dass das angepasste Modell insgesamt eine bessere Vorhersage als das Nullmodell erlaubt.

Regressionskoeffizienten standardisieren

Wir haben eben angemerkt, dass die einzelnen Prädiktorwerte nicht direkt miteinander vergleichbar sind, weil jeder Prädiktor in seiner eigenen Einheit vorliegt. Dieses Problem kann man lösen (Sie ahnen es sicherlich schon), indem man die einzelnen Prädiktoren standardisiert. Das funktioniert leider nicht mit dem R-Commander. Wir brauchen dazu die “lm.beta()” Funktion aus dem “QuantPsyc” Paket.

Ziel: Standardisierung der ermittelten Regressionskoeffizienten

Vorgehen: Via R-Code.

Achtung: Sie müssen das “QuantPsyc” Paket ggf. installieren.

# install.packages("QuantPsyc", dependencies = TRUE) Sie müssen mit dieser Code-Zeile das Paket ggf. installieren 

library(QuantPsyc) # lädt das Paket

lm.beta(RegModel.1) # Funktion zur Standardisierung der Regressionskoeffizienten. In Klammern muss einfach der Name des Regressionsmodell eingetragen werden. in unserem Fall ist das "RegModel.1".

##       X1_Lernzeit X2_Pruefungsangst     X3_Gender_num 
##        0.17230813       -0.31883164       -0.02013497

Das Ergebnis sind z-standardisierte Werte für die Veränderungen im Kriterium für für drei Regressionskoeffizienten. Man nennt die standardisierten Regressionskoeffizienten auch \(\beta\)-Gewichte.

Effektstärken für das Regressionsmodell

Zuletzt wollen wir noch Effektstärken berechnen. Zwei mögliche Effektstärken sind:

R-squared (siehe Output der Regressionanalyse)
Cohen’s f² (für Testplanung und Teststärkeberechnung in G-Power relevant).

Cohen’s f² aus R-squared berechnen und anzeigen lassen kann man so:

Cohensf_Reg.Model1 <- 0.2091/(1-0.2091) # Generiert ein Objekt "Cohensf_Reg.Model1" dessen Inhalt das Ergebnis des Bruchs rechts neben dem Pfeil ist. 

Cohensf_Reg.Model1 # Zeigt den Inhalt des Objekts an und somit das Ergebnis

## [1] 0.2643823

Konventionen: kleiner Effekt ab 0.02, mittlerer Effekt ab 0.15, großer Effekt ab 0.35. Hier liegt also ein mittlerer Effekt vor. Die Effektstärke bezieht sich auf das Gesamtmodell, nicht auf einzelne Prädiktoren.

Teststärke für das Gesamtmodell

Wie hoch ist die Teststärke? Dazu benutzen wir das Programm G-Power, das Sie schon aus Quanti-I kennen.

Ziel: Teststärke für das Gesamtmodell mit G-Power berechnen

Vorgehen: G-Power öffnen (das Programm können Sie runterladen unter: https://www.psychologie.hhu.de/arbeitsgruppen/allgemeine-psychologie-und-arbeitspsychologie/gpower.html) –> F-Tests –> Linear multiple regression: Fixed model, R² deviation from zero –> dann Effekt-Size (0.2643823) eintragen, Total Sample Size angeben (103) und Anzahl der Prädiktoren eingeben (3).

Abbildung 1 zeigt einen Screenshot des Ergebnisses:

Abb. 1 Ergebnis Post-hoc Teststärkenanalyse

Die Teststärke beträgt \(1-\beta = 0.995\).

04a Multiple Regression 01: Beispiel Prüfungsleistung

Neele Engelmann, Sharky Engelmann, Simon Stephan, Einstein Stephan