Mathematik

Statistik und Analyse der linearen Regression

Statistik und Analyse der linearen Regression

Die lineare Regression ist eine statistische Technik, mit der mehr über die Beziehung zwischen einer unabhängigen (Prädiktor-) Variablen und einer abhängigen (Kriterium-) Variablen erfahren wird. Wenn Ihre Analyse mehr als eine unabhängige Variable enthält, wird dies als multiple lineare Regression bezeichnet. Im Allgemeinen ermöglicht die Regression dem Forscher, die allgemeine Frage zu stellen: „Was ist der beste Prädiktor für …?“

Nehmen wir zum Beispiel an, wir haben die Ursachen von Fettleibigkeit untersucht. gemessen am Body Mass Index (BMI). Insbesondere wollten wir herausfinden, ob die folgenden Variablen signifikante Prädiktoren für den BMI einer Person sind: Anzahl der pro Woche verzehrten Fast-Food-Mahlzeiten, Anzahl der Stunden Fernsehen pro Woche, Anzahl der Minuten, die pro Woche trainiert werden, und BMI der Eltern . Die lineare Regression wäre eine gute Methode für diese Analyse.

 

Die Regressionsgleichung

Wenn Sie eine Regressionsanalyse mit einer unabhängigen Variablen durchführen, lautet die Regressionsgleichung Y=a + b * X, wobei Y die abhängige Variable ist, X die unabhängige Variable ist, a die Konstante (oder der Achsenabschnitt) ist und b die Steigung ist der Regressionsgeraden. Nehmen wir zum Beispiel an, dass GPA am besten durch die Regressionsgleichung 1 + 0,02 * IQ vorhergesagt wird. Wenn ein Schüler einen IQ von 130 hätte, wäre sein GPA 3,6 (1 + 0,02 * 130=3,6).

Wenn Sie eine Regressionsanalyse durchführen, in der Sie mehr als eine unabhängige Variable haben, lautet die Regressionsgleichung Y=a + b1 * X1 + b2 * X2 +… + bp * Xp. Wenn wir beispielsweise mehr Variablen in unsere GPA-Analyse einbeziehen möchten, wie z. B. Motivations- und Selbstdisziplinierungsmaße, würden wir diese Gleichung verwenden.

 

R Quadrat

Das R-Quadrat, auch als Bestimmungskoeffizient bekannt. ist eine häufig verwendete Statistik zur Bewertung der Modellanpassung einer Regressionsgleichung. Das heißt, wie gut können alle Ihre unabhängigen Variablen Ihre abhängige Variable vorhersagen? Der Wert des R-Quadrats reicht von 0,0 bis 1,0 und kann mit 100 multipliziert werden, um einen erklärten Prozentsatz der Varianz zu erhalten . Zurück zum Beispiel zu unserer GPA-Regressionsgleichung mit nur einer unabhängigen Variablen (IQ)… Nehmen wir an, unser R-Quadrat für die Gleichung war 0,4. Wir könnten dies so interpretieren, dass 40% der Varianz der GPA durch den IQ erklärt werden. Wenn wir dann unsere beiden anderen Variablen (Motivation und Selbstdisziplin) addieren und das R-Quadrat auf 0,6 ansteigt, bedeutet dies, dass IQ, Motivation und Selbstdisziplin zusammen 60% der Varianz der GPA-Scores erklären.

Regressionsanalysen werden normalerweise mit statistischer Software wie SPSS oder SAS durchgeführt, sodass das R-Quadrat für Sie berechnet wird.

 

Interpretation der Regressionskoeffizienten (b)

Die b-Koeffizienten aus den obigen Gleichungen repräsentieren die Stärke und Richtung der Beziehung zwischen den unabhängigen und abhängigen Variablen. Wenn wir uns die GPA- und IQ-Gleichung ansehen, ist 1 + 0,02 * 130=3,6, 0,02 der Regressionskoeffizient für die Variable IQ. Dies zeigt uns, dass die Richtung der Beziehung positiv ist, so dass mit zunehmendem IQ auch der GPA zunimmt. Wenn die Gleichung 1 – 0,02 * 130=Y wäre, würde dies bedeuten, dass die Beziehung zwischen IQ und GPA negativ war.

 

Annahmen

Es gibt verschiedene Annahmen zu den Daten, die erfüllt sein müssen, um eine lineare Regressionsanalyse durchzuführen:

  • Linearität: Es wird angenommen, dass die Beziehung zwischen den unabhängigen und abhängigen Variablen linear ist. Obwohl diese Annahme niemals vollständig bestätigt werden kann, kann die Betrachtung eines Streudiagramms Ihrer Variablen dazu beitragen, diese Bestimmung vorzunehmen. Wenn eine Krümmung in der Beziehung vorhanden ist, können Sie die Variablen transformieren oder nichtlineare Komponenten explizit berücksichtigen.
  • Normalität: Es wird davon ausgegangen, dass die Residuen Ihrer Variablen normal verteilt sind. Das heißt, die Fehler bei der Vorhersage des Wertes von Y (der abhängigen Variablen) werden so verteilt, dass sie sich der Normalkurve nähern. Sie können Histogramme oder Diagramme mit normaler Wahrscheinlichkeit betrachten, um die Verteilung Ihrer Variablen und ihre Restwerte zu überprüfen.
  • Unabhängigkeit: Es wird angenommen, dass die Fehler bei der Vorhersage des Wertes von Y alle unabhängig voneinander sind (nicht korreliert).
  • Homoskedastizität: Es wird angenommen, dass die Varianz um die Regressionslinie für alle Werte der unabhängigen Variablen gleich ist.

 

Quelle

  • StatSoft: Lehrbuch für elektronische Statistik. (2011). http://www.statsoft.com/textbook/basic-statistics/#Crosstabulationb.

Similar Posts

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert.