Mathematik

Was ist Korrelation in der Statistik?

Manchmal kommen numerische Daten paarweise vor. Vielleicht misst ein Paläontologe die Länge des Femurs (Beinknochen) und des Humerus (Armknochen) in fünf Fossilien derselben Dinosaurierart. Es kann sinnvoll sein, die Armlängen getrennt von den Beinlängen zu betrachten und Dinge wie den Mittelwert oder die Standardabweichung zu berechnen. Was aber, wenn der Forscher neugierig ist, ob es einen Zusammenhang zwischen diesen beiden Messungen gibt? Es reicht nicht aus, nur die Arme getrennt von den Beinen zu betrachten. Stattdessen sollte der Paläontologe die Knochenlängen für jedes Skelett koppeln und einen statistischen Bereich verwenden, der als Korrelation bezeichnet wird.

Was ist Korrelation? Im obigen Beispiel wird angenommen, dass der Forscher die Daten untersucht und das nicht sehr überraschende Ergebnis erzielt hat, dass Dinosaurierfossilien mit längeren Armen auch längere Beine und Fossilien mit kürzeren Armen kürzere Beine hatten. Ein Streudiagramm der Daten zeigte, dass die Datenpunkte alle in der Nähe einer geraden Linie gruppiert waren. Der Forscher würde dann sagen, dass es eine starke geradlinige Beziehung oder Korrelation zwischen den Längen der Arm- und Beinknochen der Fossilien gibt. Es erfordert etwas mehr Arbeit, um zu sagen, wie stark die Korrelation ist.

 

Korrelation und Streudiagramme

Da jeder Datenpunkt zwei Zahlen darstellt, ist ein zweidimensionales Streudiagramm eine große Hilfe bei der Visualisierung der Daten. Angenommen, wir haben tatsächlich die Dinosaurierdaten in der Hand und die fünf Fossilien haben die folgenden Maße:

  1. Femur 50 cm, Humerus 41 cm
  2. Femur 57 cm, Humerus 61 cm
  3. Femur 61 cm, Humerus 71 cm
  4. Femur 66 cm, Humerus 70 cm
  5. Femur 75 cm, Humerus 82 cm

Ein Streudiagramm der Daten mit Femurmessung in horizontaler Richtung und Humerusmessung in vertikaler Richtung ergibt das obige Diagramm. Jeder Punkt repräsentiert die Messungen eines der Skelette. Zum Beispiel entspricht der Punkt unten links dem Skelett Nr. 1. Der Punkt oben rechts ist Skelett Nr. 5.

Es sieht sicherlich so aus, als könnten wir eine gerade Linie zeichnen, die allen Punkten sehr nahe kommt. Aber wie können wir sicher sagen? Nähe liegt im Auge des Betrachters. Woher wissen wir, dass unsere Definitionen von „Nähe“ mit denen anderer übereinstimmen? Gibt es eine Möglichkeit, diese Nähe zu quantifizieren?

 

Korrelationskoeffizient

Um objektiv zu messen, wie nahe die Daten an einer geraden Linie liegen, hilft der Korrelationskoeffizient. Der Korrelationskoeffizient. der typischerweise mit r bezeichnet wird , ist eine reelle Zahl zwischen -1 und 1. Der Wert von r misst die Stärke einer Korrelation basierend auf einer Formel, wodurch jegliche Subjektivität in dem Prozess eliminiert wird. Bei der Interpretation des Werts von r sind verschiedene Richtlinien zu beachten .

  • Wenn r=0 ist, sind die Punkte ein vollständiges Durcheinander ohne absolut geradlinige Beziehung zwischen den Daten.
  • Wenn r=-1 oder r=1 ist, sind alle Datenpunkte perfekt auf einer Linie ausgerichtet.
  • Wenn r ein anderer Wert als diese Extreme ist, ist das Ergebnis eine nicht perfekte Anpassung einer geraden Linie. In realen Datensätzen ist dies das häufigste Ergebnis.
  • Wenn r positiv ist, steigt die Linie mit einer positiven Steigung an. Wenn r negativ ist, geht die Linie mit negativer Steigung nach unten.

 

Die Berechnung des Korrelationskoeffizienten

Die Formel für den Korrelationskoeffizienten r ist kompliziert, wie hier zu sehen ist. Die Bestandteile der Formel sind die Mittelwerte und Standardabweichungen beider numerischer Datensätze sowie die Anzahl der Datenpunkte. Für die meisten praktischen Anwendungen ist es mühsam, r von Hand zu berechnen. Wenn unsere Daten mit statistischen Befehlen in einen Taschenrechner oder ein Tabellenkalkulationsprogramm eingegeben wurden , gibt es normalerweise eine integrierte Funktion zur Berechnung von r .

 

Einschränkungen der Korrelation

Obwohl Korrelation ein leistungsfähiges Werkzeug ist, gibt es einige Einschränkungen bei der Verwendung:

  • Die Korrelation sagt nicht alles über die Daten aus. Mittelwerte und Standardabweichungen sind weiterhin wichtig.
  • Die Daten können durch eine Kurve beschrieben werden, die komplizierter als eine gerade Linie ist, dies wird jedoch bei der Berechnung von r nicht angezeigt .
  • Ausreißer beeinflussen den Korrelationskoeffizienten stark. Wenn wir in unseren Daten Ausreißer sehen, sollten wir vorsichtig sein, welche Schlussfolgerungen wir aus dem Wert von r ziehen.
  • Nur weil zwei Datensätze korreliert sind, bedeutet dies nicht, dass einer die Ursache des anderen ist.

Similar Posts

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert.