Mathematik

Formelverknüpfung für die Summe der Quadrate

Die Berechnung einer Stichprobenvarianz oder Standardabweichung wird typischerweise als Bruch angegeben. Der Zähler dieser Fraktion beinhaltet eine Summe der quadratischen Abweichungen vom Mittelwert. In der Statistik lautet die Formel für diese Gesamtsumme der Quadrate

Σ (x i – x̄) 2

Hier bezieht sich das Symbol x̄ auf den Stichprobenmittelwert, und das Symbol Σ sagt uns, dass wir die quadratischen Differenzen (x i – x̄) für alle i addieren sollen .

Während diese Formel für Berechnungen funktioniert, gibt es eine äquivalente Verknüpfungsformel, bei der wir nicht zuerst den Stichprobenmittelwert berechnen müssen . Diese Abkürzungsformel für die Summe der Quadrate lautet

Σ (x i 2 ) – (Σ x i ) 2 / n

Hier bezieht sich die Variable n auf die Anzahl der Datenpunkte in unserer Stichprobe.

 

Beispiel für eine Standardformel

Um zu sehen, wie diese Verknüpfungsformel funktioniert, betrachten wir ein Beispiel, das mit beiden Formeln berechnet wird. Angenommen, unsere Stichprobe ist 2, 4, 6, 8. Der Stichprobenmittelwert ist (2 + 4 + 6 + 8) / 4=20/4=5. Nun berechnen wir die Differenz jedes Datenpunkts mit dem Mittelwert 5.

  • 2 – 5=-3
  • 4 – 5=-1
  • 6 – 5=1
  • 8 – 5=3

Wir quadrieren nun jede dieser Zahlen und addieren sie. (-3) 2 + (-1) 2 + 1 2 + 3 2=9 + 1 + 1 + 9=20.

 

Beispiel für eine Abkürzungsformel

Jetzt verwenden wir denselben Datensatz: 2, 4, 6, 8 mit der Verknüpfungsformel, um die Summe der Quadrate zu bestimmen. Wir quadrieren zuerst jeden Datenpunkt und addieren sie: 2 2 + 4 2 + 6 2 + 8 2=4 + 16 + 36 + 64=120.

Der nächste Schritt besteht darin, alle Daten zu addieren und diese Summe zu quadrieren: (2 + 4 + 6 + 8) 2=400. Wir dividieren dies durch die Anzahl der Datenpunkte, um 400/4=100 zu erhalten.

Wir subtrahieren nun diese Zahl von 120. Dies ergibt, dass die Summe der quadratischen Abweichungen 20 ist. Dies war genau die Zahl, die wir bereits aus der anderen Formel gefunden haben.

 

Wie funktioniert das?

Viele Leute akzeptieren die Formel nur zum Nennwert und haben keine Ahnung, warum diese Formel funktioniert. Mit ein wenig Algebra können wir sehen, warum diese Verknüpfungsformel der herkömmlichen Standardmethode zur Berechnung der Summe der quadratischen Abweichungen entspricht.

Obwohl es in einem realen Datensatz Hunderte, wenn nicht Tausende von Werten geben kann, gehen wir davon aus, dass es nur drei Datenwerte gibt: x 1 , x 2 , x 3 . Was wir hier sehen, könnte auf einen Datensatz erweitert werden, der Tausende von Punkten enthält.

Wir beginnen mit der Feststellung, dass (x 1 + x 2 + x 3 )=3 x̄. Der Ausdruck Σ (x i – x̄) 2=(x 1 – x̄) 2 + (x 2 – x̄) 2 + (x 3 – x̄) 2 .

Wir verwenden nun die Tatsache aus der Grundalgebra, dass (a + b) 2=a 2 + 2ab + b 2 . Dies bedeutet, dass (x 1 – x̄) 2=x 1 2 – 2x 1 x̄ + x̄ 2 . Wir tun dies für die beiden anderen Begriffe unserer Summierung und haben:

x 1 2 -2x 1 x̄ + x̄ 2 + x 2 2 -2x 2 x̄ + x̄ 2 + x 3 2 -2x 3 x̄ + x̄ 2 .

Wir ordnen dies neu und haben:

x 1 2 + x 2 2 + x 3 2 + 3x̄ 2 – 2x̄ (x 1 + x 2 + x 3 ).

Durch Umschreiben (x 1 + x 2 + x 3 )=3x̄ wird das Obige:

x 1 2 + x 2 2 + x 3 2 – 3x̄ 2 .

Da nun 3X 2=(x 1 + x 2 + x 3 ) 2 /3 unsere Formel wird:

x 1 2 + x 2 2 + x 3 2 – (x 1 + x 2 + x 3 ) 2 /3

Und dies ist ein Sonderfall der oben erwähnten allgemeinen Formel:

Σ (x i 2 ) – (Σ x i ) 2 / n

 

Ist es wirklich eine Abkürzung?

Es scheint nicht so, als wäre diese Formel wirklich eine Abkürzung. Im obigen Beispiel scheint es schließlich genauso viele Berechnungen zu geben. Ein Teil davon hat damit zu tun, dass wir uns nur eine kleine Stichprobengröße angesehen haben.

Wenn wir die Größe unserer Stichprobe erhöhen, sehen wir, dass die Verknüpfungsformel die Anzahl der Berechnungen um etwa die Hälfte reduziert. Wir müssen nicht den Mittelwert von jedem Datenpunkt subtrahieren und dann das Ergebnis quadrieren. Dies reduziert die Gesamtzahl der Operationen erheblich.

Similar Posts

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert.