Warum ist die Standardabweichung als Quadrat der Varianz und nicht als Quadrat der Quadratsumme über N definiert?

16

Heute unterrichtete ich eine Einführungsklasse für Statistik und ein Schüler kam auf mich zu und stellte mir die Frage, die ich hier umformuliere: "Warum wird die Standardabweichung als Abweichungsquadrat und nicht als Quadratsumme über N definiert?"

Wir definieren die Populationsvarianz:σ2=1N(xich-μ)2

Und Standardabweichung: .σ=σ2=1N(xich-μ)2

Die Interpretation, die wir zu geben können, ist, dass es die durchschnittliche Abweichung von Einheiten in der Bevölkerung vom Bevölkerungsmittel von .XσX

In der Definition von sd dividieren wir jedoch die Quadratsumme durch . Die Frage, die der Schüler stellt, ist, warum wir nicht stattdessen das Quadrat der Quadratsumme durch teilen . So kommen wir zur Konkurrenzformel:Der Student argumentierte, dass diese Formel eher wie eine "durchschnittliche" Abweichung vom Mittelwert aussieht als beim Dividieren durch wie in . Nσ n e w = 1NN

σnew=1N(xich-μ)2.
σNσ

Ich fand diese Frage nicht dumm. Ich möchte dem Studenten eine Antwort geben, die weiter geht als zu sagen, dass die SD als Quadrat der Varianz definiert ist, die die durchschnittliche quadratische Abweichung ist. Anders ausgedrückt, warum sollte die Schülerin die richtige Formel verwenden und nicht ihrer Idee folgen?

Diese Frage bezieht sich auf einen älteren Thread und die hier angegebenen Antworten . Die Antworten gehen in drei Richtungen:

  1. σ ist die Abweichung vom quadratischen Mittelwert (RMS), nicht die "typische" Abweichung vom Mittelwert (dh ). Somit ist es anders definiert.σnew
  2. Es hat schöne mathematische Eigenschaften.
  3. Darüber hinaus würde der sqrt "Einheiten" auf ihren ursprünglichen Maßstab zurückbringen. Dies wäre jedoch auch für der Fall , das stattdessen durch dividiert . NσnewN

Die beiden Punkte 1 und 2 sind Argumente zugunsten von sd als RMS, aber ich sehe kein Argument gegen die Verwendung von . Was wären die guten Argumente, um Einsteiger von der Verwendung des durchschnittlichen RMS-Abstands vom Mittelwert zu überzeugen ? σσnewσ

Tomka
quelle
2
Ich denke, die Frage "Warum ist die Standardabweichung definiert als ..." ist schwer zu beantworten. Definitionen sind nur willkürliche Kennzeichnungskonventionen. Sie müssen sich nicht an das Warum anpassen .
TTNPHNS
"Why is the standard deviation defined as sqrt of variance and not as average of [the root of] sum of squares?"Könnte es sein, dass was in Klammern steht irgendwie in der Frage verloren gegangen ist?
TTNPHNS
1
Aber SD dient einer Reihe von Zwecken; Es muss eine bessere Motivation geben als die, die so definiert ist. Dies wäre insbesondere für die Lehre von Studenten von Nutzen. Ich kann mir eine Motivation im Sinne von Chebyshevs Ungleichung vorstellen (min. Anteil der Fälle im Bereich +/- eines konstanten Faktors von sd).
Tomka
2
Ich kann nicht antworten, weil Ihr Q in der Warteschleife ist. Versuchen Sie Folgendes: Stellen Sie sich vor, Sie beobachten die Werte 1 und 3 in ungefähr gleichen Anteilen (werfen Sie eine Münze, , ). Ein "typischer Abstand" der Beobachtungen vom Mittelwert sollte etwa 1 mit Ihrer Formel, was mit diesem Maß für den typischen Abstand für sehr, sehr groß passiert . In jedem Fallwird in der Nähe von 1 sein, so dass ihre Summe der Quadrate in der Nähe von . Der Zähler wird nahe an , damit Ihre Formel kleiner werden würde und kleiner als erhöht, obwohl der typische Abstand vom Mittelwert nicht ändert. T = 1 H=3T=1n| xi- ˉ x | nSSE/nn|xich-x¯|n nnn
Glen_b -Reinstate Monica
1
@whuber Ich habe ein weiteres Update gemacht und hoffe, der Punkt, den ich mache, ist jetzt klarer. Hinweis: Ich bitte hier um Ratschläge für den Unterricht und stelle auch eine Frage zu Grundlagen der Statistik. Ich schlage keine alternative Formel vor, sondern gebe ein Beispiel aus einer Klassenzimmersituation einer guten Frage eines Schülers, auf die ich keine unmittelbare Antwort hatte. Wenn Sie damit einverstanden sind, bitte ich Sie, die Frage jetzt aus der Warteschleife zu nehmen.
Tomka

Antworten:

12

Es gibt mindestens drei grundlegende Probleme, die Anfängern leicht erklärt werden können:

  1. Die "neue" SD ist nicht einmal für unendliche Populationen definiert. (Man könnte es in solchen Fällen immer als Null deklarieren, aber das würde es nicht nützlicher machen.)

  2. Die neue SD verhält sich nicht so, wie es ein Durchschnitt unter Zufallsstichproben tun sollte.

  3. Obwohl die neue SD kann mit allen mathematischen Strenge verwendet werden , Abweichungen von einem Mittelwert zu beurteilen (in Proben und endlichen Populationen), wird seine Interpretation unnötig kompliziert.

1. Die Anwendbarkeit des neuen SD ist begrenzt

Punkt (1) könnte auch für diejenigen, die sich mit Integration nicht auskennen, deutlich gemacht werden, da die Varianz eindeutig ein arithmetisches Mittel (der quadratischen Abweichungen) ist und eine sinnvolle Erweiterung auf Modelle "unendlicher" Populationen darstellt, für die die Die Anschauung über die Existenz eines arithmetischen Mittels ist immer noch gültig. Daher ist seine Quadratwurzel - die übliche SD - auch in solchen Fällen perfekt definiert und in seiner Rolle ebenso nützlich wie eine (nichtlineare Reexpression von) einer Varianz. Die neue SD dividiert diesen Durchschnitt jedoch durch das willkürlich große , was ihre Verallgemeinerung über endliche Populationen und endliche Stichproben hinaus problematisch macht: Was sollte in solchen Fällen als gleich genommen werden? 1/N1/N

2. Die neue SD ist kein Durchschnitt

Jede Statistik, die den Namen "Durchschnitt" verdient, sollte die Eigenschaft haben, dass sie mit zunehmender Größe einer Zufallsstichprobe aus der Bevölkerung gegen den Bevölkerungswert konvergiert. Jedes feste Vielfache der SD hätte diese Eigenschaft, da der Multiplikator sowohl für die Berechnung der Stichproben-SD als auch der Populations-SD gilt. (Obwohl dies dem Argument von Alecos Papadopoulos nicht direkt widerspricht, deutet diese Beobachtung darauf hin, dass das Argument nur tangential zu den tatsächlichen Problemen ist.) Die "neue" SD ist jedoch offensichtlich gleich dem -fachen der üblichen Konvergiert unter allen Umständen gegen wenn die Stichprobengröße groß wird. Daher gilt zwar für jede feste Stichprobengröße 0NN1/N0NNDie neue SD (angemessen interpretiert) ist ein vollkommen angemessenes Maß für die Abweichung vom Mittelwert. Sie kann nicht zu Recht als universelles Maß angesehen werden, das bei gleicher Interpretation für alle Stichprobengrößen gilt, und sie kann in keinem Fall korrekt als "Durchschnitt" bezeichnet werden nützlicher Sinn.

3. Die neue SD ist kompliziert zu interpretieren und zu verwenden

Betrachten Sie die Entnahme von Proben der Größe . Die neue SD ist in diesen Fällen das fache der üblichen SD. Es verfügt daher über vergleichbare Interpretationen, wie zum Beispiel ein Analogon der 68-95-99-Regel (ungefähr 68% der Daten sollten innerhalb von zwei neuen SDs des Mittelwerts liegen, 95% von ihnen innerhalb von vier neuen SDs des Mittelwerts usw.) . und Versionen klassischer Ungleichungen wie die von Chebychev werden gelten (nicht mehr als der Daten können mehr als neue SDs vom Mittelwert entfernt sein), und der zentrale Grenzwertsatz kann in Bezug auf die neue SD analog angepasst werden (man dividiert durch1 / N=41/k22k1/N=1/21/k22kNmal die neue SD um die Variable zu standardisieren). In diesem spezifischen und eindeutig eingeschränkten Sinne ist der Vorschlag des Schülers also nicht falsch. Die Schwierigkeit besteht jedoch darin, dass alle diese Anweisungen - ganz explizit - Faktoren von . Obwohl dies kein inhärentes mathematisches Problem darstellt, erschwert es sicherlich die Aussagen und die Interpretation der grundlegendsten Gesetze der Statistik.N=2


Es ist anzumerken, dass Gauß und andere ursprünglich die Gauß-Verteilung durch parametrisierten und effektiv das -fache der SD verwendeten, um die Streuung einer normalen Zufallsvariablen zu quantifizieren. Diese historische Verwendung demonstriert die Angemessenheit und Wirksamkeit der Verwendung anderer fester Vielfacher des SD an dessen Stelle.2σ2

whuber
quelle
Vielen Dank - eine Frage zurück (in Bezug auf Punkt 2): Konvergiert nicht gegen da größer wird, während offensichtlich tut? 0N11N0N1N
Tomka
2
Wir vergleichen die SD des Samples mit dem -fachen der SD des Samples (der "neuen SD"). Wenn groß wird, nähert sich die SD der Stichprobe einer (normalerweise) Nicht-Null- Konstante , die der Populations-SD entspricht. Daher konvergiert mal die Abtast-SD gegen Null. N1/1/NN1/N
Whuber
Dies ist Standardmaterial - konsultieren Sie jedes strenge Lehrbuch in der mathematischen Statistik (das, um fair zu sein, für die meisten Anfänger nicht zugänglich wäre). Die für meine Antwort wichtigen Ergebnisse ergeben sich jedoch aus einer schwächeren und intuitiv verständlichen Aussage. Fixiere eine Zahl und lasse die Populations-SD sein. Betrachten Sie die Wahrscheinlichkeit, dass die Beispiel-SD zwischen und . Es reicht aus, dass diese Chance mit zunehmender Stichprobengröße auf Null geht . Dies allein zeigt, dass mal die Stichproben-SD fast sicher gegen konvergiert , was Punkt (2) in der Antwort demonstriert. σ σ / A A σ N 1 / A>1σσ/EINEINσN 01/N0
whuber
+1, plus es ist nicht skalierungsinvariant usw. (eine Bedingung für einen Moment dieser Form erforderlich)
Nikos M.
@Nikos Danke, aber was ist nicht skalinvariant? Sowohl als auch ändern sich, wenn die Daten neu skaliert werden. SDSD/NSD
Whuber
5

Angenommen, Ihre Stichprobe enthält nur zwei Realisierungen. Ich denke, ein intuitives Maß für die Streuung wäre die durchschnittliche absolute Abweichung (AAD).

EINEIND=12(|x1-x¯|+|x2-x¯|)=...=|x1-x2|2

Wir möchten also, dass andere Dispersionsmaße auf der gleichen Ebene der Maßeinheiten "nahe" an den obigen liegen.

Die Stichprobenvarianz ist definiert als

σ2=12[(x1-x¯)2+(x2-x¯)2]=12[(x1-x22)2+(x2-x12)2]

=12[(x1-x2)24+(x1-x2)24]=12(x1-x2)22

=12|x1-x2|22

q

q12|x1-x2|22=12|x1-x2|2=12EINEIND<EINEIND

dh wir hätten das "intuitive" Maß der Streuung "heruntergespielt", während wir, wenn wir die Standardabweichung wie definiert betrachtet hätten,

SDσ2=|x1-x2|2=EINEIND

SD


n

nEINEIND=ich=1n|xich-x¯|

und

nVar(X)=ich=1n(xich-x¯)2=ich=1n|xich-x¯|2

Wir können die rechte Seite des Varianzausdrucks als schreiben

ich=1n|xich-x¯|2=(ich=1n|xich-x¯|)2-jich|xich-x¯||xj-x¯|

=(nEINEIND)2-jich|xich-x¯||xj-x¯|

qn

qn1n[n2EINEIND2-jich|xich-x¯||xj-x¯|]1/2

=[EINEIND2-1n2jich|xich-x¯||xj-x¯|]1/2

jich|xich-x¯||xj-x¯|n2-nn2EINEIND2qnn

SD1n[n2EINEIND2-jich|xich-x¯||xj-x¯|]1/2

=[nEINEIND2-1njich|xich-x¯||xj-x¯|]1/2

nn-1n
nn

Alecos Papadopoulos
quelle
1
Obwohl diese Antwort interessant ist, glaube ich, dass es wichtigere, überzeugendere und rigorosere Erklärungen gibt (von denen ich in meiner eigenen Antwort nur einige angeführt habe: Es könnte noch viel mehr gesagt werden, insbesondere in Bezug auf die Rolle des SD im zentralen Grenzwertsatz und algebraische Regeln für die Berechnung von SDs von Summen unabhängiger Zufallsvariablen).
Whuber
2
Sicherlich. Ich habe mich gerade für den Ansatz "Die Glocke hat geklingelt" entschieden, um die Unterbrechung des Schülers zu zerstören!
Alecos Papadopoulos