Wie genau stimmten Statistiker darin überein, (n-1) als unverzerrten Schätzer für die Populationsvarianz ohne Simulation zu verwenden?

67

Die Formel zur Berechnung der Varianz hat im Nenner :(n1)

s2=i=1N(xix¯)2n1

Ich habe mich immer gefragt, warum. Das Lesen und Anschauen einiger guter Videos über das "Warum" von scheint jedoch ein guter unverzerrter Schätzer der Populationsvarianz zu sein. Während die Populationsvarianz unterschätzt und überschätzt.n ( n - 2 )(n1)n(n2)

Was ich neugierig bin zu wissen, ist das im Zeitalter ohne Computer, wie genau diese Wahl getroffen wurde? Gibt es einen tatsächlichen mathematischen Beweis, der dies beweist, oder wurden diese rein empirischen und statistischen Personen VIELE Male von Hand berechnet, um die "beste Erklärung" für die damalige Zeit zu finden?

Wie sind die Statistiker zu Beginn des 19. Jahrhunderts mit Hilfe von Computern auf diese Formel gekommen? Manuell oder steckt mehr dahinter als man denkt?

PhD
quelle
13
Ich nehme an, Sie wollen sagen " ohne die Hilfe von Computern". Die Antwort ist - vielleicht nicht überraschend - die Verwendung von Algebra. Die Ableitung ist recht einfach und an vielen Stellen ist es für Statistikstudenten üblich, sie als Übung abzuleiten / als Grundstudium zu lernen.
Glen_b
Ich denke, das gibt eine ziemlich gute Erklärung: en.wikipedia.org/wiki/Variance#Sample_variance
Verena Haunschmid
Ich habe Ihre Formel so bearbeitet, dass und als im Nenner für die Stichprobenvarianz (lateinische Symbole) und nicht für die Populationsvarianz (griechische Symbole) verwendet werden. x n - 1s2x¯n1
Alexis

Antworten:

40

Die Korrektur wird als Besselsche Korrektur bezeichnet und hat einen mathematischen Beweis. Persönlich wurde mir das auf einfache Weise beigebracht: Mit korrigieren Sie die Verzerrung von (siehe hier ).E [ 1n1E[1n1n(xix¯)2]

Sie können die Korrektur auch anhand des Konzepts der Freiheitsgrade erklären, eine Simulation ist nicht unbedingt erforderlich.

mugen
quelle
15
Beweis Alternative # 3 hat eine schöne intuitive Erklärung, die selbst Laien verstehen können. Die Grundidee ist, dass der Stichprobenmittelwert nicht mit dem Populationsmittelwert übereinstimmt. Ihre Beobachtungen nähern sich naturgemäß eher dem Stichprobenmittelwert als dem Populationsmittelwert, und dies führt dazu, dass diese Terme mit Terme unterschätzt werden. Dies ist wahrscheinlich für die meisten Menschen offensichtlich, aber ich habe bisher nie über die "Intuition" nachgedacht, warum die voreingenommene Stichprobenvarianz voreingenommen ist. Ich habe nur die formalen Beweise gelernt. (xiμ)2(xix¯)2
WetlabStudent
2
Es gibt auch einen geometrischen Ansatz zum Korrigieren mit n-1 (sehr gut erklärt in Saville und Wood: Statistische Methoden: Der geometrische Ansatz). Kurz gesagt: Eine Stichprobe von n kann als n-dimensionaler Datenraum betrachtet werden. Die Abtastpunktvektoren addieren sich zu einem beobachteten Vektor, der in einen Modellvektor mit einer p-Dimension, die einem p-Parameter entspricht, und einen Fehlervektor mit einer np-Dimension zerlegt werden kann. Die entsprechende pythagoreische Aufteilung des Fehlervektors hat np Quadrate, deren Durchschnitt ein Maß für die Variation ist.
Giordano
Ich werde Ihnen einen schönen Link geben, der eine kurze Erklärung enthält: en.wikipedia.org/wiki/Bias_of_an_estimator
Christina
Können Sie erklären, warum wir im Beweis (Alternative 3) annehmen, dass sowohl wahre als auch voreingenommene Varianzen unter Verwendung von berechnet werden ? Das Problem unterschiedlicher Varianzen entsteht, wenn wir eine Population (mit wahrer Varianz) und eine Stichprobe (mit voreingenommener Varianz) haben. Aber wenn wir die Varianz für dieselben Daten berechnen, nämlich , warum sollten sie sich jemals unterscheiden? Dort stellen wir uns als eine wahre Varianz vor, die mit genau den gleichen berechnet wird wie das voreingenommene . Ich kann diesem Beweis nicht zustimmen. Bitte helfen Sie, was fehle ich? n xx1,x2,...,xnσ2xsbiased2
Turkhan Badalov
56

Die meisten Beweise, die ich gesehen habe, sind so einfach, dass Gauß (wie er es auch tat) es wahrscheinlich ziemlich einfach fand, sie zu beweisen.

Ich habe nach einer Ableitung des Lebenslaufs gesucht, auf die ich Sie verlinken kann (es gibt eine Reihe von Links zu externen Beweisen, darunter mindestens einen in den Antworten hier), aber ich habe hier keinen in einem Lebenslauf gefunden Einige Suchanfragen, der Vollständigkeit halber werde ich eine einfache geben. Aufgrund seiner Einfachheit ist es leicht zu erkennen, wie die Leute anfangen würden, die üblicherweise als Besselsche Korrektur bezeichnete Methode anzuwenden .

Dies setzt als angenommenes Wissen voraus und setzt voraus, dass die ersten grundlegenden Varianz-Eigenschaften bekannt sind.E(X2)=Var(X)+E(X)2

E[i=1n(xix¯)2]=E[i=1nxi22x¯i=1nxi+nx¯2]=E[i=1nxi2nx¯2]=nE[xi2]nE[x¯2]=n(μ2+σ2)n(μ2+σ2/n)=(n1)σ2
Glen_b
quelle
1
Welche Eigenschaft lässt den Term verschwinden? 2x¯i=1nxi
Ciprian Tomoiagă
3
Es verschwindet nicht. Haben Sie bemerkt, dass sich das Vorzeichen des letzten Terms geändert hat?
Glen_b
1
(+1) Ich habe kürzlich einen großartigen Beweis gehört, dass ich persönlich intuitiver finde. Die Stichprobenvarianz mit dem Faktor kann als Durchschnitt aller quadrierten Differenzen zwischen allen Paaren ausgedrückt werden. Beachten Sie nun, dass die Paare, bei denen derselbe Punkt zweimal eingegeben wird, alle Null sind, was den Ausdruck verzerrt. Es erscheint vernünftig, die Verzerrung zu korrigieren, indem alle diese Paare von der Doppelsumme ausgeschlossen und nur über den Rest gemittelt werden. Dies ergibt die Besselsche Korrektur. 1/n
Amöbe sagt Reinstate Monica
1
Nein, egal, ich habe es herausgefunden. , also wenden Sie einfach dieselbe Identität, die Sie oben erwähnt haben, auf beide Begriffe in Zeile 3 an.V[x¯]=V[x]n
Tel.
1
Jede der iid-Variablen hat den gleichen zweiten Moment. Wir reden nicht nur über sie alle, sondern diskutieren nur über einen von ihnen. Sie hätten so leicht genommen (und einige Leute tun) oder oder ... aber ich habe das gemacht - tenx1x2xni
Glen_b
37

Laut Weissteins Welt der Mathematik wurde es erstmals 1823 von Gauß bewiesen. Die Referenz ist Band 4 der Gaußschen Werke, zu lesen unter https://archive.org/details/werkecarlf04gausrich . Die relevanten Seiten scheinen 47-49 zu sein. Es scheint, dass Gauß der Frage nachgegangen ist und einen Beweis erbracht hat. Ich lese kein Latein, aber es gibt eine deutsche Zusammenfassung im Text. Seiten 103-104 erklären, was er getan hat (Edit: Ich habe eine grobe Übersetzung hinzugefügt):

Allein da man nicht berechtigt ist, den sichersten Wert für das Fahren von Wert zu halten, so dass man sich leicht, dass man durch dieses Verfahren allemal den wahrscheinlichsten und mittleren Fehler findet, und daher bestimmten Resultaten eine groessere Genauigkeit beilegt, als sie wirklich besitzen. [Da man aber nicht berechtigt ist, die wahrscheinlichsten Werte so zu behandeln, als wären sie die tatsächlichen Werte, kann man sich leicht davon überzeugen, dass man immer feststellen muss, dass der wahrscheinlichste Fehler und der durchschnittliche Fehler zu klein sind und daher die gegebenen Ergebnisse eine größere Genauigkeit besitzen, als sie wirklich haben.]

Aus diesem Grund ist bekannt, dass es sich bei der Stichprobenvarianz um eine voreingenommene Schätzung der Populationsvarianz handelt. Der Artikel führt weiter aus, dass der Unterschied zwischen den beiden normalerweise ignoriert wird, da es nicht wichtig ist, ob die Stichprobengröße groß genug ist. Dann heißt es:

The verfasser is also which a particular investigations underworfen, also very merkwuerdigen hoechst simple results gefuehrt hat. Man braucht nemlich den nach dem angezeigten fahlerhaften Verfahren gefundenen mittleren Fehler, um ihn in den richtigen zu verwandeln, nur mit

πρπ

zu multiplizieren, wo die Anzahl der Beobachtungen (Anzahl der Beobachtungen) und die Anzahl der unbekannten groessen (Anzahl der Unbekannten) bedeutet. [Der Autor hat daher eine spezielle Untersuchung dieses Objekts durchgeführt, die zu einem sehr merkwürdigen und äußerst einfachen Ergebnis geführt hat. Man muss nämlich nur den durch den obigen fehlerhaften Prozess gefundenen Durchschnittsfehler mit (dem gegebenen Ausdruck) multiplizieren, um ihn in den richtigen zu ändern, wobei die Anzahl der Beobachtungen und die Anzahl der unbekannten Größen ist.]πρπρ

Wenn dies also tatsächlich das erste Mal ist, dass die Korrektur gefunden wurde, dann scheint es, dass sie durch eine geschickte Berechnung von Gauß gefunden wurde, aber den Leuten war bereits bewusst, dass eine Korrektur erforderlich war, so dass vielleicht jemand anderes sie zuvor empirisch hätte finden können . Möglicherweise war es früheren Autoren auch nicht wichtig, die genaue Antwort abzuleiten, da sie ohnehin mit relativ großen Datenmengen arbeiteten.

Zusammenfassung: manuell, aber die Leute wussten bereits, dass im Nenner nicht ganz richtig war.n

Flunder
quelle
Wenn jemand eine Übersetzung des Deutschen liefern könnte, wäre das nett. Ich jedenfalls lese kein Deutsch.
Faheem Mitha
2
Ja, Google Translate funktioniert aufgrund meiner Rechtschreibfehler nicht so gut! Ich werde in einem Versuch der Übersetzung hinzufügen; Es wird eine gute Möglichkeit sein, mein Deutsch zu üben.
Flunder
14

Für mich ist das eine Intuition

The degree to whichXi varies from X¯+The degree to whichX¯ varies from μ=The degree to which Xi varies from μ.

Das ist,

E[(XiX¯)2]+E[(X¯μ)2]=E[(Xiμ)2].

Das Beweisen der obigen Gleichung erfordert ein wenig Algebra (diese Algebra ist der obigen Antwort von @ Glen_b sehr ähnlich). Wenn dies jedoch zutrifft, können wir Folgendes neu anordnen:

E[(XiX¯)2]=E[(Xiμ)2]σ2E[(X¯μ)2]σ2n=n1nσ2.

Für mich ist ein weiteres Stück Intuition, dass anstelle von Voreingenommenheit einführt. Und diese Verzerrung ist genau gleich .X¯μE[(X¯μ)2]=σ2n

Kenny LJ
quelle
12

Die meisten Antworten haben es bereits ausführlich erklärt, aber abgesehen davon gibt es eine einfache Illustration, die hilfreich sein könnte:

Angenommen, Sie haben und die ersten drei Zahlen sind:n=4

8,4,6 , _

Jetzt kann die vierte Zahl beliebig sein, da es keine Einschränkungen gibt. Betrachten Sie nun die Situation, in der Sie und . Wenn die ersten drei Zahlen: sind, die vierte Zahl .x = 6 8 , 4 , 6 6n=4x¯=68,4,66

Das heißt, wenn Sie Werte und , hat der Wert keine Freiheit. Somit gibt uns einen unvoreingenommenen Schätzer.x n t h n - 1n1x¯nthn1

Satwik Bhattamishra
quelle