Die Formel zur Berechnung der Varianz hat im Nenner :
Ich habe mich immer gefragt, warum. Das Lesen und Anschauen einiger guter Videos über das "Warum" von scheint jedoch ein guter unverzerrter Schätzer der Populationsvarianz zu sein. Während die Populationsvarianz unterschätzt und überschätzt.n ( n - 2 )
Was ich neugierig bin zu wissen, ist das im Zeitalter ohne Computer, wie genau diese Wahl getroffen wurde? Gibt es einen tatsächlichen mathematischen Beweis, der dies beweist, oder wurden diese rein empirischen und statistischen Personen VIELE Male von Hand berechnet, um die "beste Erklärung" für die damalige Zeit zu finden?
Wie sind die Statistiker zu Beginn des 19. Jahrhunderts mit Hilfe von Computern auf diese Formel gekommen? Manuell oder steckt mehr dahinter als man denkt?
Antworten:
Die Korrektur wird als Besselsche Korrektur bezeichnet und hat einen mathematischen Beweis. Persönlich wurde mir das auf einfache Weise beigebracht: Mit korrigieren Sie die Verzerrung von (siehe hier ).E [ 1n−1 E[1n∑n1(xi−x¯)2]
Sie können die Korrektur auch anhand des Konzepts der Freiheitsgrade erklären, eine Simulation ist nicht unbedingt erforderlich.
quelle
Die meisten Beweise, die ich gesehen habe, sind so einfach, dass Gauß (wie er es auch tat) es wahrscheinlich ziemlich einfach fand, sie zu beweisen.
Ich habe nach einer Ableitung des Lebenslaufs gesucht, auf die ich Sie verlinken kann (es gibt eine Reihe von Links zu externen Beweisen, darunter mindestens einen in den Antworten hier), aber ich habe hier keinen in einem Lebenslauf gefunden Einige Suchanfragen, der Vollständigkeit halber werde ich eine einfache geben. Aufgrund seiner Einfachheit ist es leicht zu erkennen, wie die Leute anfangen würden, die üblicherweise als Besselsche Korrektur bezeichnete Methode anzuwenden .
Dies setzt als angenommenes Wissen voraus und setzt voraus, dass die ersten grundlegenden Varianz-Eigenschaften bekannt sind.E(X2)=Var(X)+E(X)2
quelle
Laut Weissteins Welt der Mathematik wurde es erstmals 1823 von Gauß bewiesen. Die Referenz ist Band 4 der Gaußschen Werke, zu lesen unter https://archive.org/details/werkecarlf04gausrich . Die relevanten Seiten scheinen 47-49 zu sein. Es scheint, dass Gauß der Frage nachgegangen ist und einen Beweis erbracht hat. Ich lese kein Latein, aber es gibt eine deutsche Zusammenfassung im Text. Seiten 103-104 erklären, was er getan hat (Edit: Ich habe eine grobe Übersetzung hinzugefügt):
Aus diesem Grund ist bekannt, dass es sich bei der Stichprobenvarianz um eine voreingenommene Schätzung der Populationsvarianz handelt. Der Artikel führt weiter aus, dass der Unterschied zwischen den beiden normalerweise ignoriert wird, da es nicht wichtig ist, ob die Stichprobengröße groß genug ist. Dann heißt es:
Wenn dies also tatsächlich das erste Mal ist, dass die Korrektur gefunden wurde, dann scheint es, dass sie durch eine geschickte Berechnung von Gauß gefunden wurde, aber den Leuten war bereits bewusst, dass eine Korrektur erforderlich war, so dass vielleicht jemand anderes sie zuvor empirisch hätte finden können . Möglicherweise war es früheren Autoren auch nicht wichtig, die genaue Antwort abzuleiten, da sie ohnehin mit relativ großen Datenmengen arbeiteten.
Zusammenfassung: manuell, aber die Leute wussten bereits, dass im Nenner nicht ganz richtig war.n
quelle
Für mich ist das eine Intuition
Das ist,
Das Beweisen der obigen Gleichung erfordert ein wenig Algebra (diese Algebra ist der obigen Antwort von @ Glen_b sehr ähnlich). Wenn dies jedoch zutrifft, können wir Folgendes neu anordnen:
Für mich ist ein weiteres Stück Intuition, dass anstelle von Voreingenommenheit einführt. Und diese Verzerrung ist genau gleich .X¯ μ E[(X¯−μ)2]=σ2n
quelle
Die meisten Antworten haben es bereits ausführlich erklärt, aber abgesehen davon gibt es eine einfache Illustration, die hilfreich sein könnte:
Angenommen, Sie haben und die ersten drei Zahlen sind:n=4
Jetzt kann die vierte Zahl beliebig sein, da es keine Einschränkungen gibt. Betrachten Sie nun die Situation, in der Sie und . Wenn die ersten drei Zahlen: sind, die vierte Zahl .≤ x = 6 8 , 4 , 6 6n=4 x¯=6 8,4,6 6
Das heißt, wenn Sie Werte und , hat der Wert keine Freiheit. Somit gibt uns einen unvoreingenommenen Schätzer.≤ x n t h n - 1n−1 x¯ nth n−1
quelle