Ich habe nicht verstanden, warum es N
und N-1
während der Berechnung der Populationsvarianz gibt. Wann verwenden wir N
und wann verwenden wir N-1
?
Klicken Sie hier für eine größere Version
Wenn die Population sehr groß ist, gibt es keinen Unterschied zwischen N und N-1, aber es sagt nichts darüber aus, warum es am Anfang N-1 gibt.
Bearbeiten: Bitte nicht verwechseln mit n
und n-1
welche bei der Schätzung verwendet werden.
Edit2: Ich spreche nicht über Bevölkerungsschätzung.
variance
population
ilhan
quelle
quelle
Antworten:
ist die Populationsgröße und n ist die Stichprobengröße. Die Frage lautet, warum die Populationsvarianz die Abweichung des mittleren Quadrats vom Mittelwert ist und nicht das ( N - 1 ) / N = 1 - ( 1 / N ) -fache. Warum eigentlich dort aufhören? Warum multiplizieren Sie nicht zum Beispiel die mittlere quadratische Abweichung mit 1 - 2 / N oder 1 - 17 / N oder exp ( - 1 / N ) ?N n ( N- 1 ) / N= 1 - ( 1 / N) 1 - 2 / N 1 - 17 / N exp( - 1 / N)
Es gibt tatsächlich einen guten Grund, dies nicht zu tun. Jede dieser Zahlen, die ich gerade erwähnte, wäre eine gute Möglichkeit, eine "typische Ausbreitung" innerhalb der Bevölkerung zu quantifizieren. Ohne vorherige Kenntnis der Populationsgröße wäre es jedoch unmöglich, eine Zufallsstichprobe zu verwenden, um einen unverzerrten Schätzer für eine solche Zahl zu finden. Wir wissen, dass die Stichprobenvarianz , die die mittlere quadratische Abweichung vom Stichprobenmittelwert mit multipliziert , ein unverzerrter Schätzer für die übliche Populationsvarianz bei Stichproben mit Ersatz ist. (Es gibt kein Problem mit dieser Korrektur, da wir n kennen !) Die Stichprobenvarianz wäre daher voreingenommen( n - 1 ) / n n Schätzer eines Vielfachen der Populationsvarianz, wobei dieses Vielfache, wie , vorher nicht genau bekannt ist.1 - 1 / N
Dieses Problem einer unbekannten Verzerrung würde sich auf alle statistischen Tests ausbreiten, die die Stichprobenvarianz verwenden, einschließlich T-Tests und F-Tests. Tatsächlich würde eine Division durch irgendetwas anderes als in der Populationsvarianzformel erfordern, dass wir alle statistischen Tabellen von t-Statistiken und F-Statistiken (und viele andere Tabellen auch) ändern, aber die Anpassung würde von der Populationsgröße abhängen. Niemand möchte Tische für jedes mögliche N machen müssen ! Besonders wenn es nicht nötig ist.N N
quelle
Anstatt in die Mathematik zu gehen, werde ich versuchen, es in einfachen Worten auszudrücken. Wenn Sie die gesamte Population zur Verfügung haben, wird deren Varianz ( Populationsvarianz ) mit dem Nenner berechnet
N
. Wenn Sie nur eine Stichprobe haben und die Varianz dieser Stichprobe berechnen möchten , verwenden Sie ebenfalls den NennerN
(in diesem Fall n der Stichprobe). Beachten Sie , dass Sie in beiden Fällen nichts schätzen : Der gemessene Mittelwert ist der wahre Mittelwert, und die Varianz, die Sie aus diesem Mittelwert berechnet haben, ist die wahre Varianz.Jetzt haben Sie nur eine Stichprobe und möchten auf den unbekannten Mittelwert und die Varianz in der Population schließen. Mit anderen Worten, Sie möchten Schätzungen . Sie nehmen Ihren Stichprobenmittelwert für die Schätzung des Bevölkerungsmittelwerts (da Ihre Stichprobe repräsentativ ist), OK. Um eine Schätzung der Populationsvarianz zu erhalten, müssen Sie so tun, als wäre dieser Mittelwert wirklich ein Populationsmittelwert und daher nicht mehr von Ihrer Stichprobe abhängig, seit Sie ihn berechnet haben. Um zu "zeigen", dass Sie es jetzt als fest annehmen, reservieren Sie eine (beliebige) Beobachtung aus Ihrer Stichprobe, um den Mittelwert zu "stützen". haben und die glauben, ist unempfindlich gegen Stichprobenunfälle. Eine reservierte Beobachtung ist "-1"
N-1
bei der Berechnung der Varianzschätzung.Stellen Sie sich vor, Sie kennen irgendwie den wahren Populationsmittelwert, möchten aber die Varianz aus der Stichprobe abschätzen. Dann werden Sie , dass die wahre Mittelwert in die Formel für die Varianz ersetzen und Nenner gelten
N
: nein „-1“ ist hier notwendig , da Sie wissen , die wahre Mittelwert, haben Sie es nicht aus derselben Probe abzuschätzen.quelle
N
für N als auch für n verwendet.N
ist die Größe einer Gesamtheit, entweder der Grundgesamtheit oder der Stichprobe. Um die Populationsvarianz zu berechnen , müssen Sie über eine Population verfügen. Wenn Sie nur eine Stichprobe haben, können Sie entweder die Varianz dieser Stichprobe oder die geschätzte Varianz der Grundgesamtheit berechnen . Kein anderer Weg.Wenn man nur einen Bruchteil der Bevölkerung hat, dh eine Stichprobe, sollte man im Allgemeinen durch n-1 dividieren. Es gibt einen guten Grund, dies zu tun. Wir wissen, dass die Stichprobenvarianz, die die mittlere quadratische Abweichung vom Stichprobenmittelwert mit (n - 1) / n multipliziert, ein unverzerrter Schätzer der Populationsvarianz ist.
Einen Beweis dafür, dass der Schätzer der Stichprobenvarianz unparteiisch ist, finden Sie hier: https://economictheoryblog.com/2012/06/28/latexlatexs2/
Wenn man ferner den Schätzer der Populationsvarianz anwenden würde, das ist die Version des Varianzschätzers, die bei einer Stichprobe von anstelle der Population durch n dividiert, würde der erhaltene Schätzer verzerrt.
quelle
In der Vergangenheit gab es ein Argument, dass Sie N für eine nicht-inferentielle Varianz verwenden sollten, aber ich würde das nicht mehr empfehlen. Sie sollten immer N-1 verwenden. Wenn die Stichprobengröße abnimmt, ist N-1 eine ziemlich gute Korrektur für die Tatsache, dass die Stichprobenvarianz geringer wird (es ist nur wahrscheinlicher, dass Sie nahe dem Peak der Verteilung abtasten - siehe Abbildung). Wenn die Stichprobe wirklich groß ist, spielt es keine Rolle, wie viel sie aussagt.
Eine alternative Erklärung ist, dass die Population ein theoretisches Konstrukt ist, das unmöglich zu erreichen ist. Verwenden Sie daher immer N-1, da Sie, was auch immer Sie tun, bestenfalls die Populationsvarianz schätzen.
Außerdem werden Sie ab jetzt N-1 für Varianzschätzungen sehen. Dieses Problem wird wahrscheinlich nie mehr auftreten, außer bei einem Test, bei dem Ihr Lehrer Sie möglicherweise auffordert, eine Unterscheidung zwischen Inferenz und Inferenz zu treffen nicht-inferentielles Varianzmaß. Verwenden Sie in diesem Fall weder die Antwort von whuber noch meine, lesen Sie die Antwort von ttnphns.
Beachten Sie, dass in dieser Abbildung die Varianz in der Nähe von 1 liegen sollte. Sehen Sie, wie stark sie mit der Stichprobengröße variiert, wenn Sie N zum Schätzen der Varianz verwenden. (Dies ist die "Voreingenommenheit", auf die sich Elswhere bezieht.)
quelle
Die Populationsvarianz ist die Summe der quadratischen Abweichungen aller Werte in der Population geteilt durch die Anzahl der Werte in der Population. Wenn wir die Varianz einer Population von einer Stichprobe abschätzen, stoßen wir jedoch auf das Problem, dass die Abweichungen der Stichprobenwerte vom Mittelwert der Stichprobe im Durchschnitt etwas geringer sind als die Abweichungen dieser Stichprobenwerte vom ( unbekannt). Dies führt dazu, dass die aus der Stichprobe berechnete Varianz etwas geringer ist als die tatsächliche Populationsvarianz. Die Verwendung eines n-1-Divisors anstelle von n korrigiert diese Unterschätzung.
quelle