Für die ungewichtete Varianz existiert die vorspannungskorrigierte Stichprobenvarianz, wenn der Mittelwert aus denselben Daten geschätzt wurde: Var(X):=1
Ich beschäftige mich mit dem gewichteten Mittelwert und der Varianz und frage mich, was die geeignete Korrektur für die gewichtete Varianz ist. Verwenden Sie:
Die "naive", nicht korrigierte Varianz, die ich verwende, ist folgende:
Ich frage mich also, ob die richtige Art der Korrektur von Voreingenommenheit ist
A)
oder B)
oder C)
A) ergibt für mich keinen Sinn, wenn die Gewichte klein sind. Der Normalisierungswert kann 0 oder sogar negativ sein. Aber wie steht es mit B) ( ist die Anzahl der Beobachtungen) - ist dies der richtige Ansatz? Haben Sie eine Referenz, die dies zeigt? Ich glaube, "Mittelwert- und Varianzschätzungen aktualisieren: eine verbesserte Methode", DHD West, 1979 verwendet dies. Das dritte, C), ist meine Interpretation der Antwort auf diese Frage: /mathpro/22203/unbias-estimate-of-varianz-of-unnormalised-weighted-mean
Für C) habe ich gerade festgestellt, dass der Nenner sehr nach aussieht . Gibt es hier einen allgemeinen Zusammenhang? Ich denke, es stimmt nicht ganz überein; und offensichtlich gibt es die Verbindung, die wir versuchen, die Varianz zu berechnen ...
Alle drei scheinen die der Einstellung all zu " . Welches sollte ich also in welchen Räumlichkeiten verwenden? '' Update: '' whuber schlug vor, die Überprüfung der mit und allen verbleibenden tiny . Dies scheint A und B auszuschließen.ω 1 = ω 2 = .5 ω i = ϵ
Antworten:
Ich ging die Mathematik durch und endete mit Variante C:
Wenn Sie , haben wirλich= ωich∑ichωich
Das Erweitern des inneren Terms ergibt:
Wenn wir die Erwartung annehmen, haben wir, dass , wobei der Term in jedem Term vorhanden ist, er sich aufhebt und wir erhalten:E[ xichxj] = Va r ( X) 1i = j+ E[ X]2 E[ X]
E [ ¯ V ] = V a r ( X ) ( 1 - Σ j λ 2 j ) λ i ω i
quelle
Sowohl A als auch C sind richtig, aber welches Sie verwenden, hängt davon ab, welche Art von Gewichten Sie verwenden:
Der Grund, warum C notwendigerweise voreingenommen ist, liegt darin, dass Sie, wenn Sie keine Gewichte vom Typ "Wiederholung" verwenden, die Möglichkeit verlieren, die Gesamtzahl der Beobachtungen (Stichprobengröße) zu zählen, und daher keinen Korrekturfaktor verwenden können.
Weitere Informationen finden Sie in dem kürzlich aktualisierten Wikipedia-Artikel: http://en.wikipedia.org/wiki/Weighted_arithmetic_mean#Weighted_sample_variance
quelle