Vorspannungskorrektur in der gewichteten Varianz

22

Für die ungewichtete Varianz existiert die vorspannungskorrigierte Stichprobenvarianz, wenn der Mittelwert aus denselben Daten geschätzt wurde: Var(X):=1

Var(X): =1nich(xich-μ)2
Var(X): =1n-1ich(xich-E[X])2

Ich beschäftige mich mit dem gewichteten Mittelwert und der Varianz und frage mich, was die geeignete Korrektur für die gewichtete Varianz ist. Verwenden Sie:

bedeuten(X): =1ichωichichωichxich

Die "naive", nicht korrigierte Varianz, die ich verwende, ist folgende:

Var(X): =1ichωichichωich(xich-bedeuten(X))2

Ich frage mich also, ob die richtige Art der Korrektur von Voreingenommenheit ist

A)

Var(X): =1ichωich-1ichωich(xich-bedeuten(X))2

oder B)

Var(X): =nn-11ichωichichωich(xich-bedeuten(X))2

oder C)

Var(X): =ichωich(ichωich)2-ichωich2ichωich(xich-bedeuten(X))2

A) ergibt für mich keinen Sinn, wenn die Gewichte klein sind. Der Normalisierungswert kann 0 oder sogar negativ sein. Aber wie steht es mit B) ( ist die Anzahl der Beobachtungen) - ist dies der richtige Ansatz? Haben Sie eine Referenz, die dies zeigt? Ich glaube, "Mittelwert- und Varianzschätzungen aktualisieren: eine verbesserte Methode", DHD West, 1979 verwendet dies. Das dritte, C), ist meine Interpretation der Antwort auf diese Frage: /mathpro/22203/unbias-estimate-of-varianz-of-unnormalised-weighted-meann

Für C) habe ich gerade festgestellt, dass der Nenner sehr nach aussieht . Gibt es hier einen allgemeinen Zusammenhang? Ich denke, es stimmt nicht ganz überein; und offensichtlich gibt es die Verbindung, die wir versuchen, die Varianz zu berechnen ...Var(Ω)

Alle drei scheinen die der Einstellung all zu " . Welches sollte ich also in welchen Räumlichkeiten verwenden? '' Update: '' whuber schlug vor, die Überprüfung der mit und allen verbleibenden tiny . Dies scheint A und B auszuschließen.ω 1 = ω 2 = .5 ω i = ϵωich=1ω1=ω2=.5ωich=ϵ

Anony-Mousse
quelle
Wenn Sie Fälle betrachten, in denen die beiden größten Gewichte gleich sind und der Rest verschwindend klein wird, fallen sowohl (A) als auch (B) aus dem Wettbewerb (weil sie nicht mit den bekannten Ergebnissen für ). (C) scheint eine Annäherung zu sein; Ich vermute, der richtige Faktor ist eine viel kompliziertere Funktion der Gewichte. n=2
Whuber
@whuber ThePawn unten deutet darauf hin, dass es C ist. Haben Sie detailliertere Bedenken?
Anony-Mousse
1
Lösung (A) funktioniert, ich habe sie in der Vergangenheit implementiert und kann anhand von empirischen Tests bestätigen, dass sie die richtigen Ergebnisse liefert. Sie müssen jedoch nur ganzzahlige Werte für die Gewichte verwenden und> 0
gaborous
Vielen Dank! Dies hat mir sehr geholfen, auf die richtige Spur zu kommen, wenn die Gewichte für einen exponentiellen gleitenden Durchschnitt stehen! Es stellt sich heraus, dass die naive Methode, die Varianz zu berechnen, sie tatsächlich um einen konstanten Faktor von 2 überschätzt, zusätzlich zu der kleinen (1-1 / n) Korrektur, die sich analog zur einfachen Berechnung des gleitenden Durchschnitts ergibt. Das ist ein besonders verrückter Sonderfall!
Saolof

Antworten:

10

Ich ging die Mathematik durch und endete mit Variante C:

Veinr(X)=(ichωich)2(ichωich)2-ichωich2V¯
wobei die nicht korrigierte Varianzschätzung ist. Die Formel stimmt mit dem ungewichteten Fall überein, wenn alle identisch sind. Ich führe den Beweis unten auf:V¯ωich

Wenn Sie , haben wirλich=ωichichωich

V¯=ichλich(xich-jλjxj)2

Das Erweitern des inneren Terms ergibt:

(xich-jλjxj)2=xich2+j,kλjλkxjxk-2jλjxichxj

Wenn wir die Erwartung annehmen, haben wir, dass , wobei der Term in jedem Term vorhanden ist, er sich aufhebt und wir erhalten:E[xichxj]=Veinr(X)1ich=j+E[X]2E[X]

E [ ¯ V ] = V a r ( X ) ( 1 - Σ j λ 2 j ) λ i ω i

E[V¯]=Veinr(X)ichλich(1+jλj2-2λich)
das heißt Es muss noch der Ausdruck in Bezug auf , um die Variante C zu erhalten.
E[V¯]=Veinr(X)(1-jλj2)
λichωich
Der Bauer
quelle
Das ist doch Variante C, oder?
Anony-Mousse
Oups, ja, es ist Variante C.
ThePawn
Ich habe diese Lösung empirisch überprüft und sie funktioniert NICHT ... Die einzige, die dies tut, ist die Lösung (A), die ich in der Vergangenheit auch selbst implementiert habe, aber sie funktioniert nur mit Gewichten, die ganzzahlig und> = 0 sind
mühsam
2
Diese Gleichung ist laut Wikipedia, Matlab, R und anderen, die diese Gleichung implementieren, falsch. Der Zähler hier ist quadriert, sollte aber NICHT so sein wie der vom OP vorgeschlagene (C). Siehe en.wikipedia.org/wiki/…
Gaborous
1
@rajatkhanduja Ich sprach nicht über den Beweis, sondern die endgültige abgeleitete Gleichung (die oberste in dieser Antwort). Aber in der Tat ist es richtig, der Zähler ist nur quadriert, weil wir mit V multiplizieren, so dass der Zähler nicht quadriert wird. Wie ich in meiner Antwort unten erläutere, bleibt dieser Schätzer voreingenommen, da er auf Gewichten vom Typ "Zuverlässigkeit" beruht.
Gaborous
7

Sowohl A als auch C sind richtig, aber welches Sie verwenden, hängt davon ab, welche Art von Gewichten Sie verwenden:

  • A muss Gewichtungen vom Typ "Wiederholung" verwenden (ganze Zahlen, die die Anzahl der Vorkommen für jede Beobachtung zählen) und ist unvoreingenommen .
  • C erfordert die Verwendung von Gewichten vom Typ "Zuverlässigkeit" (entweder normalisierte Gewichte oder Varianzen für jede Beobachtung) und ist voreingenommen . Es kann nicht unvoreingenommen sein.

Der Grund, warum C notwendigerweise voreingenommen ist, liegt darin, dass Sie, wenn Sie keine Gewichte vom Typ "Wiederholung" verwenden, die Möglichkeit verlieren, die Gesamtzahl der Beobachtungen (Stichprobengröße) zu zählen, und daher keinen Korrekturfaktor verwenden können.

Weitere Informationen finden Sie in dem kürzlich aktualisierten Wikipedia-Artikel: http://en.wikipedia.org/wiki/Weighted_arithmetic_mean#Weighted_sample_variance

mühsam
quelle