Unvoreingenommene gewichtete Varianz wurde hier und anderswo bereits angesprochen , aber es scheint immer noch eine überraschende Menge an Verwirrung zu geben. Es scheint einen Konsens über die Formel zu geben, die sowohl im ersten Link als auch im Wikipedia-Artikel vorgestellt wird . Dies sieht auch aus wie die von R, Mathematica und GSL (aber nicht MATLAB) verwendete Formel. Der Wikipedia-Artikel enthält jedoch auch die folgende Zeile, die für eine gewichtete Varianzimplementierung wie eine hervorragende Überprüfung der Integrität aussieht:
Wenn zum Beispiel die Werte {2,2,4,5,5,5} aus derselben Verteilung stammen, können wir diese Menge als ungewichtete Stichprobe oder als gewichtete Stichprobe {2,4 behandeln. 5} mit entsprechenden Gewichten {2,1,3}, und wir sollten die gleichen Ergebnisse erhalten.
Meine Berechnungen ergeben den Wert 2,1667 für die Varianz der ursprünglichen Werte und 2,9545 für die gewichtete Varianz. Sollte ich wirklich erwarten, dass sie gleich sind? Warum oder warum nicht?
quelle
Antworten:
Ja, Sie sollten erwarten, dass beide Beispiele (ungewichtet vs. gewichtet) zu den gleichen Ergebnissen führen.
Ich habe die beiden Algorithmen aus dem Wikipedia-Artikel implementiert.
Dieser funktioniert:
Dieser (mit Bruchgewichten) funktioniert jedoch bei mir nicht:
Ich untersuche immer noch die Gründe, warum die zweite Gleichung nicht wie beabsichtigt funktioniert.
/ EDIT: Ich habe den Grund gefunden, warum die zweite Gleichung nicht so funktioniert, wie ich dachte: Sie können die zweite Gleichung nur verwenden, wenn Sie normalisierte Gewichte oder Varianzgewichte ("Zuverlässigkeit") haben, und sie ist NICHT unvoreingenommen, denn wenn Sie dies nicht tun Verwenden Sie "Wiederholungsgewichte" (Zählen, wie oft eine Beobachtung beobachtet wurde und daher in Ihren mathematischen Operationen wiederholt werden sollte), verlieren Sie die Fähigkeit, die Gesamtzahl der Beobachtungen zu zählen, und können daher keinen Korrekturfaktor verwenden.
Dies erklärt also den Unterschied in Ihren Ergebnissen bei gewichteter und nicht gewichteter Varianz: Ihre Berechnung ist verzerrt.
Wenn Sie also eine unbefangene gewichtete Varianz haben möchten, verwenden Sie nur "wiederholte" Gewichte und verwenden Sie die erste Gleichung, die ich oben angegeben habe. Wenn das nicht möglich ist, können Sie nichts dagegen tun.
Ich habe auch den Wikipedia-Artikel aktualisiert, wenn Sie weitere Informationen wünschen: http://en.wikipedia.org/wiki/Weighted_arithmetic_mean#Weighted_sample_variance
Und ein verknüpfter Artikel über die unverzerrte gewichtete Kovarianz (die aufgrund der Polarisationsidentität tatsächlich dieselbe Varianz aufweist ): Korrekte Gleichung für die gewichtete unverzerrte Probenkovarianz
quelle