Gewichtete Varianz, noch einmal

17

Unvoreingenommene gewichtete Varianz wurde hier und anderswo bereits angesprochen , aber es scheint immer noch eine überraschende Menge an Verwirrung zu geben. Es scheint einen Konsens über die Formel zu geben, die sowohl im ersten Link als auch im Wikipedia-Artikel vorgestellt wird . Dies sieht auch aus wie die von R, Mathematica und GSL (aber nicht MATLAB) verwendete Formel. Der Wikipedia-Artikel enthält jedoch auch die folgende Zeile, die für eine gewichtete Varianzimplementierung wie eine hervorragende Überprüfung der Integrität aussieht:

Wenn zum Beispiel die Werte {2,2,4,5,5,5} aus derselben Verteilung stammen, können wir diese Menge als ungewichtete Stichprobe oder als gewichtete Stichprobe {2,4 behandeln. 5} mit entsprechenden Gewichten {2,1,3}, und wir sollten die gleichen Ergebnisse erhalten.

Meine Berechnungen ergeben den Wert 2,1667 für die Varianz der ursprünglichen Werte und 2,9545 für die gewichtete Varianz. Sollte ich wirklich erwarten, dass sie gleich sind? Warum oder warum nicht?

confusedCoder
quelle
6
Bei dieser Frage geht es nicht wirklich um die Implementierung, sondern um die Theorie dahinter
confusedCoder

Antworten:

15

Ja, Sie sollten erwarten, dass beide Beispiele (ungewichtet vs. gewichtet) zu den gleichen Ergebnissen führen.

Ich habe die beiden Algorithmen aus dem Wikipedia-Artikel implementiert.

Dieser funktioniert:

Wenn alle aus derselben Verteilung gezogen werden und die ganzzahligen Gewichte die Häufigkeit des Auftretens in der Stichprobe angeben, ist der Schätzer der gewichteten Populationsvarianz gegeben durch:xichwich

s2 =1V1-1ich=1Nwich(xich-μ)2,

Dieser (mit Bruchgewichten) funktioniert jedoch bei mir nicht:

Wenn jedes aus einer Gaußschen Verteilung mit der Varianz , ist der Schätzer einer gewichteten Populationsvarianz gegeben durch:xich1/wich

s2 =V1V12-V2ich=1Nwich(xich-μ)2

Ich untersuche immer noch die Gründe, warum die zweite Gleichung nicht wie beabsichtigt funktioniert.

/ EDIT: Ich habe den Grund gefunden, warum die zweite Gleichung nicht so funktioniert, wie ich dachte: Sie können die zweite Gleichung nur verwenden, wenn Sie normalisierte Gewichte oder Varianzgewichte ("Zuverlässigkeit") haben, und sie ist NICHT unvoreingenommen, denn wenn Sie dies nicht tun Verwenden Sie "Wiederholungsgewichte" (Zählen, wie oft eine Beobachtung beobachtet wurde und daher in Ihren mathematischen Operationen wiederholt werden sollte), verlieren Sie die Fähigkeit, die Gesamtzahl der Beobachtungen zu zählen, und können daher keinen Korrekturfaktor verwenden.

Dies erklärt also den Unterschied in Ihren Ergebnissen bei gewichteter und nicht gewichteter Varianz: Ihre Berechnung ist verzerrt.

Wenn Sie also eine unbefangene gewichtete Varianz haben möchten, verwenden Sie nur "wiederholte" Gewichte und verwenden Sie die erste Gleichung, die ich oben angegeben habe. Wenn das nicht möglich ist, können Sie nichts dagegen tun.

Ich habe auch den Wikipedia-Artikel aktualisiert, wenn Sie weitere Informationen wünschen: http://en.wikipedia.org/wiki/Weighted_arithmetic_mean#Weighted_sample_variance

Und ein verknüpfter Artikel über die unverzerrte gewichtete Kovarianz (die aufgrund der Polarisationsidentität tatsächlich dieselbe Varianz aufweist ): Korrekte Gleichung für die gewichtete unverzerrte Probenkovarianz

mühsam
quelle
Nachdem ich viel gelesen und nachgedacht habe, bekomme ich immer noch keine intuitive Bedeutung oder kein Beispiel für den Begriff "Zuverlässigkeitsgewichte". Können Sie das bitte etwas näher erläutern?
Peter
@Peter-Zuverlässigkeitsgewichte sind normalisierte Gewichte, die z. B. zwischen 0 und 1 oder -1 und 1 liegen. Sie stellen eine Frequenz dar (z. B. bedeutet 0,1, dass diese Probe 10% der Zeit im Vergleich zu allen anderen Proben gesehen wurde). Ich habe den Begriff nicht erfunden, er ist in Veröffentlichungen zu finden. Bei Wiederholungsgewichten ist es umgekehrt. Jedes Gewicht repräsentiert die Anzahl der Vorkommen und die Kardinalität (z. B. 10, wenn die Probe 10 Mal beobachtet wurde).
Gaborous
Dies ist verwirrend, da das, was Sie als Wiederholungsgewicht bezeichnen, oft auch als Frequenzgewicht bezeichnet wird , aber ich glaube, ich habe den Unterschied herausgefunden. Es kommt auf die Normalisierung an, oder?
Peter
Nein, Frequenzgewichte sind alternative Bezeichnungen für Zuverlässigkeitsgewichte. Bei Wiederholungsgewichten ist es die Anzahl der Vorkommen, nicht die Häufigkeit. Bei Wiederholungsgewichten gibt es überhaupt keine Normalisierung, das ist der Punkt: Solange Sie Ihre Gewichte normalisieren, verlieren Sie die Grundfrequenz, sodass Sie Ihre Berechnungen nicht völlig unbiasen können. Die einzige Möglichkeit besteht darin, die Gesamtzahl der Vorkommen beizubehalten. Wenn Sie Frequenzgewichte wirklich verwenden möchten, denke ich, wenn Sie die Gesamtzahl N der Vorkommen, die Sie durch Multiplizieren der Frequenzgewichte mit N in Wiederholungsgewichte umwandeln können, im Voraus speichern, ist das in Ordnung.
Gaborous
Und wenn Ihre Gewichte 1 / Varianzgewichte sind, wie würden Sie diese nennen? Wäre das dann "Zuverlässigkeitsgewichte"?
Tom Wenseleers