Ich suche nach der richtigen Gleichung, um die gewichtete unverzerrte Stichproben-Kovarianz zu berechnen. Internetquellen sind zu diesem Thema ziemlich selten und verwenden alle unterschiedliche Gleichungen.
Die wahrscheinlichste Gleichung, die ich gefunden habe, ist folgende:
Von: https://en.wikipedia.org/wiki/Sample_mean_and_sample_covariance#Weighted_samples
Natürlich müssen Sie vorher den gewichteten (unverzerrten) Stichprobenmittelwert berechnen.
Ich habe jedoch mehrere andere Formeln gefunden wie:
Oder ich habe sogar einige Quellcodes und wissenschaftliche Arbeiten gesehen, die nur die Standard-Kovarianzformel verwenden, aber den gewichteten Stichprobenmittelwert anstelle des Stichprobenmittelwerts verwenden ...
Kann mir jemand helfen und etwas Licht ins Dunkel bringen?
/ EDIT: Meine Gewichte sind einfach die Anzahl der Beobachtungen für eine Stichprobe im Datensatz, also weight.sum () = n
quelle
Antworten:
Die Lösung wurde in einem Buch von 1972 gefunden (George R. Price, Ann. Hum. Genet., Lond, S. 485-490, Erweiterung der Kovarianzauswahlmathematik, 1972) .
Verzerrte gewichtete Probenkovarianz:
Und die unvoreingenommene gewichtete Probenkovarianz, die durch Anwendung der Bessel-Korrektur gegeben ist:
Wobei der (unverzerrte) gewichtete Stichprobenmittelwert ist:μ∗
Wichtiger Hinweis: Dies funktioniert nur, wenn die Gewichte Gewichte vom Typ "Wiederholung" sind, was bedeutet, dass jedes Gewicht die Anzahl der Vorkommen einer Beobachtung darstellt und dass wobeiN ∗∑N.i = 1wich= N.∗ N.∗ stellen die tatsächliche Stichprobengröße dar (tatsächliche Gesamtzahl der Stichproben unter Berücksichtigung der Gewichte).
Ich habe den Artikel auf Wikipedia aktualisiert, wo Sie auch die Gleichung für die unvoreingenommene gewichtete Stichprobenvarianz finden:
https://en.wikipedia.org/wiki/Weighted_arithmetic_mean#Weighted_sample_covariance
Habe ein paar Sanity Checks mit einem nicht gewichteten Datensatz und einem gleichwertigen gewichteten Datensatz durchgeführt, und es funktioniert korrekt.
quelle