Ein Rezensent von mir fragt nach einem Grund, warum ich ungewichtete Daten anstelle von gewichteten Daten verwendet habe. Ich habe das Problem mit einem Statistiker besprochen, und seine Antwort war in etwa so
Wenn Sie unabhängige Beobachtungen haben und den Gesamtmittelwert nehmen, ist seine Varianz immer kleiner als die Varianz eines gewichteten Mittelwerts als Schätzer. ... So werden die Konfidenzintervalle erweitert!
Ich habe seitdem die folgende Frage auf dieser Website gefunden und nach meinem Verständnis schlagen sie vor, dass die Varianz gleich sein sollte. Kann also bitte jemand mit einem statistisch begabteren Verstand als meinem die Antwort des Statistikers bestätigen und die Theorie in Laienbegriffen oder anhand eines Beispiels erläutern?
quelle
Antworten:
Ihre verknüpfte Frage bezieht sich auf die Verwendung von Gewichten als Verknüpfung für den Umgang mit gleich gewichteter Varianz pro Datenpunkt, bei der einige Datenpunkte mehr als einmal vorkommen.
@whuber hat in einem Kommentar die Situation angesprochen, in der die Varianzen aller Datenpunkte gleich sind. Ich werde also auf die Situation eingehen, in der sie nicht gleich sind. In dieser Situation erzeugt der optimal gewichtete Mittelwert eine geringere Varianz als der ungewichtete, dh gleich gewichtete Mittelwert.
Der gewichtete Mittelwert unter Verwendung der Gewichte ist gleich und hat Varianz = . Wir wollen also minimieren , vorbehaltlich und für alle i.wi Σni=1wixi Σni=1w2iVar(xi) Σni=1w2iVar(xi) Σni=1wi=1 wi≥0
Die Karush-Kuhn-Tucker-Bedingungen, die für ein globales Minimum für dieses Problem notwendig und ausreichend sind, da es sich um ein konvexes quadratisches Programmierproblem handelt, führen zu einer Lösung in geschlossener Form, nämlich:
Das optimale für 1 = 1 .. n.wi=[1/Var(xi)]/Σnj=1[1/Var(xj)]
Die Varianz des entsprechenden optimal gewichteten Mittelwerts = .1/Σni=1[1/Var(xi)]
Im Gegensatz dazu bedeutet gleiche Gewichtung für alle i, wobei n die Anzahl der Datenpunkte ist. Wie von whuber hervorgehoben, sind gleiche Gewichte optimal, wenn alle Datenpunktvarianzen gleich sind, was aus der obigen Formel für ein optimales . Wie aus dieser Formel hervorgeht, sind gleiche Gewichte nicht optimal, wenn die Datenpunktvarianzen nicht alle gleich sind, und führen tatsächlich zu einer größeren Varianz (des gewichteten Mittelwerts) als die optimalen Gewichte. Die Varianz des gleichgewichteten Mittelwerts, dh die Varianz des gewichteten Mittelwerts unter Verwendung gleicher Gewichte = .wi=1n wi 1n2Σni=1Var(xi)
Hier sind einige numerische Beispielergebnisse:
Natürlich ist es möglich, dass das gewichtete Mittel eine größere Varianz aufweist als das ungewichtete Mittel, wenn die Gewichte schlecht gewählt werden. Durch Auswahl der Gewichtung 1 für den Datenpunkt mit der größten Varianz und 0 für alle anderen Datenpunkte hätte der gewichtete Mittelwert die Varianz = die größte Varianz eines Datenpunkts. Dieses extreme Beispiel wäre das Ergebnis einer Maximierung statt einer Minimierung des von mir dargelegten Optimierungsproblems.
quelle
Hier ist ein einfaches Beispiel unter Verwendung von und Formen der Varianz:1n∑i(xi−1n∑jxj)2 1∑kwk∑iwi(xi−1∑kwk∑jwjxj)2
Angenommen, Ihre Bevölkerung hat Messungen .20,30,40,50
Dieses Beispiel steht im Einklang mit meinem Kommentar, dass das Zitat Ihres Statistikers wahrscheinlich für eine Population mit einer unimodalen Verteilung gilt, obwohl es im Allgemeinen nicht zutreffen muss.
Ich nehme an, der Punkt ist, dass Sie, wenn Sie den gewichteten Mittelwert angeben, ihn wahrscheinlich mit der gewichteten Varianz assoziieren sollten. Wenn Ihr Mittelwert tatsächlich das Ergebnis der Stichprobe ist, ist der Standardfehler des gewichteten Stichprobenmittelwerts eine kompliziertere Berechnung.
quelle