Berechnung des Standardfehlers bei der Schätzung des gewichteten Mittelwerts

16

Nehmen wir an, dass und jeweils gezogen iid von einigen Distributionen, mit unabhängig von . Die sind streng positiv. Sie beobachten alle , aber nicht die ; vielmehr beobachtest du . Ich bin daran interessiert, anhand dieser Informationen zu schätzen . Es ist klar, dass der Schätzer unvoreingenommen ist und anhand der Informationen berechnet werden kann.x 1 , x 2 , . . . , x n w i x i w i w i x i i x i w i E [ x ] ˉ x = i w i x iw1,w2,,wnx1,x2,...,xnwixiwiwixiixiwiE[x]

x¯=iwixiiwi

Wie könnte ich den Standardfehler dieses Schätzers berechnen? Für den Unterfall, in dem nur die Werte 0 und 1 annimmt, habe ich naiv versucht, wobei die Variabilität in im Grunde ignoriert wurde , aber festgestellt wurde, dass dies bei Stichprobengrößen unter 250 schlecht . (Und dies hängt wahrscheinlich von der Varianz von .) Es scheint, dass ich möglicherweise nicht genug Informationen dazu habe Berechnen Sie einen "besseren" Standardfehler. s e xiwiwi

sex¯(1x¯)iwi2iwi,
wiwi
shabbychef
quelle

Antworten:

17

Ich bin vor kurzem auf dasselbe Problem gestoßen. Folgendes habe ich gefunden:

Im Gegensatz zu einer einfachen Zufallsstichprobe mit gleichen Gewichten gibt es keine allgemein akzeptierte Definition des Standardfehlers des gewichteten Mittels. Heutzutage wäre es unkompliziert, einen Bootstrap durchzuführen und die empirische Verteilung des Mittelwerts zu erhalten und auf der Grundlage dieser Schätzung den Standardfehler zu ermitteln.

Was wäre, wenn man für diese Schätzung eine Formel verwenden möchte?

Die Hauptreferenz ist dieses Papier von Donald F. Gatz und Luther Smith, in dem 3 formelbasierte Schätzer mit Bootstrap-Ergebnissen verglichen werden. Die beste Annäherung an das Bootstrap-Ergebnis stammt von Cochran (1977):

(SEMw)2=n(n1)(Pi)2[(PiXiP¯X¯w)22X¯w(PiP¯)(PiXiP¯X¯w)+X¯w2(PiP¯)2]

Das Folgende ist der entsprechende R-Code, der von diesem R-Listserve-Thread stammt .

weighted.var.se <- function(x, w, na.rm=FALSE)
#  Computes the variance of a weighted mean following Cochran 1977 definition
{
  if (na.rm) { w <- w[i <- !is.na(x)]; x <- x[i] }
  n = length(w)
  xWbar = weighted.mean(x,w,na.rm=na.rm)
  wbar = mean(w)
  out = n/((n-1)*sum(w)^2)*(sum((w*x-wbar*xWbar)^2)-2*xWbar*sum((w-wbar)*(w*x-wbar*xWbar))+xWbar^2*sum((w-wbar)^2))
  return(out)
}

Hoffe das hilft!

Ming-Chih Kao
quelle
Das ist ziemlich cool, aber für mein Problem beobachte ich nicht einmal , sondern ich beobachte die Summe . Meine Frage ist sehr seltsam, weil sie mit einer Informationsasymmetrie einhergeht (ein Dritter meldet die Summe und versucht möglicherweise, einige Informationen zu verbergen). PiXiiPiXi
Shabbychef
Meine Güte, Sie haben Recht, tut mir leid, dass ich die von Ihnen gestellte Frage nicht vollständig verstanden habe. Angenommen, wir bringen Ihr Problem auf den einfachsten Fall, in dem alle Bernoulli-Wohnmobile sind. Dann beobachten Sie im Wesentlichen die Summe einer zufälligen Teilmenge von RVs. Ich vermute, dass es hier nicht viele Informationen gibt, mit denen man abschätzen kann. Was haben Sie für Ihr ursprüngliches Problem getan? nwin
Ming-Chih Kao
@ Ming-ChihKao diese Cochran-Formel ist interessant, aber wenn Sie ein Konfidenzintervall daraus erstellen, wenn die Daten nicht normal sind, gibt es keine konsistente Interpretation richtig? Wie würden Sie mit nicht normal gewichteten durchschnittlichen mittleren Konfidenzintervallen umgehen? Gewichtete Quantile?
user3022875
Ich denke es liegt ein Fehler bei der Funktion vor. Wenn Sie ersetzen w=rep(1, length(x)), dann weighted.var.se(rnorm(50), rep(1, 50))geht es um 0.014. Ich denke die Formel fehlt a sum(w^2)im Zähler, seit wann P=1ist die Varianz 1/(n*(n-1)) * sum((x-xbar)^2). Ich kann den zitierten Artikel nicht überprüfen, da er sich hinter einer Paywall befindet, aber ich denke, diese Korrektur. Merkwürdigerweise degeneriert die (andere) Lösung von Wikipedia, wenn alle Gewichte gleich sind: en.wikipedia.org/wiki/… .
Max Candocia
Diese könnten im Allgemeinen besser funktionieren: analyticalgroup.com/download/WEIGHTED_MEAN.pdf
Max Candocia
5

wi

wi2Var(X)(wi)2=Var(X)wi2(wi)2.
wi
Var(X)E(wi2(wi)2)
XiVar(X)
Gast
quelle
xixx¯(1x¯)