Wäre ein

8

Nehmen wir an, wir kennen den Mittelwert einer bestimmten Verteilung. Beeinflusst dies die Intervallschätzung der Varianz einer Zufallsvariablen (die ansonsten anhand der Stichprobenvarianz berechnet wird)? Können wir wie in ein kleineres Intervall für das gleiche Konfidenzniveau erhalten?

Martianwars
quelle
Ich habe meine Antwort erheblich aktualisiert und denke, dass sie die Frage des OP jetzt vollständig beantwortet. Die Unterschiede zwischen meinen und anderen Antworten waren darauf zurückzuführen, dass ich implizit bedingte Abweichungen verwendete. Jetzt habe ich sie explizit gemacht. Wenn Sie über das Konfidenzintervall des Varianzschätzers sprechen, müssen Sie grundsätzlich die Kenntnis des Populationsmittelwerts berücksichtigen.
Aksakal
Die Frage sollte lauten: "Können wir ein genaueres Intervall für das gleiche Konfidenzniveau erhalten?".
Gregor Thomas

Antworten:

12

Ich bin nicht ganz sicher, ob meine Antwort richtig ist, aber ich würde argumentieren, dass es keine allgemeine Beziehung gibt. Hier ist mein Punkt:

Lassen Sie uns den Fall untersuchen, in dem das Konfidenzintervall der Varianz gut verstanden ist, nämlich Stichproben aus einer Normalverteilung (wie Sie im Tag der Frage angeben, aber nicht wirklich die Frage selbst). Siehe die Diskussion hier und hier .

Ein Konfidenzintervall für folgt aus dem Pivot , wobei . (Dies ist nur eine andere Art, den möglicherweise bekannteren Ausdruck schreiben , wobei ) T = n σ 2 / σ 2 ~ χ 2 n - 1 σ 2 = 1 / N Σ i ( X i - ˉ X ) 2 T = ( n - 1 ) s 2 / σ 2 ~ χ 2 n - 1 s 2 = 1 / ( n - 1σ2T=nσ^2/σ2χn12σ^2=1/ni(XiX¯)2T=(n1)s2/σ2χn12s2=1/(n1)i(XiX¯)2

Wir haben also Daher ist ein Konfidenzintervall . Wir können und als Quantile und .(nσ2/cn-1u,nσ2/cn-1l)cn-1lcn-1ucn-1u=χ2n-1,1-α/2cn-1l

1α=Pr{cln1<T<cun1}=Pr{cln1nσ^2<1σ2<cun1nσ^2}=Pr{nσ^2cun1<σ2<nσ^2cln1}
(nσ^2/cun1,nσ^2/cln1)cln1cun1cun1=χn1,1α/22cln1=χn1,α/22

(Beachten Sie nebenbei, dass für jede Varianzschätzung, dass die Quantile , wenn die -Verteilung verzerrt ist, ein ci mit der richtigen Überdeckungswahrscheinlichkeit ergeben, aber nicht optimal sind, dh nicht die kürzestmöglichen. Für ein Vertrauen Um das Intervall so kurz wie möglich zu halten, muss die Dichte am unteren und oberen Ende des ci identisch sein, da einige zusätzliche Bedingungen wie Unimodalität vorliegen. Ich weiß nicht, ob die Verwendung dieses optimalen ci die Dinge in dieser Antwort ändern würde.)χ2

Wie in den Links erläutert, verwendet , wobei das Bekannte verwendet bedeuten. Daher erhalten wir ein weiteres gültiges Konfidenzintervall Hier und sind somit Quantile aus der . s 2 0 = 1T=ns02/σ2χn2 1 - αs02=1ni(Xiμ)2cnlcnuχ2n

1α=Pr{cln<T<cun}=Pr{ns02cun<σ2<ns02cln}
clncunχn2

Die Breiten der Konfidenzintervalle sind und Die relative Breite ist Wir wissen, dass als Stichprobenmittelwert minimiert die Summe der quadratischen Abweichungen. Darüber hinaus sehe ich nur wenige allgemeine Ergebnisse bezüglich der Breite des Intervalls, da mir keine eindeutigen Ergebnisse bekannt sind, wie sich Unterschiede und Produkte von oberen und unteren Quantilen verhalten, wenn wir die Freiheitsgrade um eins erhöhen (aber sehen Sie die Abbildung unten). wT'=ns 2 0 (C n u -c n l )

wT=nσ^2(cun1cln1)cln1cun1
wT.
wT=ns02(cuncln)clncun
wTwT=σ^2s02cun1cln1cunclnclncuncln1cun1
σ^2/s021χ2

Zum Beispiel vermieten

rn:=cun1cln1cunclnclncuncln1cun1,
wir

r101.226
für und , was bedeutet, dass das auf basierende ci kürzer ist, wenn α=0.05n=10σ^2
σ^2s021.226

Mit dem folgenden Code habe ich eine kleine Simulationsstudie durchgeführt, die darauf dass das auf basierende Intervall die meiste Zeit gewinnt. (Eine Rationalisierung dieses Ergebnisses in großen Stichproben finden Sie unter dem in Aksakals Antwort veröffentlichten Link.)s02

Die Wahrscheinlichkeit scheint sich in zu stabilisieren , aber mir ist keine analytische Erklärung für endliche Stichproben bekannt:n

Geben Sie hier die Bildbeschreibung ein

    rm(list=ls())

IntervalLengthsSigma2 <- function(n,alpha=0.05,reps=100000,mu=1) {
  cl_a <- qchisq(alpha/2,df = n-1)
  cu_a <- qchisq(1-alpha/2,df = n-1)
  cl_b <- qchisq(alpha/2,df = n)
  cu_b <- qchisq(1-alpha/2,df = n)

  winners02 <- rep(NA,reps)

  for (i in 1:reps) {
    x <- rnorm(n,mean=mu)
    xbar <- mean(x)
    s2 <- 1/n*sum((x-xbar)^2)
    s02 <- 1/n*sum((x-mu)^2)

    ci_a <- c(n*s2/cu_a,n*s2/cl_a)
    ci_b <- c(n*s02/cu_b,n*s02/cl_b)

    winners02[i] <- ifelse(ci_a[2]-ci_a[1]>ci_b[2]-ci_b[1],1,0)  
  }
  mean(winners02)
}

nvalues <- matrix(seq(5,200,by=10)) 
plot(nvalues,apply(nvalues,1,IntervalLengthsSigma2),pch=19,col="lightblue",type="b")

Die nächste Abbildung zeigt gegen und zeigt (wie die Intuition vermuten lässt), dass das Verhältnis zu 1 tendiert. Da außerdem für groß ist, wird der Unterschied zwischen den Breiten der beiden cis daher verschwinden als . (Siehe noch einmal den Link in Aksakals Antwort für eine Rationalisierung dieses Ergebnisses in großen Stichproben.)rnnX¯pμnn

Geben Sie hier die Bildbeschreibung ein

Christoph Hanck
quelle
1
Gute Lösung, aber können Sie sagen, welche Breite eher gewinnt?
Martianwars
1
Sie benötigen die Wahrscheinlichkeitsverteilung von , deren Inverse oder die von oder etwas Ähnlichem. Auf diese Weise können Sie die Gewinnwahrscheinlichkeit analytisch berechnen. wT/wTwTwT
Christoph Hanck
1
Ja, deshalb ist und . T=nσ^2/σ2χn12T=ns02/σ2χn2
Christoph Hanck
1
Ich habe derzeit keinen Zugriff auf das Papier, aber wenn es "nur" die Varianz der Schätzer ist, sehe ich keine notwendige Meinungsverschiedenheit (und meine Simulation bestätigt, dass das bekannte normalerweise besser abschneidet ): dass ein Schätzer besser abschneidet als ein anderer Eine Varianz schließt nicht aus, dass das "Schlechtere" in einer bestimmten Stichprobe besser abschneidet - ein bisschen nach dem, was @Scortchi sagtμ
Christoph Hanck,
1
Ich denke, es ist wichtig zu beachten, dass Ihre Simulation zeigt, dass es als keinen Unterschied zu geben scheint. Es berücksichtigt überhaupt nicht, was als passiert , die Länge von nimmt zu. Mir ist klar, dass angenommen wurde, dass es 1 ist, aber der Unterschied zwischen und wird viel wichtiger, wenn wächst. nkμsσ^k
Cliff AB
7

Lassen Sie mich zuerst das Problem einrichten. Wir kennen den Bevölkerungsdurchschnitt. Dies ist am Anfang ein sehr wichtiger Punkt, denn ohne ihn haben wir keine aussagekräftige Antwort.

Ich werde erklären warum. Nehmen wir an, wir haben eine Stichprobe und kennen den Bevölkerungsdurchschnitt nicht. Wir haben einen üblichen Schätzer für die Varianz:

σ=1n1sumi(xix¯)2

Nun wird uns gesagt, dass der Bevölkerungsdurchschnitt . Unser erster Instinkt ist, es in den Varianzschätzer einzufügen:μ

σ=1nsumi(xiμ)2

Beachten Sie, dass es jetzt ein anderer Schätzer ist! Es hat einen anderen Nenner usw. Es hat eine andere Varianz.

Ist es jedoch richtig, und ? Nein, ist es nicht.Var[σ]Var[σ]

Wir müssen und . Mit anderen Worten, wir müssen die Varianz dieser beiden Schätzer vergleichen, abhängig von der Kenntnis des Populationsmittelwerts! Andernfalls fallen wir in das Paradoxon von @ Scortchi.Var[σ|E[xi]=μ]Var[σ|E[xi]=μ]

Wenn Sie neue Informationen erhalten haben, dh , müssen Sie diese in die Schätzung von ! Dies löst @ Scortchis Paradoxon in seinem Kommentar direkt. Die Gleichungen, die ich bisher in Antworten gesehen habe, beinhalten nicht die Kenntnis von in den CI oder die Varianz des Varianzschätzers . In @ Scortchis Beispiel würde das Wissen, dass zu einer Überarbeitung von CI of .E[xi]=μVar[σ]μσx¯>>μσ

Daher folgt meine Antwort hier dem von mir beschriebenen Aufbau.

Ja, das Konfidenzintervall wäre enger gewesen.

Philosophisch gesehen ist das Wissen um den Mittelwert der Bevölkerung eine zusätzliche Information, daher muss die Unsicherheit in diesem Fall geringer sein.

Beispiel: Wenn Ihre Verteilung Poisson ist, ist die Varianz gleich dem Mittelwert. Wissen bedeutet also, dass Sie auch die Varianz kennen und das Konfidenzintervall auf einen Punkt schrumpft. Es gibt kein Intervall.

UPDATE: Sehen Sie sich dieses Papier an : "Schätzen einer Populationsvarianz mit bekanntem Mittelwert" von Zhang, 1996. Er vergleicht die Standardschätzung der Varianz vs. derjenige, der das Wissen der Bevölkerung verwendet, bedeutet . Er kommt zu dem gleichen Schluss: Die Varianz der letzteren Schätzung ist kleiner als die der ersteren, dh das Konfidenzintervall der Varianzschätzung wäre enger. Er zeigt auch, dass der Vorteil verschwindet, wenn die Stichprobengröße gegen unendlich tendiert.1n1i(xix¯)21ni(xiμ)2

Ich denke, dieses Papier ist die endgültige Antwort auf Ihre Frage.

Aksakal
quelle
steht das nicht im Widerspruch zu meiner Antwort (zumindest in dieser Allgemeinheit - ich stimme dem schönen Poisson-Beispiel sicher zu)?
Christoph Hanck
1
Nun, es gibt einen Unterschied zwischen der erwarteten Länge des Konfidenzintervalls und der Länge des Konfidenzintervalls, das Sie möglicherweise aus einem bestimmten Datensatz berechnen (überlegen Sie, was passiert, wenn der Stichprobenmittelwert ungewöhnlich weit vom tatsächlichen Populationsmittelwert entfernt ist). .
Scortchi - Monica wieder einsetzen
+1, Ihr Punkt über die Poisson-Verteilung (& Verteilungen, bei denen die Varianz im Allgemeinen eine Funktion des Mittelwerts ist) ist gut. Beachten Sie jedoch, dass das OP anscheinend die Normalverteilung im Auge hat. Wie die Antwort von @ ChristophHanck zeigt, ist die Situation dort komplizierter.
Gung - Reinstate Monica
@ Scortchi, siehe meine Antwort auf Ihren Kommentar. Das Wesentliche: Wir beantworten verschiedene Fragen. Ich vergleiche die VERSCHIEDENEN Schätzer unter der gleichen Annahme des bekannten Populationsmittelwerts.
Aksakal
2
Ich bin nicht sicher, ob ich verstehe, was Sie unter verstehen . Bedeutet das ? Wenn nicht, was dann noch? Wenn ja, dann wäre Ihr Punkt vielleicht klarer, wenn Sie es so schreiben. Var[σ|E[xi]=μ]Var[σ|x¯=μ]
Amöbe
3

Erweitern Sie die Antwort von @Cristoph Hanck ein wenig und passen Sie seinen Code an…

Angenommen, Herr A kennt weder den wahren Mittelwert noch die Statistik, und Herr B kennt beides nicht. Es mag seltsam und sogar unfair erscheinen, dass Herr A mit dem Drehpunkt ein kürzeres Konfidenzintervall für die Varianz erhalten kann als Herr B. mit dem Drehpunkt . Aber auf lange Sicht von Herrn B in gewinnt eher einem starken Sinn: seine Konfidenzintervall stochastisch schmaler für jede Breite Sie angeben , Pflege, wobei der Anteil von Herrn B CIs schmaler als ist größer als der Anteil von Herrn A ist.T ' w wTTww

Geben Sie hier die Bildbeschreibung ein

Wenn man die Teilmenge der Fälle zusammenfasst, in denen das CI von Herrn A enger herauskommt, zeigt sich, dass er in diesen Fällen eine geringere Abdeckung hat (etwa 91%); Aber er zahlt dafür mit einer höheren Abdeckung (ungefähr 96%) in der Teilmenge der Fälle, in denen sein Intervall breiter wird und insgesamt die richtige Abdeckung (95%) erhält. Natürlich weiß Herr A nicht, wann sein CI in welcher Untergruppe ist. Und ein schlauer Herr C, der den wahren Mittelwert kennt und oder auswählt, nach dem sich das engste CI ergibt, wird schließlich entlarvt, wenn seine Intervalle ihre angebliche 95% ige Abdeckung nicht einhalten.T 'TT

IntervalLengthsSigma2 <- function(n,alpha=0.05,reps=100000,mu=1) {
  cl_a <- qchisq(alpha/2,df = n-1)
  cu_a <- qchisq(1-alpha/2,df = n-1)
  cl_b <- qchisq(alpha/2,df = n)
  cu_b <- qchisq(1-alpha/2,df = n)

  winners02 <- rep(NA,reps)
  width.a <- rep(NA,reps)
  width.b <- rep(NA,reps)
  sigma2.in.a <- rep(NA,reps)
  sigma2.in.b <- rep(NA,reps)

  for (i in 1:reps) {
    x <- rnorm(n,mean=mu)
    xbar <- mean(x)
    s2 <- 1/n*sum((x-xbar)^2)
    s02 <- 1/n*sum((x-mu)^2)

    ci_a <- c(n*s2/cu_a,n*s2/cl_a)
    ci_b <- c(n*s02/cu_b,n*s02/cl_b)

    winners02[i] <- ifelse(ci_a[2]-ci_a[1]>ci_b[2]-ci_b[1],1,0) 
    ci_a[2]-ci_a[1] -> width.a[i]
    ci_b[2]-ci_b[1] -> width.b[i]
    ifelse(ci_a[1]< 1 & ci_a[2] > 1, 1, 0) -> sigma2.in.a[i]
    ifelse(ci_b[1]< 1 & ci_b[2] > 1, 1, 0) -> sigma2.in.b[i]
  }

 list(n=n, width.a=width.a,width.b=width.b, sigma2.in.a=sigma2.in.a, sigma2.in.b=sigma2.in.b, winner=winners02)
}

# simulate for sample size of 6
IntervalLengthsSigma2(n=6) -> sim

# plot empirical CDFs of CI widths for mean known & mean unknown
plot(ecdf(sim$width.a), xlab="CI width", ylab="empirical CDF", sub=paste("n=",sim$n), main="")
lines(ecdf(sim$width.b), col="red")
legend("bottomright", lty=1, col=c("black", "red"), legend=c("mean unknown (Mr A)", "mean known (Mr B)"))

# coverage with mean unknown:
mean(sim$sigma2.in.a)
# coverage with mean unknown when CI is narrower than with mean known:
mean(sim$sigma2.in.a[sim$winner==0])
# coverage with mean unknown when CI is wider than with mean known:
mean(sim$sigma2.in.a[sim$winner==1])

# coverage with mean known:
mean(sim$sigma2.in.b)
# coverage with mean known when CI is wider than with mean unknown:
mean(sim$sigma2.in.b[sim$winner==0])
# coverage with mean known when CI is narrower than with mean unknown;
mean(sim$sigma2.in.b[sim$winner==1])
Scortchi - Monica wieder einsetzen
quelle
2

Ich kann nichts dazu sagen, aber Aksakals umfassende Aussage "Das Wissen um den Mittelwert der Bevölkerung ist eine zusätzliche Information, daher muss die Unsicherheit in diesem Fall geringer sein" ist nicht selbstverständlich.

Im normalverteilten Fall ist der Maximum-Likelihood-Schätzer der Varianz bei unbekannt:μ

1ni=1n(XiX¯)2

hat gleichmäßig geringere Varianz als

1ni=1n(Xiμ)2

für alle Werte vonμ,σ

Rand Forrester
quelle
Hast du die Zeitung in meiner Antwort gelesen?
Aksakal
Nein, aber die in Ihrem Update erwähnte unvoreingenommene Stichprobenvarianz ist nicht der Maximum-Likelihood-Schätzer. Daher bin ich mir nicht sicher, ob Papier relevant ist. Sie können eine schnelle Simulationsstudie durchführen, um meinen Anspruch zu überprüfen.
Rand Forrester
Selbst wenn Sie Ihren Schätzer verwenden, ist mein Punkt, dass Sie für einen aussagekräftigen Vergleich die Varianz des Schätzers berechnen müssen, die von der Kenntnis von abhängig ist . Was ist Ihrer Meinung nach die Varianz zweier Schätzer, die Sie angegeben haben? Stellen Sie vor der Beantwortung meiner Frage sicher, dass beide in irgendeiner Weise . μμμ
Aksakal
2
Aksakal, ich spreche die Stichprobenvarianz des MLE von etwa Vergleich , wenn Sie tun vs. nicht wissen . In diesem Zusammenhang weiß ich nicht, was "Berechnen der Varianz des Schätzers unter der Bedingung, dass " bedeutet. In Bezug auf Ihre Frage ist keine genaue Berechnung erforderlich. Eine einfache Simulationsstudie wird überprüfen, was ich sage. & mgr;& mgr;σ^μμ
Rand Forrester
3
Schauen Sie, ich wäre nicht überrascht, wenn Sie Recht haben, aber wenn Sie implizieren wollen, dass ich inkompetent bin, dann klären Sie bitte, was "abhängig von " bedeutet. "Bedingt" hat nur eine technische Definition (soweit ich weiß), wenn es sich auf Zufallsvariablen bezieht. Ich nahm an, dass es eine Kurzreferenz zur Schätzung von wenn angenommen wird, dass bekannt ist, z. B. die MLE, im Gegensatz zur MLE von wenn Sie nicht wissen : Es scheint, als ob Sie etwas anderes meinen. Würde mich über eine Klarstellung freuen. Vielen Dank. σ μ 1μσμσμ1
1n(Xiμ)2
σμ
1n(XiX¯)2
Rand Forrester