Berechnung der erforderlichen Stichprobengröße, Genauigkeit der Varianzschätzung?

17

Hintergrund

Ich habe eine Variable mit einer unbekannten Verteilung.

Ich habe 500 Stichproben, möchte aber die Genauigkeit demonstrieren, mit der ich die Varianz berechnen kann, um beispielsweise zu argumentieren, dass eine Stichprobengröße von 500 ausreichend ist. Ich bin auch daran interessiert, die minimale Stichprobengröße zu kennen, die erforderlich wäre, um die Varianz mit einer Genauigkeit von zu schätzen .X%

Fragen

Wie kann ich rechnen?

  1. die Genauigkeit meiner Varianzschätzung bei einer Stichprobengröße von ? von ?n=500n=N
  2. Wie kann ich die minimale Anzahl von Stichproben berechnen, die erforderlich sind, um die Varianz mit einer Genauigkeit von abzuschätzen ?X

Beispiel

Abbildung 1 Dichteschätzung des Parameters basierend auf den 500 Proben.

Bildbeschreibung hier eingeben

Abbildung 2 Hier ist ein Diagramm der Stichprobengröße auf der x-Achse im Vergleich zu den Varianzschätzungen auf der y-Achse, die ich anhand von Teilstichproben aus der Stichprobe von 500 berechnet habe .

Die Schätzungen sind jedoch nicht unabhängig gültig, da die zur Schätzung der Varianz für verwendeten Stichproben nicht voneinander oder von den zur Berechnung der Varianz für verwendeten Stichproben unabhängig sind.n[10,125,250,500]n[20,40,80]

Bildbeschreibung hier eingeben

Abe
quelle
Beachten Sie jedoch, dass die Varianz undefiniert ist, wenn eine Komponente Ihrer unbekannten Verteilung eine Cauchy-Verteilung ist.
Mike Anderson
@Mike Oder in der Tat unendlich viele andere Distributionen.
Glen_b

Antworten:

10

Für iid Zufallsvariablen hat der unverzerrte Schätzer für die Varianz (der mit dem Nenner ) eine Varianz:s 2 n - 1X1,,Xns2n1

Var(s2)=σ4(2n1+κn)

Dabei ist die überschüssige Kurtosis der Verteilung (Referenz: Wikipedia ). Nun müssen Sie auch die Kurtosis Ihrer Verteilung abschätzen. Sie können eine Menge verwenden, die manchmal alsκγ2 (auch von Wikipedia ):

γ2=μ4σ43

Ich würde davon ausgehen , dass , wenn Sie als Schätzwert für σ und & gamma; 2 als Schätzwert für κ , dass Sie eine vernünftige Schätzung für bekommen V ein r ( s 2 ) , obwohl ich keine Garantie , dass es unvoreingenommen ist. Überprüfen Sie, ob die Abweichung zwischen den Teilmengen Ihrer 500 Datenpunkte angemessen ist und ob Sie sich darüber keine Gedanken mehr machen :)sσγ2κVar(s2)

Erik P.
quelle
Haben Sie eine Lehrbuchreferenz für den unvoreingenommenen Varianzschätzer? Ich weiß nicht, wohin ich mit Wikipedia gehen soll, um mehr Kontext zu erhalten.
Abe
Ich habe meinen Standardtext Rice hier nicht dabei, daher kann ich die Seitenzahl nicht für Sie überprüfen, aber ich bin sicher, dass sie dort enthalten ist. Wikipedia schlägt vor, dass es auch erwähnt werden sollte in: Montgomery, DC und Runger, GC: Angewandte Statistik und Wahrscheinlichkeit für Ingenieure , Seite 201. John Wiley & Söhne New York, 1994.
Erik P.
danke für deine hilfe dabei. Diese Antwort war sehr nützlich und informativ, um die Varianzunsicherheit zu quantifizieren. Ich habe die Gleichung am letzten Tag etwa zehnmal angewendet. Die Berechnung von ist mit der Bibliothek einfach : kappamomentslibrary(moments); k <- kurtosis(x); n <- length(x); var(x)^2*(2/(n-1) + k/n)
Abe
Hast du vielleicht die Seitenzahl aus dem Rice-Text gefunden? Ich kann es in Casella und Berger nicht finden. Eine primäre Referenz wäre noch besser, wenn Sie es wissen. Die Wikipedia-Seite ist insbesondere nicht referenziert.
Abe
Hmmm ... sieht so aus, als hätte Rice die Formel auch nicht. Ich werde ein Auge darauf werfen, aber zu diesem Zeitpunkt habe ich überhaupt keine Referenz.
Erik P.
15

Eine Varianz zu lernen ist schwer.

In vielen Fällen ist eine (möglicherweise überraschend) große Anzahl von Stichproben erforderlich, um eine Varianz gut abzuschätzen. Im Folgenden werde ich die Entwicklung für den "kanonischen" Fall einer normalen Stichprobe zeigen.

Angenommen, , i = 1 , , n sind unabhängige N ( μ , σ 2 ) Zufallsvariablen. Wir suchen ein 100 ( 1 - α ) % -Konfidenzintervall für die Varianz, so dass die Breite des Intervalls ρ s 2 ist , dh die Breite beträgt 100 ρ % der Punktschätzung. Wenn beispielsweise ρ = 1 / 2 , dann ist die Breite des CI ist der halbe Wert der Punktschätzung, zum Beispiel , wennYii=1,,nN(μ,σ2)100(1α)%ρs2100ρ%ρ=1/2 , dann wäre das CI so etwas wie ( 8 ,s2=10 mit einer Breite von 5. Beachten Sie auch die Asymmetrie um die Punktschätzung. ( s 2 ist der unverzerrte Schätzer für die Varianz.)(8,13)s2

"Das" (eher "a") Konfidenzintervall für ist ( n - 1 ) s 2s2 wo χ 2

(n1)s2χ(n1)2(1α/2)σ2(n1)s2χ(n1)2(α/2),
ist dasβ-Quantil der Chi-Quadrat-Verteilung mitn-1Freiheitsgraden. (Dies ergibt sich aus der Tatsache, dass(n-1)s2/σ2eine zentrale Größe in einer Gaußschen Einstellung ist.)χ(n1)2ββn1(n1)s2/σ2

Wir wollen die Breite minimieren, so dass So bleiben wir lösen n , so daß ( n - 1 ) ( 1

L(n)=(n1)s2χ(n1)2(α/2)(n1)s2χ(n1)2(1α/2)<ρs2,
n
(n1)(1χ(n1)2(α/2)1χ(n1)2(1α/2))<ρ.

n=65ρ=1n=5321ρ=0.1

nn

nρ

α^log0.1log1log5321log65=log10log5231650.525,

das ist leider entschieden langsam!


Dies ist eine Art "kanonischer" Fall, um Ihnen ein Gefühl für die Vorgehensweise bei der Berechnung zu vermitteln. Aufgrund Ihrer Diagramme sehen Ihre Daten nicht besonders normal aus. insbesondere scheint es eine merkliche Schräglage zu geben.

Dies sollte Ihnen jedoch eine Vorstellung davon geben, was Sie erwartet. Beachten Sie, dass zur Beantwortung Ihrer zweiten Frage zunächst ein Konfidenzniveau festgelegt werden muss, das ich in der obigen Entwicklung zu Demonstrationszwecken auf 99% festgelegt habe.

Kardinal
quelle
n|ρrhon=65ρ<1ρ1×s2ρ1%s2
@ Be, aktualisiert und hoffentlich im Prozess geklärt. In der Vorgängerversion gab es einen besonders schlechten Tippfehler. Das tut mir leid.
Kardinal
Eine sehr nette Antwort, aber ich habe die von @Erik gewählt, weil sie besser auf mein Problem zutrifft (da mein Parameter nicht normalverteilt ist).
Abe
@ Be: Kein Problem. Dafür gibt es das Häkchen. Meine Antwort sollte vor allem veranschaulichend sein. Soweit ich das beurteilen kann, scheint es immer noch das einzige zu sein, das beide Fragen beantwortet, und es wird (asymptotisch) auch in dem von Erik skizzierten Szenario korrekt sein. (+1 zu ihm vor gut einem Jahr.) :)
Kardinal
s(ss)s[lcl,ucl]
1

Ich würde mich eher auf die SD als auf die Varianz konzentrieren, da diese auf einer Skala liegt, die leichter zu interpretieren ist.

Manchmal wird nach Konfidenzintervallen für SDs oder Varianzen gesucht, aber der Fokus liegt im Allgemeinen auf den Mitteln.

s2/σ2σ2σσ2

Karl
quelle
(Diese Antwort kam hierher, nachdem eine doppelte, etwas anders eingerahmte Frage zusammengeführt wurde.)
whuber
1

Die folgende Lösung wurde von Greenwood und Sandomire in einem JASA-Papier von 1950 angegeben.

X1,,XnN(μ,σ2)σ

S=i=1n(XiX¯)2n1,
Sσ0<u<1
Pr{S<(1u)σ}=aandPr{S>(1+u)σ}=b,
γ=1ab

Pr{(n1)S2σ2<(n1)(1u)2}=a
Pr{(n1)S2σ2>(n1)(1+u)2}=b.
(n1)S2/σ2χn12

γ=Fχ(n1)2((n1)(1+u)2)Fχ(n1)2((n1)(1u)2),

nγu

R Code.

gamma <- 0.95
u <- 0.1
g <- function(n) pchisq((n-1)*(1+u)^2, df = n-1) - pchisq((n-1)*(1-u)^2, df = n-1) - gamma
cat("Sample size n = ", ceiling(uniroot(g, interval = c(2, 10^6))$root), "\n")

u=10%γ=95%

Sample size n = 193
Zen
quelle