Hintergrund
Ich habe eine Variable mit einer unbekannten Verteilung.
Ich habe 500 Stichproben, möchte aber die Genauigkeit demonstrieren, mit der ich die Varianz berechnen kann, um beispielsweise zu argumentieren, dass eine Stichprobengröße von 500 ausreichend ist. Ich bin auch daran interessiert, die minimale Stichprobengröße zu kennen, die erforderlich wäre, um die Varianz mit einer Genauigkeit von zu schätzen .
Fragen
Wie kann ich rechnen?
- die Genauigkeit meiner Varianzschätzung bei einer Stichprobengröße von ? von ?
- Wie kann ich die minimale Anzahl von Stichproben berechnen, die erforderlich sind, um die Varianz mit einer Genauigkeit von abzuschätzen ?
Beispiel
Abbildung 1 Dichteschätzung des Parameters basierend auf den 500 Proben.
Abbildung 2 Hier ist ein Diagramm der Stichprobengröße auf der x-Achse im Vergleich zu den Varianzschätzungen auf der y-Achse, die ich anhand von Teilstichproben aus der Stichprobe von 500 berechnet habe .
Die Schätzungen sind jedoch nicht unabhängig gültig, da die zur Schätzung der Varianz für verwendeten Stichproben nicht voneinander oder von den zur Berechnung der Varianz für verwendeten Stichproben unabhängig sind.
Antworten:
Für iid Zufallsvariablen hat der unverzerrte Schätzer für die Varianz (der mit dem Nenner ) eine Varianz:s 2 n - 1X1,…,Xn s2 n−1
Dabei ist die überschüssige Kurtosis der Verteilung (Referenz: Wikipedia ). Nun müssen Sie auch die Kurtosis Ihrer Verteilung abschätzen. Sie können eine Menge verwenden, die manchmal alsκ γ2 (auch von Wikipedia ):
Ich würde davon ausgehen , dass , wenn Sie als Schätzwert für σ und & gamma; 2 als Schätzwert für κ , dass Sie eine vernünftige Schätzung für bekommen V ein r ( s 2 ) , obwohl ich keine Garantie , dass es unvoreingenommen ist. Überprüfen Sie, ob die Abweichung zwischen den Teilmengen Ihrer 500 Datenpunkte angemessen ist und ob Sie sich darüber keine Gedanken mehr machen :)s σ γ2 κ Var(s2)
quelle
moments
library(moments); k <- kurtosis(x); n <- length(x); var(x)^2*(2/(n-1) + k/n)
Eine Varianz zu lernen ist schwer.
In vielen Fällen ist eine (möglicherweise überraschend) große Anzahl von Stichproben erforderlich, um eine Varianz gut abzuschätzen. Im Folgenden werde ich die Entwicklung für den "kanonischen" Fall einer normalen Stichprobe zeigen.
Angenommen, , i = 1 , … , n sind unabhängige N ( μ , σ 2 ) Zufallsvariablen. Wir suchen ein 100 ( 1 - α ) % -Konfidenzintervall für die Varianz, so dass die Breite des Intervalls ρ s 2 ist , dh die Breite beträgt 100 ρ % der Punktschätzung. Wenn beispielsweise ρ = 1 / 2 , dann ist die Breite des CI ist der halbe Wert der Punktschätzung, zum Beispiel , wennYi i=1,…,n N(μ,σ2) 100(1−α)% ρs2 100ρ% ρ=1/2 , dann wäre das CI so etwas wie ( 8 ,s2=10 mit einer Breite von 5. Beachten Sie auch die Asymmetrie um die Punktschätzung. ( s 2 ist der unverzerrte Schätzer für die Varianz.)(8,13) s2
"Das" (eher "a") Konfidenzintervall für ist ( n - 1 ) s 2s2
wo χ 2
Wir wollen die Breite minimieren, so dass So bleiben wir lösen n , so daß ( n - 1 ) ( 1
das ist leider entschieden langsam!
Dies ist eine Art "kanonischer" Fall, um Ihnen ein Gefühl für die Vorgehensweise bei der Berechnung zu vermitteln. Aufgrund Ihrer Diagramme sehen Ihre Daten nicht besonders normal aus. insbesondere scheint es eine merkliche Schräglage zu geben.
Dies sollte Ihnen jedoch eine Vorstellung davon geben, was Sie erwartet. Beachten Sie, dass zur Beantwortung Ihrer zweiten Frage zunächst ein Konfidenzniveau festgelegt werden muss, das ich in der obigen Entwicklung zu Demonstrationszwecken auf 99% festgelegt habe.
quelle
Ich würde mich eher auf die SD als auf die Varianz konzentrieren, da diese auf einer Skala liegt, die leichter zu interpretieren ist.
Manchmal wird nach Konfidenzintervallen für SDs oder Varianzen gesucht, aber der Fokus liegt im Allgemeinen auf den Mitteln.
quelle
Die folgende Lösung wurde von Greenwood und Sandomire in einem JASA-Papier von 1950 angegeben.
R
Code.quelle