Ich habe einen Datensatz mit Probenbeobachtungen, die als Anzahl in Bereichsfächern gespeichert sind. z.B:
min/max count
40/44 1
45/49 2
50/54 3
55/59 4
70/74 1
Nun ist es ziemlich einfach, daraus eine Schätzung des Durchschnitts zu finden. Verwenden Sie einfach den Mittelwert (oder Median) jedes Entfernungsbereichs als Beobachtung und die Zählung als Gewicht und ermitteln Sie den gewichteten Durchschnitt:
Für meinen Testfall ergibt dies 53,82.
Meine Frage ist nun, wie man die Standardabweichung (oder Varianz) richtig findet.
Durch meine Suche habe ich mehrere Antworten gefunden, aber ich bin mir nicht sicher, welche für meinen Datensatz tatsächlich geeignet ist. Ich konnte die folgende Formel sowohl für eine andere Frage als auch für ein zufälliges NIST-Dokument finden .
Was für meinen Testfall eine Standardabweichung von 8,35 ergibt. Der Wikipedia-Artikel über gewichtete Mittel gibt jedoch beide Formeln an:
und
Welche geben Standardabweichungen von 8,66 bzw. 7,83 für meinen Testfall.
Aktualisieren
Vielen Dank an @whuber, der vorgeschlagen hat, sich mit Sheppards Korrekturen zu befassen, und an Ihre hilfreichen Kommentare, die sich auf sie beziehen. Leider fällt es mir schwer, die Ressourcen zu verstehen, die ich dazu finden kann (und ich kann keine guten Beispiele finden). Um es noch einmal zusammenzufassen, ich verstehe, dass das Folgende eine voreingenommene Schätzung der Varianz ist:
Ich verstehe auch, dass die meisten Standardkorrekturen für die Verzerrung direkte Zufallsstichproben einer Normalverteilung sind. Daher sehe ich zwei mögliche Probleme für mich:
- Hierbei handelt es sich um Zufallsstichproben in Gruppen (ich bin mir ziemlich sicher, dass hier Sheppards Korrekturen eingehen.)
- Es ist nicht bekannt, ob die Daten für eine normale Verteilung bestimmt sind oder nicht (daher gehe ich davon aus, dass dies, da ich mir ziemlich sicher bin, Sheppards Korrekturen ungültig macht.)
Meine aktualisierte Frage lautet also: Was ist die geeignete Methode zur Behandlung der Verzerrung, die durch die "einfache" gewichtete Standardabweichung / Varianz-Formel für eine nicht normale Verteilung auferlegt wird? Insbesondere in Bezug auf zusammengefasste Daten.
Hinweis: Ich verwende die folgenden Begriffe:
- ist die gewichtete Varianz
- ist die Anzahl der Beobachtungen. (dh die Anzahl der Fächer)
- ist die Anzahl der Gewichte ungleich Null. (dh die Anzahl der Fächer mit Zählungen)
- bin die Gewichte (dh die Zählimpulse)
- bin die Beobachtungen. (dh die bin bedeutet)
- ist das gewichtete Mittel.
Antworten:
Diese Antwort enthält zwei Lösungen: Sheppards Korrekturen und eine Schätzung der maximalen Wahrscheinlichkeit. Beide stimmen eng mit einer Schätzung der Standardabweichung überein: für den ersten und 7,69 für den zweiten Schätzer (angepasst, um mit dem üblichen "unvoreingenommenen" Schätzer vergleichbar zu sein).7.70 7.69
Sheppards Korrekturen
"Sheppards Korrekturen" sind Formeln, mit denen Momente angepasst werden, die aus bestimmten Daten (wie diesen) berechnet wurden
die Daten werden angenommen durch eine Verteilung auf einem endlichen Intervall unterstützt regiert werden[a,b]
Dieses Intervall wird nacheinander in gleiche Fächer der gemeinsamen Breite , die relativ klein sind (kein Fach enthält einen großen Anteil aller Daten).h
Die Verteilung hat eine kontinuierliche Dichtefunktion.
Sie leiten sich aus der Euler-Maclaurin-Summenformel ab, die Integrale in Form linearer Wertekombinationen des Integranden an regelmäßig beabstandeten Punkten approximiert und daher allgemein anwendbar ist (und nicht nur für Normalverteilungen).
Streng genommen wird eine Normalverteilung in einem endlichen Intervall nicht unterstützt, aber in extrem enger Näherung. Im Wesentlichen ist seine gesamte Wahrscheinlichkeit in sieben Standardabweichungen des Mittelwerts enthalten. Daher gelten die Korrekturen von Sheppard für Daten, von denen angenommen wird, dass sie aus einer Normalverteilung stammen.
Die ersten beiden Korrekturen von Sheppard sind
Verwenden Sie den Mittelwert der gruppierten Daten für den Mittelwert der Daten (dh, für den Mittelwert ist keine Korrektur erforderlich).
Subtracth2/12 von der Varianz der Daten , die die klassierten (ungefähre) Varianz der Daten zu erhalten.
Lassen Sie uns die Berechnungen machen. Ich
R
illustriere sie, indem ich die Anzahl und die Fächer angebe:Die richtige Formel für die Zählungen ergibt sich aus der Replikation der Behälterbreiten mit den durch die Zählungen angegebenen Beträgen. Das heißt, die zusammengefassten Daten sind äquivalent zu
mu
sigma2
Maximum Likelihood Estimates
(siehe MLE / Wahrscheinlichkeit eines normalverteilten Intervalls ).
R
Überprüfung der Annahmen
Um diese Ergebnisse zu visualisieren, können wir die angepasste Normaldichte über ein Histogramm zeichnen:
R
Die Ausgabe ist
quelle