Warum ist der Standardfehler eines Anteils für ein gegebenes n für 0,5 am größten?

10

Der Standardfehler eines Anteils ist der größte, den er für ein gegebenes N haben kann, wenn der fragliche Anteil 0,5 beträgt, und wird kleiner, je weiter der Anteil von 0,5 entfernt ist. Ich kann sehen, warum dies so ist, wenn ich die Gleichung für den Standardfehler eines Anteils betrachte, aber ich kann dies nicht weiter erklären.

Gibt es eine Erklärung jenseits der mathematischen Eigenschaften der Formel? Wenn ja, warum gibt es weniger Unsicherheit bezüglich der geschätzten Anteile (für ein gegebenes N), wenn sie sich 0 oder 1 nähern?

standard-error proportion intuition edstatsuser
quelle

8

Hintergrund und Terminologie

Um ganz klar zu sein, worüber wir sprechen, lassen Sie uns einige Konzepte und Begriffe festlegen. Ein schönes Modell für Proportionen ist die binäre Urne: Sie enthält Kugeln, die entweder silberfarben ("Erfolg") oder fuchsia ("Misserfolg") gefärbt sind. Der Anteil der Silberkugeln in der Urne ist (aber dies ist nicht der "Anteil", über den wir sprechen werden). $p$

Diese Urne bietet eine Möglichkeit, einen Bernoulli-Versuch zu modellieren . Um eine Erkenntnis zu erhalten , mischen Sie die Kugeln gründlich und ziehen Sie eine blind heraus, wobei Sie ihre Farbe beobachten. Um zusätzliche Erkenntnisse zu erhalten, stellen Sie zuerst die Box wieder her, indem Sie den gezogenen Ball zurückgeben, und wiederholen Sie dann den Vorgang eine vorgegebene Anzahl von Malen. Die Folge von Realisierungen kann durch die Anzahl ihrer Erfolge . Es ist eine Zufallsvariable, deren Eigenschaften vollständig durch und . Die Verteilung von wird als Binomialverteilung . Der Anteil (experimentell oder "Probe") $n$ $X$ $n$ $p$ $X$ $(n,p)$ ist das Verhältnis . $X/n$

Diese Zahlen sind Balkendiagramme von Wahrscheinlichkeitsverteilungen für verschiedene Binomialverhältnisse . Am bemerkenswertesten ist ein konsistentes Muster, unabhängig von , in denen die Verteilungen schmaler (und die Balken entsprechend höher) als bewegt sich von abwärts. $X/n$ $n$ $p$ $1/2$

Die Standardabweichung von ist der in der Frage erwähnte Standardproportionsfehler . Für jedes gegebene kann diese Menge nur von abhängen . Nennen wir es . Durch das Wechseln der Rollen der Bälle - nennen Sie die silbernen "Misserfolge" und die fuchsiafarbenen "Erfolge" - ist es leicht zu erkennen, dass . Somit ist die Situation, in der - das ist, $X/n$ $n$ $p$ $\operatorname{se}(p)$ $\operatorname{se}(p) = \operatorname{se}(1-p)$ $p=1-p$ muss etwas Besonderes sein. Die Fragewie variiertwenn bewegt sich von in Richtung einer Extremwert, beispielsweise . $p=1/2$ $\operatorname{se}(p)$ $p$ $1/2$ $0$

Wissen gegen Verstehen

Weil jeder Figuren wie diese früh in ihrer Ausbildung hat sich gezeigt, jeder „kennt“ die Breiten der Parzellen - die durch gemessen --must ab , wenn bewegt sich von . Aber dieses Wissen ist wirklich nur Erfahrung, während die Frage ein tieferes Verständnis sucht. Ein solches Verständnis ergibt sich aus einer sorgfältigen Analyse der Binomialverteilungen, wie sie Abraham de Moivre vor etwa 300 Jahren vorgenommen hat. (Sie waren im Geiste denen ähnlich, die ich in einer Diskussion des zentralen Grenzwertsatzes vorgestellt habe .) Ich denke jedoch, dass einige relativ einfache Überlegungen ausreichen könnten, um darauf hinzuweisen, dass die Breiten in der Nähe am breitesten sein müssen $\operatorname{se}(p)$ $p$ $1/2$ . $p=1/2$

Eine einfache intuitive Analyse

Es ist klar, dass wir erwarten sollten, dass der Anteil der Erfolge im Experiment nahe bei . Der Standardfehler betrifft, wie weit von dieser Erwartung entfernt das tatsächliche Ergebnis vernünftigerweise angenommen werden kann. Gesetzt, ohne Verlust der Allgemeinheit, dass zwischen ist und , was es dauern würde , erhöhen von ? Typischerweise waren um der in einem Experiment gezogenen Kugeln Silber und (daher) um $p$ $X/n$ $p$ $0$ $1/2$ $X/n$ $p$ $pn$ $(1-p)n$ waren fuchsia. Um mehr Silberkugeln zu erhalten, mussten einige dieser Fuchsia-Ergebnisse unterschiedlich sein. Wie wahrscheinlich ist es, dass der Zufall auf diese Weise funktioniert? Die offensichtliche Antwort ist, dass wenn klein ist, es nie sehr wahrscheinlich ist, dass wir eine silberne Kugel ziehen werden. Daher sind unsere Chancen, Silberkugeln anstelle von Fuchsia-Kugeln zu zeichnen, immer gering. Wir könnten vernünftigerweise hoffen, dass durch reines Glück ein Teil der Fuchsia-Ergebnisse unterschiedlich gewesen sein könnte, aber es scheint unwahrscheinlich, dass sich viel mehr als das geändert hätte. Somit ist es plausibel, dass nicht um viel mehr als variieren würde . Gleichermaßen $p n$ $p$ $p$ $X$ $p\times (1-p)n$ würde nicht viel mehr variieren als . $X/n$ $p(1-p)n/n = p(1-p)$

Die Auflösung

Somit erscheint die magische Kombination . $p(1-p)$ Dies setzt sich praktisch die Frage: Offensichtlich ist diese Menge Peaks bei und verringert sich auf Null bei oder . Es bietet eine intuitive und dennoch quantitative Rechtfertigung für Behauptungen, dass "ein Extrem begrenzter ist als das andere" oder andere derartige Bemühungen, das zu beschreiben, was wir wissen. $p=1/2$ $p=0$ $p=1$

Allerdings ist nicht ganz korrekter Wert: es weist lediglich die Art und Weise, uns mitzuteilen , welche Menge sollte zur Abschätzung der Ausbreitung von Materie . Wir haben die Tatsache ignoriert , dass das Glück auch gegen uns zu handeln neigt: wie einige der pinkfarbenen Kugeln konnte Silber gewesen, einige der silbernen Kugeln haben könnte gewesen fuchsia. Die rigorose Berücksichtigung aller Möglichkeiten kann kompliziert werden, aber das Ergebnis ist, dass anstelle von eine vernünftige Grenze dafür verwendet wird, wie viel von seiner Erwartung abweichen könnte $p(1-p)$ $X$ $p(1-p)n$ $X$ $pn$ Um alle möglichen Ergebnisse richtig zu berücksichtigen, müssen wir die Quadratwurzel . (Für eine genauere Darstellung des Grundes besuchen Sie bitte (https://stats.stackexchange.com/a/3904).Wenn Siedurchdividieren, erfahren Sie, dass zufällige Variationen des Anteilsselbst in der Größenordnung von $\sqrt{p(1-p)n}$ $n$ $X/n$ das ist der Standardfehler von. $\sqrt{p(1-p)n}/n = \sqrt{\frac{p(1-p)}{n}},$ $X/n$

whuber
quelle

3

Betrachten Sie die Funktion p (1-p) für 0 <= p <= 1. Mit Hilfe der Berechnung können Sie sehen, dass bei p = 1/2 1/4 der Maximalwert ist. Wenn Sie sehen, dass dies für das Binomial ist, das sich auf die Standardabweichung der Schätzung des Anteils bezieht, der sqrt (p (1-p) / n) ist, dann ist p = 1/2 das Maximum. Wenn p = 1 oder 0 ist, ist der Standardfehler 0, da Sie immer alle Einsen bzw. alle Nullen erhalten. Wenn Sie sich also 0 oder 1 nähern, besagt ein Kontinuitätsargument, dass sich der Standardfehler 0 nähert, wenn sich p 0 oder 1 nähert. Tatsächlich nimmt er monoton ab, wenn sich p 0 oder 1 nähert. Für großes n sollte der geschätzte Anteil nahe am tatsächlichen liegen Anteil.

Michael R. Chernick
quelle

3

Das OP hat bereits bemerkt: "Ich kann sehen, warum dies so ist, wenn ich die Gleichung für den Standardfehler eines Anteils betrachte." Deshalb glaube ich , dass sie nicht für eine Analyse der Formel fragen

, sondern für ein tieferes Verständnis dafür , warum die Formel - was immer es auch sein mag - wirklich sollte bei maximiert werden

.

p (1 - p)

$p(1-p)$

p = 1 / 2

$p=1/2$

whuber

1

@whuber Ich habe so geantwortet, wie ich es getan habe, weil ich sehe, dass die Formel grundlegend für das Verständnis ist, warum die Varianz bei p = 1/2 am größten und sehr klein ist, wenn p nahe 0 oder 1 ist. Vielleicht ist es am besten, das dort zu sagen ist keine Erklärung völlig ohne die Formel.

Michael R. Chernick

1

Die Binomialverteilung ist tendenziell ungefähr symmetrisch (für großes ist sie ungefähr normal ). $n$

Da das Verhältnis zwischen 0 und 1 liegen muss, wird die Unsicherheit durch diese Grenzen eingeschränkt. Wenn das mittlere Verhältnis nicht genau in der Mitte liegt, ist eine dieser Grenzen einschränkender als die andere.

$p$ $\min[\,p\,,1-p\,]$

GeoMatt22
quelle

Ja - aber die andere Grenze wird weniger einschränkend sein! Warum heben sich die beiden Effekte nicht auf?