Als ich mir die Nachrichten ansehe, habe ich bemerkt, dass die Gallup-Umfragen für Dinge wie Präsidentschaftswahlen Stichprobengrößen von weit über 1.000 haben. Soweit ich mich an College-Statistiken erinnere, war eine Stichprobengröße von 30 eine "signifikant große" Stichprobe. Es wurde der Anschein erweckt, dass eine Stichprobengröße über 30 aufgrund sinkender Renditen sinnlos ist.
sampling
sample-size
power-analysis
samplesize999
quelle
quelle
Antworten:
Wayne hat das Thema "30" gut genug angesprochen (meine eigene Faustregel: Erwähnung der Zahl 30 in Bezug auf Statistiken ist wahrscheinlich falsch).
Warum werden oft Zahlen in der Nähe von 1000 verwendet
Bei Umfragen werden häufig Zahlen zwischen 1000 und 2000 verwendet, selbst bei einem einfachen Anteil (" Sind Sie für whatever>< > ?").
Dies erfolgt so, dass einigermaßen genaue Schätzungen des Anteils erhalten werden.
Wenn eine binomiale Abtastung angenommen wird, ist der Standardfehler * des Stichprobenanteils am größten, wenn der Anteil - aber diese Obergrenze ist immer noch eine ziemlich gute Annäherung für Anteile zwischen etwa 25% und 75%.12
* "Standardfehler" = "Standardabweichung der Verteilung von"
Ein allgemeines Ziel ist es, Prozentsätze innerhalb von ungefähr des wahren Prozentsatzes zu schätzen , ungefähr der Zeit. Diese werden als " Fehlergrenze " bezeichnet.95 % 3 %±3% 95% 3%
In diesem "Worst-Case" -Standardfehler bei der Binomialabtastung führt dies zu:
... oder "etwas mehr als 1000".
Wenn Sie also zufällig 1000 Personen aus der Bevölkerung befragen, über die Sie Rückschlüsse ziehen möchten, und 58% der Stichprobe den Vorschlag unterstützen, können Sie sich ziemlich sicher sein, dass der Bevölkerungsanteil zwischen 55% und 61% liegt.
(Manchmal können andere Werte für die Fehlerquote verwendet werden, z. B. 2,5%. Wenn Sie die Fehlerquote halbieren, wird die Stichprobengröße um ein Vielfaches von 4 erhöht.)
Bei komplexen Erhebungen, bei denen eine genaue Schätzung eines Anteils in einer Teilpopulation erforderlich ist (z. B. der Anteil der schwarzen Hochschulabsolventen aus Texas zugunsten des Vorschlags), kann die Anzahl groß genug sein, um die Größe dieser Teilgruppe auf mehrere hundert Personen zu begrenzen insgesamt Zehntausende von Antworten.
Da dies schnell unpraktisch werden kann, ist es üblich, die Population in Teilpopulationen (Schichten) aufzuteilen und diese einzeln zu beproben. Trotzdem kann es zu sehr großen Umfragen kommen.
Dies hängt von der Effektgröße und der relativen Variabilität ab. Der Effekt auf die Varianz bedeutet, dass Sie in bestimmten Situationen möglicherweise einige ziemlich große Samples benötigen.n−−√
Ich beantwortete hier eine Frage (ich glaube, es war eine Frage eines Ingenieurs), die sich mit sehr großen Stichproben befasste (in der Nähe von einer Million, wenn ich mich recht erinnere), aber er suchte nach sehr kleinen Effekten.
Lassen Sie uns sehen, was eine Zufallsstichprobe mit einer Stichprobengröße von 30 bei der Schätzung eines Stichprobenanteils übrig lässt.
Stellen Sie sich vor, wir fragen 30 Personen, ob sie der Adresse des Unionsstaats insgesamt zugestimmt haben (stimme voll und ganz zu, stimme zu, stimme nicht zu, stimme überhaupt nicht zu). Stellen Sie sich weiter vor, dass das Interesse in dem Verhältnis liegt, das entweder übereinstimmt oder stark übereinstimmt.
Sagen wir, 11 der Befragten stimmten zu und 5 stimmten voll zu, also insgesamt 16.
16/30 ist ungefähr 53%. Was sind unsere Grenzen für den Anteil in der Bevölkerung (mit einem Intervall von 95%)?
Wir können den Bevölkerungsanteil (in etwa) auf zwischen 35% und 71% festlegen, wenn unsere Annahmen zutreffen.
Nicht so nützlich.
quelle
Diese spezielle Faustregel legt nahe, dass 30 Punkte ausreichen, um anzunehmen, dass die Daten normal verteilt sind (dh wie eine Glockenkurve aussehen), aber dies ist bestenfalls eine grobe Richtlinie. Wenn dies wichtig ist, überprüfen Sie Ihre Daten! Dies deutet darauf hin, dass Sie mindestens 30 Befragte für Ihre Umfrage haben möchten, wenn Ihre Analyse von diesen Annahmen abhängt, aber es gibt auch andere Faktoren.
Ein Hauptfaktor ist die "Effektgröße". Die meisten Rennen tendieren dazu, ziemlich eng zu sein, so dass ziemlich große Stichproben erforderlich sind, um diese Unterschiede zuverlässig zu erkennen. (Wenn Sie die "richtige" Stichprobengröße ermitteln möchten, sollten Sie sich mit der Leistungsanalyse befassen. ) Wenn Sie eine Bernoulli-Zufallsvariable (mit zwei Ergebnissen) haben, die ungefähr 50:50 beträgt, benötigen Sie ungefähr 1000 Versuche, um den Standardfehler auf 1,5% zu senken. Das ist wahrscheinlich genau genug, um das Ergebnis eines Rennens vorherzusagen (die letzten 4 US-Präsidentschaftswahlen hatten eine durchschnittliche Gewinnspanne von ~ 3,2 Prozent), was gut zu Ihrer Beobachtung passt.
Die Umfragedaten werden häufig auf unterschiedliche Weise aufgeteilt und in Würfel geschnitten: "Führt der Kandidat mit Waffenbesitzern über 75 an?" oder Wasauchimmer. Dies erfordert noch größere Stichproben, da jeder Befragte nur zu wenigen dieser Kategorien passt.
Präsidentschaftswahlen werden manchmal auch mit anderen Umfragefragen (z. B. Kongressrennen) "gebündelt". Da diese von Bundesstaat zu Bundesstaat unterschiedlich sind, hat man am Ende einige "zusätzliche" Abfragedaten.
Bernoulli-Verteilungen sind diskrete Wahrscheinlichkeitsverteilungen mit nur zwei Ergebnissen: Option 1 wird mit der Wahrscheinlichkeit , während Option 2 mit der Wahrscheinlichkeit .1 - p
Die Varianz einer Bernoulli-Verteilung ist , daher ist der Standardfehler des Mittelwerts . Setzen Sie (die Wahl ist ein Gleichstand), setzen Sie den Standardfehler auf 1,5% (0,015) und lösen Sie. Sie benötigen 1.111 Probanden, um 1,5% SE zu erreichen√p(1−p) p=0,5p(1−p)n−−−−−√ p=0.5
quelle
Es gibt bereits einige ausgezeichnete Antworten auf diese Frage, aber ich möchte beantworten, warum der Standardfehler so ist, wie er ist, warum wir als den schlechtesten Fall verwenden und wie der Standardfehler mit variiert .np = 0,5 n
Angenommen, wir wählen nur einen Wähler aus, nennen ihn oder sie Wähler 1 und fragen: "Wirst du für die Purple Party stimmen?" Wir können die Antwort als 1 für "Ja" und 0 für "Nein" codieren. Angenommen, die Wahrscheinlichkeit eines "Ja" ist . Wir haben jetzt eine binäre Zufallsvariable die 1 mit der Wahrscheinlichkeit und 0 mit der Wahrscheinlichkeit . Wir sagen, dass eine Bernouilli-Variable mit Erfolgswahrscheinlichkeit , die wir in schreiben können . Die erwartete oder mittlereX 1 p 1 - p X 1 p X 1 ~ B e r n o u i l l i ( p ) X 1 E ( X 1 ) = Σ x P ( X 1 = x ) x X 1 1 - p p E ( X 1 ) = 0 ( 1 - pp X1 p 1 - p X1 p X1~ B e r n o u i l l i ( p ) X1 E ( X1) = ∑ x P( X1= x ) x X1 . Es gibt jedoch nur zwei Ergebnisse, 0 mit der Wahrscheinlichkeit und 1 mit der Wahrscheinlichkeit , sodass die Summe nur . Halte inne und denke nach. Dies sieht tatsächlich völlig vernünftig aus - wenn die Wahrscheinlichkeit, dass Wähler 1 die Purple Party unterstützt, bei 30% liegt und wir die Variable auf 1 kodiert haben, wenn sie "Ja" sagen, und 0, wenn sie "Nein" sagen, dann würden wir Erwarten Sie, dass durchschnittlich 0,3 ist.1 - p p X 1E ( X1) = 0 ( 1 - p ) + 1 ( p ) = p X1
Stellen wir uns vor, was passiert, wenn wir . Wenn dann und wenn dann . Tatsächlich ist also in beiden Fällen . Da sie gleich sind, müssen sie denselben erwarteten Wert haben, also ist . Dies gibt mir eine einfache Möglichkeit, die Varianz einer Bernouilli-Variablen zu berechnen: Ich verwende und somit ist die Standardabweichung .X 1 = 0 X 2 1 = 0 X 1 = 1 X 2 1 = 1X1 X1= 0 X21= 0 X1= 1 X21= 1 E ( X 2 1 ) = p V a r ( X 1 ) = E ( X 2 1 ) - E ( X 1 ) 2 = p - p 2 =X21= X1 E ( X21) = p σ X 1 = √Va r ( X1) = E ( X21) - E ( X1)2= p - p2=p(1−p) σX1=p(1−p)−−−−−−−√
Natürlich möchte ich mit anderen Wählern sprechen - nennen wir sie Wähler 2, Wähler 3 bis Wähler . Lassen Sie uns annehmen , dass sie alle die gleiche Wahrscheinlichkeit haben der Unterstützung der purpurrote Partei. Jetzt haben wir Bernouilli-Variablen, , bis , mit jedem für von 1 bis . Sie haben alle den gleichen Mittelwert und die gleiche Varianz .p n X 1 X 2 X n X i ~ B e r n o u l l i ( p ) i n p p ( 1 - p )n p n X1 X2 Xn Xi∼Bernoulli(p) i n p p(1−p)
Ich möchte herausfinden, wie viele Personen in meiner Stichprobe "Ja" gesagt haben, und dazu kann ich einfach alle addieren . Ich schreibe . Ich kann den Mittelwert oder den erwarteten Wert von berechnen, indem ich die Regel verwende, dass wenn diese Erwartungen bestehen, und erweitern das zu . Aber ich addiere dieser Erwartungen und jede ist , so dass ich insgesamt X = ∑ n i = 1 X i XXi X=∑ni=1Xi X E ( X 1 + X 2 + … + X n ) = E ( X 1 ) + E ( X 2 ) + … + E ( X n )E(X+Y)=E(X)+E(Y) E(X1+X2+…+Xn)=E(X1)+E(X2) + … +E(Xn) p E ( X ) = n p n pn p E (X) = n p . Halte inne und denke nach. Wenn ich 200 Leute befrage und jeder eine 30% ige Chance hat zu sagen, dass er die Purple Party unterstützt, würde ich natürlich erwarten, dass 0,3 x 200 = 60 Leute "Ja" sagen. Die Formel sieht also richtig aus. Weniger "offensichtlich" ist der Umgang mit der Varianz.n p
Es gibt eine Regel, die besagt, aber ich kann sie nur verwenden, wenn meine Zufallsvariablen unabhängig voneinander sind . Also gut, lassen Sie uns diese Annahme treffen und mit einer ähnlichen Logik wie zuvor sehen, dass . Wenn eine Variable die Summe von unabhängigen Bernoulli-Versuchen mit identischer Erfolgswahrscheinlichkeit , dann sagen wir, dass eine Binomialverteilung hat, . Wir haben gerade gezeigt, dass der Mittelwert einer solchen Binomialverteilung und die Varianz .V a r ( X ) = n p ( 1 - p ) X n p X X ∼
Unser ursprüngliches Problem war, wie man aus der Stichprobe abschätzt . Der sinnvolle Weg, unseren Schätzer zu definieren, ist . Zum Beispiel sagten 64 von 200 Befragten "Ja", wir würden schätzen, dass 64/200 = 0,32 = 32% der Befragten die Purple Party unterstützen. Sie können sehen , dass ist eine „abgespeckte“ Version unserer Gesamtzahl der Ja-Wähler, . Dies bedeutet, dass es sich weiterhin um eine Zufallsvariable handelt, die jedoch nicht mehr der Binomialverteilung folgt. Wir können seinen Mittelwert und seine Varianz ermitteln, denn wenn wir eine Zufallsvariable mit einem konstanten Faktor skalieren , befolgt sie die folgenden Regeln: (also die Mittelwertskala) um den gleichen Faktor ) undp = X / n p X k E ( k X ) = k E ( X ) k V a r ( k X ) = k 2 V a r ( X ) k 2 c m 2p p^= X/ n p^ X k E (kX) = k E ( X) k Va r ( k X) = k2Va r ( X) . Beachten Sie, wie die Varianz um skaliert . Dies ist sinnvoll, wenn Sie wissen, dass die Varianz im Allgemeinen im Quadrat der Einheiten gemessen wird, in denen die Variable gemessen wird. Dies ist hier nicht zutreffend, aber wenn unsere Zufallsvariable eine Höhe in cm gewesen wäre, wäre die Varianz in die unterschiedlich skalieren - wenn Sie die Länge verdoppeln, vervierfachen Sie die Fläche.k2 c m2
Hier ist unser Skalierungsfaktor . Dies gibt uns . Das ist toll! Im Durchschnitt ist unser Schätzer genau das, was er sein sollte, die wahre (oder Bevölkerungs-) Wahrscheinlichkeit, dass ein zufälliger Wähler sagt, dass er für die Purple Party stimmen wird. Wir sagen, dass unser Schätzer unvoreingenommen ist . Aber obwohl es im Durchschnitt korrekt ist, ist es manchmal zu klein und manchmal zu hoch. Wir können sehen, wie falsch es wahrscheinlich ist, indem wir seine Varianz betrachten. . Die Standardabweichung ist die Quadratwurzel, E( p )=11n p Var( p )=1E ( S.^) = 1nE ( X) = n pn= p p^ √Va r ( p^) = 1n2Va r ( X) = n p ( 1 - p )n2= p ( 1 - p )n p ( 1 - p )n-----√ und weil es uns einen Überblick darüber gibt, wie schlecht unser Schätzer abschneidet (es ist effektiv ein quadratischer Mittelwertfehler , eine Methode zur Berechnung des Durchschnittsfehlers, die positive und negative Fehler als gleich schlecht behandelt, indem sie vor dem Mitteln quadriert werden). Dies wird normalerweise als Standardfehler bezeichnet . Eine gute Faustregel, die für große Stichproben gut funktioniert und die mit dem berühmten zentralen Grenzwertsatz strenger behandelt werden kann , lautet, dass die Schätzung in den meisten Fällen (etwa 95%) um weniger als zwei Standardfehler falsch ist.
Da es im Nenner des Bruches erscheint, verringern höhere Werte von - größeren Abtastwerten - den Standardfehler. Das sind großartige Neuigkeiten, denn wenn ich einen kleinen Standardfehler haben möchte, mache ich die Stichprobengröße einfach groß genug. Die schlechte Nachricht ist, dass innerhalb einer Quadratwurzel liegt. Wenn ich also die Stichprobengröße vervierfache, halbiere ich nur den Standardfehler. Bei sehr kleinen Standardfehlern handelt es sich um sehr große und daher teure Stichproben. Es gibt noch ein anderes Problem: Wenn ich einen bestimmten Standardfehler als Ziel festlegen möchte, z. B. 1%, muss ich wissen, welcher Wert von für meine Berechnung verwendet werden soll. Ich könnte historische Werte verwenden, wenn ich frühere Abfragedaten habe, aber ich möchte mich auf den schlimmsten Fall vorbereiten. Welcher Wert vonn p pn n p p ist am problematischsten? Ein Diagramm ist lehrreich.
Der schlechteste (höchste) Standardfehler tritt auf, wenn . Um zu beweisen, dass ich Kalkül verwenden könnte, aber eine Algebra der High School wird den Trick tun, solange ich weiß, wie man " das Quadrat vervollständigt ".p = 0,5
Der Ausdruck ist, dass die eckigen Klammern immer eine Null oder eine positive Antwort zurückgeben, die dann von einem Viertel weggenommen wird. Im schlimmsten Fall (großer Standardfehler) wird so wenig wie möglich weggenommen. Ich weiß, dass das Mindeste, das subtrahiert werden kann, Null ist, und das wird auftreten, wenn , also wenn . Das Ergebnis ist, dass ich größere Standardfehler bekomme, wenn ich versuche, die Unterstützung für z. B. Parteien in der Nähe von 50% der Stimmen zu schätzen, und niedrigere Standardfehler, wenn ich die Unterstützung für Vorschläge schätze, die wesentlich mehr oder wesentlich weniger populär sind. Tatsächlich zeigt mir die Symmetrie meines Diagramms und meiner Gleichung, dass ich für meine Schätzungen der Unterstützung der Lila Partei den gleichen Standardfehler erhalten würde, unabhängig davon, ob sie 30% Unterstützung durch die Bevölkerung oder 70% hatten.p=1p - 12= 0 p = 12
Wie viele Personen muss ich abfragen, um den Standardfehler unter 1% zu halten? Dies würde bedeuten, dass meine Schätzung die meiste Zeit innerhalb von 2% des korrekten Anteils liegen wird. Ich weiß jetzt, dass der schlechteste Standardfehler , was mir und so . Das würde erklären, warum Sie Umfragezahlen in den Tausenden sehen.√0,25n---√= 0,5n√< 0,01 n>2500n--√> 50 n > 2500
In Wirklichkeit ist ein niedriger Standardfehler keine Garantie für eine gute Schätzung. Viele Abstimmungsprobleme sind eher praktischer als theoretischer Natur. Ich nahm zum Beispiel an, dass die Stichprobe aus zufälligen Wählern mit der gleichen Wahrscheinlichkeit , aber eine "zufällige" Stichprobe im wirklichen Leben zu nehmen ist schwierig. Sie können Telefon- oder Online-Umfragen durchführen - aber nicht nur, dass nicht jeder einen Telefon- oder Internetzugang hat, sondern auch diejenigen, die keine sehr unterschiedlichen demografischen Merkmale (und Abstimmungsabsichten) aufweisen als diejenigen, die dies tun. Um eine Verzerrung der Ergebnisse zu vermeiden, werten die Umfragegesellschaften ihre Stichproben tatsächlich nach allen möglichen Kriterien und nicht nach dem einfachen Durchschnitt∑ X ip ∑ Xichn das habe ich genommen. Auch die Leute lügen Umfrageteilnehmer an! Die unterschiedlichen Möglichkeiten, mit denen die Meinungsforscher diese Möglichkeit kompensieren, sind offensichtlich umstritten. Sie können eine Vielzahl von Ansätzen darin sehen, wie Umfrageunternehmen in Großbritannien mit dem sogenannten Shy Tory Factor umgegangen sind. Eine Korrekturmethode bestand darin, zu prüfen, wie die Menschen in der Vergangenheit abgestimmt haben, um zu beurteilen, wie plausibel ihre angebliche Wahlabsicht ist. Es stellt sich jedoch heraus, dass viele Wähler sich einfach nicht an ihre Wahlgeschichte erinnern , auch wenn sie nicht lügen . Wenn Sie dieses Zeug haben, gibt es ehrlich gesagt sehr wenig Sinn, den "Standardfehler" auf 0,00001% zu senken.
Zum Schluss einige Grafiken, die zeigen, wie die erforderliche Stichprobengröße nach meiner vereinfachten Analyse durch den gewünschten Standardfehler beeinflusst wird und wie schlecht der "worst case" -Wert von im Vergleich zu den zugänglicheren Anteilen ist. Denken Sie daran , dass die Kurve für würde zu den einem identisch sein aufgrund der Symmetrie der früheren Graphen vonp = 0,5 p = 0,7 p = 0,3 p ( 1 - p )-------√
quelle
Die "mindestens 30" -Regel wird in einem anderen Posting auf Cross Validated angesprochen . Es ist bestenfalls eine Faustregel.
Wenn Sie an eine Stichprobe denken, die Millionen von Menschen repräsentieren soll, müssen Sie eine viel größere Stichprobe als 30 haben. Intuitiv können 30 Personen nicht einmal eine Person aus jedem Bundesstaat einbeziehen! Stellen Sie sich dann vor, Sie möchten Republikaner, Demokraten und Unabhängige (zumindest) repräsentieren und für jede dieser Gruppen möchten Sie ein paar verschiedene Alterskategorien und für jede dieser Gruppen ein paar verschiedene Einkommenskategorien repräsentieren.
Mit nur 30 angerufenen Personen werden Sie riesige Teile der Demografie verpassen, die Sie abtasten müssen.
EDIT2: [Ich habe den Absatz entfernt, gegen den Abaumann und StasK Einwände erhoben haben. Ich bin immer noch nicht zu 100% überzeugt, aber besonders StasKs Argument kann ich nicht ablehnen.] Wenn die 30 Personen wirklich völlig zufällig aus allen Wahlberechtigten ausgewählt würden, wäre die Stichprobe in gewissem Sinne gültig, aber zu klein, um Sie können unterscheiden, ob die Antwort auf Ihre Frage tatsächlich richtig oder falsch war (unter allen Wahlberechtigten). StasK erklärt in seinem dritten Kommentar, wie schlimm es sein würde.
BEARBEITEN: Als Antwort auf den Kommentar von samplesize999 gibt es eine formale Methode zur Bestimmung, wie groß genug ist, die " Leistungsanalyse ", die auch hier beschrieben wird . Der Kommentar von abaumann zeigt, wie sich Ihre Fähigkeit zur Unterscheidung von Unterschieden von der Datenmenge unterscheidet, die Sie für eine gewisse Verbesserung benötigen. Wie er zeigt, enthält die Berechnung eine Quadratwurzel, was bedeutet, dass der Nutzen (in Bezug auf die Leistungssteigerung) immer langsamer zunimmt oder die Kosten (in Bezug auf die Anzahl der benötigten Proben) immer schneller zunehmen, so dass Sie dies wünschen genug Proben, aber nicht mehr.
quelle
Viele gute Antworten wurden bereits gepostet. Lassen Sie mich einen anderen Rahmen vorschlagen, der die gleiche Reaktion liefert, aber die Intuition fördern könnte.
qbeta(0.025, n/2, n/2)
> qbeta(0.025, 1067/2, 1067/2) [1] 0.470019
Welches ist unser gewünschtes Ergebnis.
Zusammenfassend lässt sich sagen, dass 1.067 Befragte, die gleichmäßig zwischen "Ja" - und "Nein" -Antworten aufgeteilt sind, zu 95% davon ausgehen, dass der tatsächliche Anteil der Befragten mit "Ja" zwischen 47% und 53% liegt.
quelle