Konfidenzintervalle gegen Stichprobengröße?

Ich bin völlig neu in Statistiken und im Bereich der Konfidenzintervalle. Das könnte also sehr trivial sein oder sogar dumm klingen. Ich würde mich freuen, wenn Sie mir helfen könnten, Literatur / Text / Blog zu verstehen oder darauf hinzuweisen, die dies besser erklären.

Ich sehe auf verschiedenen Nachrichtenseiten wie CNN, Fox News, Politico usw. ihre Umfragen zum US-Präsidentenrennen 2012. Jede Agentur führt einige Umfragen durch und meldet einige Statistiken des Formulars:

CNN: Die Popularität von Obama beträgt X% mit einer Fehlerquote von +/- x1%. Stichprobengröße 600. FOX: Die Popularität von Obama beträgt Y% mit einer Fehlerquote von +/- y1%. Stichprobengröße 800. XYZ: Die Popularität von Obama beträgt Z% mit einer Fehlerquote von +/- z1%. Probengröße 300.

Hier sind meine Zweifel:

Wie entscheide ich, welchem ich vertrauen soll? Sollte es auf dem Konfidenzintervall basieren oder sollte ich davon ausgehen, dass die Schätzung von Fox zuverlässiger ist, da es eine größere Stichprobe hat? Gibt es eine implizite Beziehung zwischen den Vertrauenswerten und der Stichprobengröße, sodass bei der Angabe des einen nicht mehr der andere angegeben werden muss?
Kann ich die Standardabweichung von den Konfidenzintervallen bestimmen? Wenn ja, ist es immer gültig oder nur für bestimmte Distributionen (wie Gauß)?
Gibt es eine Möglichkeit, die oben genannten drei Schätzungen "zusammenzuführen" oder "zu kombinieren" und meine eigene Schätzung zusammen mit Konfidenzintervallen zu erhalten? Welche Stichprobengröße sollte ich in diesem Fall beanspruchen?

Ich habe CNN / Fox nur erwähnt, um mein Beispiel besser zu erklären. Ich habe nicht die Absicht, hier eine Debatte zwischen Demokraten und Republikanern zu beginnen.

Bitte helfen Sie mir, die von mir angesprochenen Probleme zu verstehen.

confidence-interval sample-size Nik
quelle

Antworten:

Zusätzlich zu Peters großartiger Antwort finden Sie hier einige Antworten auf Ihre spezifischen Fragen:

Wem man vertrauen kann, hängt auch davon ab, wer die Umfrage durchführt und welche Anstrengungen er unternimmt, um eine qualitativ hochwertige Umfrage zu erhalten. Eine größere Stichprobe ist nicht besser, wenn die Stichprobe nicht repräsentativ ist und eine große Umfrage durchführt, sondern nur in einem nicht schwingenden Zustand keine sehr guten Ergebnisse liefert.

Es gibt eine Beziehung zwischen der Stichprobengröße und der Breite des Konfidenzintervalls, aber auch andere Faktoren beeinflussen die Breite, z. B. wie nahe der Prozentsatz an 0, 1 oder 0,5 liegt. Welche Bias-Anpassungen wurden verwendet, wie wurde die Stichprobe entnommen (Clustering, Stratifizierung usw.)? Die allgemeine Regel lautet, dass die Breite des Konfidenzintervalls proportional zu ist. Um das Intervall zu halbieren, benötigen Sie das 4-fache der Stichprobengröße. $\frac{1}{\sqrt{n}}$
Wenn Sie genug darüber wissen, wie die Stichprobe gesammelt wurde und welche Formel zur Berechnung des Intervalls verwendet wurde, können Sie nach der Standardabweichung suchen (Sie müssen auch das verwendete Konfidenzniveau kennen, normalerweise 0,05). Die Formel unterscheidet sich jedoch für geschichtete und Cluster-Stichproben. Außerdem beziehen sich die meisten Umfragen auf Prozentsätze, sodass die Binomialverteilung verwendet wird.
Es gibt Möglichkeiten, die Informationen zu kombinieren, aber Sie müssen im Allgemeinen etwas darüber wissen, wie die Proben gesammelt wurden, oder bereit sein, Annahmen darüber zu treffen, wie die Intervalle erstellt wurden. Ein Bayes'scher Ansatz ist eine Möglichkeit.

Greg Snow
quelle

+1. Aber sind die Aussichten für # 3 wirklich so düster oder schwierig? Wenn ich eine Sammlung unabhängiger Schätzungen habe, von denen jede ihre eigene Fehlerquote hat, warum kann ich sie dann nicht (zumindest grob) auf die übliche Weise (als gewichtetes Mittel, umgekehrt gewichtet mit quadratischen MoEs) kombinieren und ihre Standardfehler als kombinieren gut (unter Verwendung von Varianzformeln)? Es wäre nicht perfekt, aber es sollte besser sein, als eine Umfrage zu wählen, auf die man sich verlassen kann, oder?

whuber

Danke Greg! Ich freue mich sehr über Ihre Antworten. Sie haben in Ihrer Antwort auf Frage 3 erwähnt, dass "ein Bayes'scher Ansatz eine Möglichkeit ist". Könnten Sie mich auf eine Literatur verweisen, die mehr Informationen dazu enthält?

Nik

@whuber: Danke für deinen Kommentar. Daran hatte ich gedacht. Halten Sie es für gerechtfertigt, diese Schätzungen auf diese Weise zu kombinieren? Kann nicht ganz sein, aber zu einem großen Teil?

Nik

@whuber, ich wollte es nicht als trostlos malen, nur um sicherzustellen, dass das Poster die erforderlichen Annahmen kennt und mit ihnen leben kann.

Greg Snow

@Nik, es gibt viele Tutorials im Internet für Bayes'sche Statistiken. Ein einfacher Ansatz (der davon ausgehen würde, dass es sich bei den Stichproben um einfache Zufallsstichproben handelt oder dass das Umfragedesign so ist, dass die SRS-Annahme nicht weit entfernt ist) besteht darin, mit einer Beta-Version zu beginnen und dann jede Umfrage mit einer binomialen Wahrscheinlichkeit zu verwenden Update und bekomme einen neuen Posterior. Eine schöne Sache am Bayes-Ansatz ist, dass Sie die Auswirkungen der vorherigen Studien außer Acht lassen können, wenn Sie nicht möchten, dass sie so viel Einfluss haben wie die letzte Umfrage.

Greg Snow

Dies ist ein großes Thema, aber im Grunde gibt es zwei Probleme:

1) Präzision - Dies wird durch die Probengröße bestimmt. Größere Stichproben liefern genauere Schätzungen mit geringerem Standardfehler und engeren Konfidenzintervallen

2) Verzerrung - die in der Statistik nicht unbedingt die negativen Konnotationen hat, die sie anderswo hat. In Umfragen versuchen sie, eine Zufallsstichprobe von XXXX zu erhalten (manchmal wahrscheinliche Wähler, manchmal registrierte Wähler). Aber sie tun es nicht. Einige Umfragen verwenden nur Festnetzanschlüsse. Verschiedene Personengruppen antworten mehr oder weniger wahrscheinlich. Verschiedene Gruppen legen mehr oder weniger einfach auf.

Alle Meinungsforscher gewichten also ihre Antworten. Das heißt, sie versuchen, ihre Ergebnisse an bekannte Fakten über Wähler anzupassen. Aber sie alle machen es ein bisschen anders. Selbst bei denselben Abfrageeingabedaten geben sie unterschiedliche Zahlen an.

Wem kann man vertrauen? Wenn Sie sich Nate Silvers Arbeit zu 538 ansehen, hat er Bewertungen, wie genau die Meinungsforscher bei früheren Wahlen waren. Das heißt aber nicht, dass sie jetzt gleich genau sind.

Peter Flom - Monica wieder einsetzen
quelle

Danke Peter. Eine Schätzung mit geringerer Fehlerquote ist also „präziser“. Gibt es eine Möglichkeit, anhand der Fehlerquote von nur X% +/- x1% zu erkennen, wie voreingenommen es ist? Ich denke, das ist nur möglich, wenn Sie die Vorlieben der einzelnen Proben kennen, oder?

Nik

Ja, das ist richtig. Natürlich haben einige Meinungsforscher bekannte Vorurteile (in die eine oder andere Richtung). Interne Umfragen (von der einen oder anderen Partei durchgeführt) sind häufig voreingenommen. Eine Möglichkeit, dies zu tun, besteht darin, mehrere Umfragen durchzuführen und nur diejenigen freizugeben, die günstig sind. Dann gibt es die ganze Ausgabe von "Push-Umfragen", bei denen Fragen zu einem Kandidaten negative Fragen zu ihm oder ihr vorangestellt werden.

Peter Flom - Monica wieder einsetzen

Dies fällt in den Bereich der Stichprobenerhebung. Im Prinzip funktionieren die Methoden, weil Randomisierung verwendet wird. Hier sind die Dinge, die sich in Umfragen aufgrund subjektiver Entscheidungen unterscheiden können.

Stichprobenrahmen. Aus welcher Wählergruppe soll ich meine Stichprobe ziehen?
Wie gehe ich mit der Volatilität des unentschlossenen Wählers um, der seine Meinung zu Obama gegen Romney aufgrund der gestrigen Umfrage oder der nächsten Wochen ändern könnte?
Peter hat Voreingenommenheit berührt. Die literarische Übersicht von 1936 war eine Katastrophe. Der republikanische Kandidat wurde über FDR ausgewählt, da der Stichprobenrahmen auf einer zufälligen Auswahl von Telefonnummern beruhte. 1936 hatten nur die obere Mittelschicht und die Reichen Telefone. Diese Gruppe wurde von Republikanern dominiert, die dazu neigen, für den republikanischen Kandidaten zu stimmen. Roosevelt gewann durch einen Erdrutsch, der seine Stimmen von den Armen und der Mittelklasse erhielt, die eher eine Gruppe von Demokraten waren! Dies veranschaulicht die Verzerrung aufgrund der subtil schlechten Wahl eines Abtastrahmens.
Die Stichprobenerhebung befasst sich mit endlichen Populationen. Die Populationsgröße ist N. Angenommen, aus dieser Population wird eine einfache Zufallsstichprobe gezogen, die die Größe n hat. Der Einfachheit halber nehmen wir an, dass nur Obama und Romney laufen. Der Stimmenanteil, den Obama für diesen Stichprobenrahmen erhalten würde, ist ein Durchschnitt der binären Variablen (sagen wir 1, wenn der Befragte Obama auswählt, und 0 für Romney). Die Varianz des Stichprobenmittelwerts für diese Variable beträgt [p (1-p) / n] [Nn] / N, wobei p der wahre Bevölkerungsanteil ist, der Obama auswählen würde. [Nn] / N ist die endliche Populationskorrektur. In den meisten Umfragen ist N viel größer als N und das Richtige kann ignoriert werden. Wenn wir p (1-p) / n betrachten, sehen wir, dass die Varianz mit n abnimmt. Wenn also n groß ist, wird das Konfidenzintervall bei einem gegebenen Konfidenzniveau klein.

Umfrageteilnehmer, andere Umfragestichproben und Statistiker des US Census Bureau, verfügen alle über diese statistischen Tools und führen komplexere und genauere Methoden durch (Cluster-Zufallsstichprobe und geschichtete Zufallsstichprobe, um nur einige Methoden zu nennen).

Wenn ihre Modellannahmen gültig sind, funktionieren die Methoden bemerkenswert gut. Exit Polling ist ein Paradebeispiel. Am Wahltag werden Sie sehen, wie die Netzwerke in fast allen Bundesstaaten den Projektgewinner genau vor einer nahezu endgültigen Zählung projizieren. Das liegt daran, dass die Variabilität des Vorwahltages weg ist. Sie wissen historisch, wie die Menschen dazu neigten zu wählen, und sie können ausgewählte Bezirke so bestimmen, dass Verzerrungen vermieden werden. Die Netzwerke unterscheiden sich manchmal. Dies kann auf einen Wettbewerb zurückzuführen sein, bei dem der Gewinner vor der Mentalität der anderen ausgewählt wird. In seltenen Fällen kann dies auch daran liegen, dass die Abstimmung extrem eng ist (z. B. Präsidentschaftswahl 2000 in Florida).

Ich hoffe, dies gibt Ihnen ein klareres Bild davon, was vor sich geht. Wir sehen keine groben Fehler mehr wie "Dewey besiegt Truman" von 1948 oder das Fiasko von Literary Digest von 1936. Aber Statistiken sind nicht perfekt und Statistiker können niemals sagen, dass sie sicher sind.

Michael R. Chernick
quelle

Danke für die ausführliche Erklärung. Das hat wirklich geholfen!

Nik

Wir sehen keine groben Fehler mehr? Also hat Clinton 2016 gewonnen, oder? Ich nehme deine bekannten Unbekannten und ziehe dir einen schwarzen Schwan auf . Wie mein Vater immer sagte: "Was du nicht weißt, bringt dich um."

Carl

Meine Antwort hatte nichts mit Clinton und den Wahlen 2016 zu tun, die viele seltsame Probleme hatten. (1) Russische Intervention, (2) Clinton gewann die Volksabstimmung und (3) einige Trump-Wähler waren zurückhaltend zuzugeben, dass sie für Trump stimmen würden. Vielleicht sollte ich hinzufügen, dass Umfragen falsch sein können, wenn die Wahlbeteiligung nicht den Erwartungen entspricht.

Michael R. Chernick