Ich brauche Hilfe, um zu erklären und grundlegende statistische Texte, Dokumente oder andere Verweise zu zitieren, warum es im Allgemeinen falsch ist, die bei der Umfrage gemeldete MOE-Statistik (Margin of Error) zu verwenden, um naiv einen statistischen Gleichstand zu erklären.
Ein Beispiel: Kandidat A führt Kandidat B in einer Umfrage an, Prozent, 4,5 % Fehlerquote bei 500 befragten Wählern.
Meine Freunde begründen das so:
Aufgrund der Komplexität der statistischen Modellierung bedeutet die Fehlerquote, dass die tatsächliche Unterstützung von A nur 34,5 Prozent und die von B sogar 35,5 Prozent betragen kann. Daher befinden sich A und B tatsächlich in einem statistischen Totpunkt.
Alle helfen gerne dabei, die Argumentation meines Freundes klar zu formulieren. Ich habe versucht , zu erklären , dass es falsch ist , zu naiv , die Hypothese „A führt B“ , wenn ablehnen .
Es ist einfacher, anhand von Standardabweichungen als anhand von Konfidenzintervallen zu erklären.
Außerhalb dieses einfachen Modells , wennpA+pB=1 pA pB SD(pA−pB)≪2SD(pA) .
Aber all diese Nuancen scheinen darauf hinzudeuten, dass die Meinungsforschungsorganisationen die Fehlerquote für die Differenz angeben sollten. Wo ist Nate Silver?
quelle
Das ist nicht nur eine schlechte Art, Dinge zu bezeichnen, sondern auch keine statistische Totglut.
Das MOE ist nur eine Seite eines Konfidenzintervalls, und Sie scheinen es in einem Aspekt korrekt anzuwenden. Es ist unwahrscheinlich, dass die Punktzahl von Kandidat B höher als 35,5% ist. Da es sich normalerweise um ein 95% -Konfidenzintervall handelt, liegt die Punktzahl von Kandidat B in weniger als 5% der Fälle über 35,5%. Nicht unmöglich, wird normalerweise als unwahrscheinlich angesehen. Andererseits hat eine Punktzahl von beispielsweise 34% auch eine Grenzwahrscheinlichkeit. Es wird nur nicht berichtet. Es ist wahrscheinlich etwas weniger zufällig, wir wissen nur nicht, was es von der MOE alleine ist. Daher ist es völlig falsch zu sagen, dass Punktzahlen mit dem MOE-Cutoff alle zufällig gleich wahrscheinlich sind. Welches ist die Implikation der Behauptung der statistischen Totwärme.
Darüber hinaus verwenden Sie auf diese Weise keine überlappenden Konfidenzintervalle. Wenn Sie wirklich nur sagen wollten, dass Kandidat A gewinnen würde, wenn die Gewinnwahrscheinlichkeit von Kandidat B weniger als 5% betrug, dann liegt Kandidat A definitiv an der Spitze. Der Vorsprung beträgt 8%. Das Konfidenzintervall dieser Subtraktionsbewertung ist nicht doppelt so hoch wie das Konfidenzintervall der einzelnen Bewertungen, sondern nur das Quadrat (2) -fache dieser Bewertungen. Das liegt daran, dass das Ermitteln der Differenz zwischen den Werten nur die doppelte Varianz bedeuten würde. Das Konfidenzintervall basiert auf einem Quadrat der Varianz, daher ergibt sich aus deren Kombination der Durchschnitt (4,5) * Quadrat (2). Da der MOE Ihres 8% igen Vorsprungs ungefähr 6,4% beträgt, liegt Kandidat A an der Spitze.
Abgesehen davon sind MOEs sehr konservativ und basieren auf dem 50% -Wahlwert. Die Formel lautet sqrt (0.25 / n) * 2. Es gibt eine Formel zur Berechnung von Standardfehlern der Differenzwerte, die wir ebenfalls verwenden könnten. Wir würden dies eher unter Verwendung der gefundenen Werte als unter Verwendung des 50% -Grenzwerts anwenden, und dies gibt uns immer noch einen signifikanten Vorsprung für Kandidat A (7,5% MOE). Ich glaube, angesichts des Kommentars der Fragesteller und der Nähe dieses Grenzwerts zu dem ausgewählten hypothetischen, war dies wahrscheinlich das, wonach sie gesucht haben. Meine Antwort gefällt mir jedoch besser, da sie in diesem Fall mathematisch gesehen zwar nicht die beste ist, aber im Allgemeinen die richtige Methode zum Vergleichen von Daten ist, bei denen Konfidenzintervalle für einzelne Werte angegeben werden, und einen Rahmen für die Überlegung bietet, warum sich der CI nicht verdoppelt.
Eine Einführung in die Vertrauensbereiche und in die Stromversorgung wäre hier hilfreich. Sogar der Wikipedia-Artikel über MOE sieht ziemlich gut aus.
quelle