Ich lese gerade einen Artikel über den Wahlort und die Wahlpräferenz bei den Wahlen 2000 und 2004. Darin befindet sich ein Diagramm, in dem die logistischen Regressionskoeffizienten angezeigt werden. Aus Kursen vor Jahren und ein wenig nachlesenIch verstehe unter logistischer Regression eine Möglichkeit, die Beziehung zwischen mehreren unabhängigen Variablen und einer binären Antwortvariablen zu beschreiben. Was mich verwirrt, ist, dass der Süden laut nachstehender Tabelle einen logistischen Regressionskoeffizienten von 0,903 hat. Bedeutet das, dass 90,3% der Südstaatler Republikaner sind? Aufgrund der logistischen Natur der Metrik besteht diese direkte Korrelation nicht. Stattdessen gehe ich davon aus, dass man nur sagen kann, dass der Süden mit 0,903 mehr Republikaner stimmt als die Berge / Ebenen, mit einer Regression von 0,506. Wenn letzteres der Fall ist, woher weiß ich, was wichtig ist und was nicht und ist es möglich, einen Prozentsatz der republikanischen Stimmen unter Berücksichtigung dieses logistischen Regressionskoeffizienten zu extrapolieren.
Als Randnotiz, bitte bearbeite meinen Beitrag, wenn etwas falsch angegeben ist
quelle
Antworten:
Dass der Autor jemanden, der so nachdenklich ist wie Sie, gezwungen hat, eine solche Frage zu stellen, ist ein überzeugendes Beispiel dafür, warum die immer noch viel zu verbreitete Praxis, die Berichterstattung über Regressionsmodellergebnisse auf eine Tabelle wie diese zu beschränken, so inakzeptabel ist.
Sie können, wie bereits erwähnt, versuchen, den Logit-Koeffizienten in einen aussagekräftigen Hinweis auf den für den betreffenden Prädiktor geschätzten Effekt umzuwandeln. Dies ist jedoch umständlich und vermittelt keine Informationen über die Genauigkeit der Vorhersage, die normalerweise in a sehr wichtig ist logistisches Regressionsmodell (insbesondere bei Abstimmungen).
Die Verwendung mehrerer Sternchen zur Angabe von "Signifikanzniveaus" untermauert auch die falsche Annahme, dass p-Werte ein aussagekräftiger Index für die Effektgröße sind ("wow - dass man 3 Sternchen hat !!"). für lautes schreien, mit w / n von 10.000 bis 20.000, sind völlig unbedeutende unterschiede bei p <0,001 bla bla "signifikant".
Es besteht absolut kein Grund, auf diese Weise zu mystifizieren. Das logistische Regressionsmodell ist eine Gleichung, die verwendet werden kann (durch Bestimmungsberechnung oder besser durch Simulation), um die Wahrscheinlichkeit eines von bestimmten Werten abhängigen Ergebnisses für Prädiktoren, die einem Messfehler unterliegen, vorherzusagen. Also sollte der Forscher berichtenWelchen Einfluss haben interessierende Prädiktoren auf die Wahrscheinlichkeit der interessierenden Ergebnisvariablen und des zugehörigen CI, gemessen in Einheiten, deren praktische Bedeutung leicht erfasst werden kann? Um ein sofortiges Erfassen zu gewährleisten, sollten die Ergebnisse grafisch angezeigt werden. Hier könnte der Forscher zum Beispiel berichten, dass die Wahrscheinlichkeit, einen Republikaner zu wählen, im Gegensatz zu einem städtischen Wähler, um X Prozentpunkte steigt (ich schätze es auf 17 im Jahr 2000; "durch 4 teilen" ist eine vernünftige Heuristik) +/- x% bei einem Vertrauensniveau von 0,95 - wenn das etwas ist, das nützlich zu wissen ist.
Das Melden von Pseudo R ^ 2 ist auch ein Zeichen dafür, dass der Modellierer eher mit statistischen Ritualen beschäftigt ist als mit dem Versuch zu beleuchten. Es gibt unzählige Möglichkeiten, "Pseudo R ^ 2" zu berechnen. man könnte sich beschweren, dass der hier verwendete nicht spezifiziert ist, aber warum sich die Mühe machen? Alle sind so gut wie bedeutungslos. Der einzige Grund, warum jemand Pseudo-R ^ 2 verwendet, ist, dass er oder der Prüfer, der ihn quält, (wahrscheinlich vor 25 oder mehr Jahren) erfahren hat, dass die lineare OLS-Regression der heilige Gral der Statistik ist und denkt, das einzige, was man jemals herausfinden will ist "Varianz erklärt." Es gibt viele vertretbare Möglichkeiten, die Angemessenheit des Gesamtmodells für die logistische Analyse zu bewerten, und die Wahrscheinlichkeitsquote liefert aussagekräftige Informationen für den Vergleich von Modellen, die alternative Hypothesen widerspiegeln. King, G. Wie man nicht mit Statistiken lügt. Am. J. Pol. Sci. 30, 666 & ndash; 687 (1986).
Wenn Sie einen Artikel lesen, in dem die Berichterstattung mehr oder weniger auf eine Tabelle wie diese beschränkt ist, lassen Sie sich nicht verwirren, lassen Sie sich nicht einschüchtern und lassen Sie sich auf keinen Fall beeindrucken. Seien Sie stattdessen wütend und sagen Sie dem Forscher, dass er oder sie einen miesen Job macht (insbesondere, wenn er oder sie Ihr lokales intellektuelles Umfeld mit Mystik und Ehrfurcht verschmutzt) / c Sie können eine Tabelle erzeugen, die diese nicht verstehen können. Informationen zu intelligenten und gemäßigten Darstellungen dieser Ideen finden Sie in King, G., Tomz, M. und Wittenberg, J. Statistische Analysen optimal nutzen : Interpretation und Präsentation verbessern . Am. J. Pol. Sci. 44, 347 & ndash; 361 (2000); und Gelman, A., Pasarica, C. & Dodhia, R.Lassen Sie uns üben, was wir predigen: Tabellen in Grafiken verwandeln . Am. Stat. 56, 121 & ndash; 130 (2002).
quelle
quelle
Die Koeffizienten in der logistischen Regression repräsentieren die Tendenz einer bestimmten Region / Bevölkerungsgruppe, Republikaner zu wählen, verglichen mit einer Referenzkategorie. Ein positiver Koeffizient bedeutet, dass die Region eher Republikaner wählt und umgekehrt für einen negativen Koeffizienten. Ein größerer absoluter Wert bedeutet eine stärkere Tendenz als ein kleinerer Wert.
Die Referenzkategorien sind "Nordosten" und "Stadtwähler", daher stellen alle Koeffizienten Kontraste zu diesem bestimmten Wählertyp dar.
Im Allgemeinen gibt es auch keine Beschränkung für die Koeffizienten in einer logistischen Regression auf [0, 1], auch nicht in absoluten Werten. Beachten Sie, dass der Wikipedia-Artikel selbst ein Beispiel für eine logistische Regression mit Koeffizienten von -5 und 2 enthält.
quelle
Sie fragten auch: "Woher weiß ich, was wichtig ist und was nicht?" (Ich nehme an, Sie meinen statistisch signifikant, da praktische oder inhaltliche Signifikanz eine andere Sache ist.) Die Sternchen in der Tabelle verweisen auf die Fußnote: Einige Effekte weisen kleine p- Werte auf. Diese werden unter Verwendung eines Wald-Tests der Signifikanz jedes Koeffizienten erhalten. Unter der Annahme einer Zufallsstichprobe bedeutet p <0,05, dass die Wahrscheinlichkeit, dass eine Verbindung so stark wie die beobachtete oder stärkere in einer Stichprobe dieser Größe zu sehen ist, geringer als 0,05 wäre, wenn in der größeren Population kein derartiger Effekt vorhanden wäre . Sie werden auf dieser Site viele Threads sehen, die den subtilen, aber wichtigen verwandten Punkt diskutieren, den p <.05 nicht tut bedeuten, dass es eine Wahrscheinlichkeit von 0,05 gibt, dass in der größeren Bevölkerung kein Zusammenhang besteht.
quelle
Lassen Sie mich nur die Wichtigkeit von rolando2 und dmk38 hervorheben: Signifikanz wird häufig falsch verstanden, und es besteht ein hohes Risiko, dass dies mit dieser tabellarischen Darstellung der Ergebnisse einhergeht.
Paul Schrodt hat kürzlich eine nette Beschreibung des Problems gegeben:
(fn) Die Fußnote informiert auch über ein anderes Thema, das von dmk38 erwähnt wird: „[der allgegenwärtige mystische Kult der Sterne und P-Werte] ersetzte den früheren - und ebenso allgegenwärtigen - Kult des höchsten R2, der von King (1986) zerstört wurde. . "
quelle