Wie kann ein Regressionsmodell von Nutzen sein, wenn Sie die Funktion nicht kennen, für die Sie die Parameter abrufen möchten?
Ich habe eine Studie gesehen, aus der hervorgeht, dass Mütter, die ihre Kinder gestillt haben, im späteren Leben mit geringerer Wahrscheinlichkeit an Diabetes leiden. Die Untersuchung wurde aus einer Umfrage unter rund 1000 Müttern unter Berücksichtigung verschiedener Faktoren durchgeführt und es wurde ein loglineares Modell verwendet.
Bedeutet das nun, dass sie alle Faktoren, die die Wahrscheinlichkeit von Diabetes bestimmen, für eine nette Funktion (vermutlich exponentiell) halten, die sich in einem linearen Modell mit Protokollen niederschlägt und bei der sich herausstellte, ob die gestillte Frau statistisch signifikant ist?
Ich vermisse etwas, von dem ich mir sicher bin, aber woher zum Teufel kennen sie das Modell?
quelle
Antworten:
Es hilft, die Regression als lineare Annäherung an die wahre Form zu betrachten. Angenommen, die wahre Beziehung ist
quelle
Die andere Seite der Antwort, die zur Antwort von mpiktas komplementär ist, aber bisher nicht erwähnt wurde, lautet:
"Sie tun es nicht, aber sobald sie eine Modellstruktur annehmen, können sie diese mit den Daten vergleichen."
Die zwei grundlegenden Dinge, die schief gehen könnten, sind: Die Form der Funktion, z. B. ist sie in Protokollen nicht einmal linear. Beginnen Sie mit dem Plotten eines geeigneten Residuums gegen die erwarteten Werte. Oder die Wahl der bedingten Verteilung , z. B. die beobachteten Zählungen, die relativ zu Poisson überdispers sind. Sie würden also gegen eine Negative Binomial-Version desselben Modells testen oder prüfen, ob zusätzliche Kovariaten für die zusätzliche Variation verantwortlich sind.
Sie sollten auch nach Ausreißern, einflussreichen Beobachtungen und vielen anderen Dingen suchen. Ein vernünftiger Ort, um diese Art von Modellproblemen zu untersuchen, ist Kapitel 5 von Cameron und Trivedi 1998. (Es gibt sicherlich einen besseren Ort für epidemiologisch orientierte Forscher, um damit zu beginnen - vielleicht können andere Leute dies vorschlagen.)
Wenn diese Diagnose ergab, dass das Modell nicht zu den Daten passt, ändern Sie den relevanten Aspekt des Modells und starten den gesamten Prozess erneut.
quelle
Eine exzellente erste Frage! Ich stimme der Antwort von mpiktas zu, dh die kurze Antwort lautet "Sie tun es nicht, aber sie hoffen auf eine Annäherung an das richtige Modell, das ungefähr die richtige Antwort liefert".
Im Fachjargon der Epidemiologie ist diese Modellunsicherheit eine Quelle für das, was als " Residual Confounding " bekannt ist. Siehe Steve Simons Seite 'Was ist Restverwirrung?' für eine gute Kurzbeschreibung oder Heiko Bechers Artikel in Statistics in Medicine von 1992 (Abonnement erforderlich) für eine längere, mathematischere Behandlung oder Fewell, Davey Smith & Sterns neuerer Artikel im American Journal of Epidemiology (Abonnement erforderlich) ).
Dies ist einer der Gründe, warum die Epidemiologie kleiner Effekte schwierig und die Ergebnisse häufig umstritten ist. Wenn die gemessene Effektgröße klein ist, können verbleibende Störfaktoren oder andere Verzerrungsfaktoren als Erklärung nur schwer ausgeschlossen werden.
quelle
Es gibt das berühmte Zitat "Im Wesentlichen sind alle Modelle falsch, aber einige sind nützlich" von George Box . Wenn wir Modelle wie dieses anpassen, versuchen (oder sollten) wir über den Datenerzeugungsprozess und die physische, reale Welt, die Beziehungen zwischen der Antwort und den Kovariaten nachdenken. Wir versuchen, diese Beziehungen in einem Modell auszudrücken, das zu den Daten passt. Oder anders ausgedrückt, stimmt mit den Daten überein. Als solches wird ein empirisches Modell erstellt.
Ob es sinnvoll ist oder nicht, wird später festgestellt - gibt es gute und verlässliche Vorhersagen, zum Beispiel für Frauen, die nicht an das Modell gewöhnt sind? Sind die Modellkoeffizienten interpretierbar und von wissenschaftlicher Bedeutung? Sind die Effektgrößen sinnvoll?
quelle
Die Antworten, die Sie bereits erhalten haben, sind ausgezeichnet, aber ich werde eine (hoffentlich) ergänzende Antwort aus der Sicht eines Epidemiologen geben. Ich habe wirklich drei Gedanken dazu:
Erstens tun sie das nicht. Siehe auch: Alle Modelle sind falsch, einige Modelle sind nützlich. Das Ziel ist nicht, eine einzige, definitive Zahl zu erzeugen, die als "Wahrheit" einer zugrunde liegenden Funktion angesehen wird. Ziel ist es, eine Schätzung dieser Funktion mit einer Quantifizierung der damit verbundenen Unsicherheit zu erstellen , die eine vernünftige und nützliche Annäherung an die zugrunde liegende Funktion darstellt.
Dies gilt insbesondere für Maßnahmen mit großer Wirkung. Die Meldung "take away" aus einer Studie, die ein relatives Risiko von 3,0 feststellt, ist nicht wirklich anders, wenn die "wahre" Beziehung 2,5 oder 3,2 beträgt. Wie bei @onestop bereits erwähnt, wird dies bei Schätzungen kleiner Effektmaße schwieriger, da die Differenz zwischen 0,9, 1,0 und 1,1 aus gesundheitlicher und politischer Sicht sehr groß sein kann .
Zweitens ist in den meisten epidemiologischen Veröffentlichungen ein Prozess verborgen. Das ist der eigentliche Modellauswahlprozess . Wir neigen dazu, das Modell zu melden, mit dem wir am Ende fertig waren, und nicht alle Modelle, die wir in Betracht gezogen haben (denn das wäre, wenn nichts anderes, lästig). Es gibt eine Vielzahl von Modellbauschritten, konzeptionellen Diagrammen, Diagnosen, Anpassungsstatistiken, Sensitivitätsanalysen, Beschimpfungen von Computern und das Aufschreiben von Whiteboards, die sich mit der Analyse selbst kleiner Beobachtungsstudien befassen.
Denn während Sie sind Annahmen, sind viele von ihnen auch Annahmen , die Sie überprüfen können.
Drittens manchmal nicht. Und dann gehen wir zu Konferenzen und streiten uns darüber;)
Wenn Sie sich für die Grundlagen der Epidemiologie als Fachgebiet interessieren und wissen möchten, wie wir forschen, ist die 3. Ausgabe der Modern Epidemiology von Rothman, Greenland and Lash wahrscheinlich der beste Ausgangspunkt . Es ist ein mäßig technischer und sehr guter Überblick über die Durchführung der Epi-Forschung.
quelle