Regressionen verstehen - die Rolle des Modells

46

Wie kann ein Regressionsmodell von Nutzen sein, wenn Sie die Funktion nicht kennen, für die Sie die Parameter abrufen möchten?

Ich habe eine Studie gesehen, aus der hervorgeht, dass Mütter, die ihre Kinder gestillt haben, im späteren Leben mit geringerer Wahrscheinlichkeit an Diabetes leiden. Die Untersuchung wurde aus einer Umfrage unter rund 1000 Müttern unter Berücksichtigung verschiedener Faktoren durchgeführt und es wurde ein loglineares Modell verwendet.

Bedeutet das nun, dass sie alle Faktoren, die die Wahrscheinlichkeit von Diabetes bestimmen, für eine nette Funktion (vermutlich exponentiell) halten, die sich in einem linearen Modell mit Protokollen niederschlägt und bei der sich herausstellte, ob die gestillte Frau statistisch signifikant ist?

Ich vermisse etwas, von dem ich mir sicher bin, aber woher zum Teufel kennen sie das Modell?

Jonathan Andrews
quelle
Vielen Dank ihnen allen. Ich möchte ein wenig Zeit damit verbringen, über Ihre Antworten nachzudenken, und wenn es Ihnen nichts ausmacht, versuchen Sie, sie in meinen Begriffen für Ihre Ansichten zu schreiben. Mir gefällt diese Beschreibung des Prozesses aus der Taylor-Reihe. Ich musste mein Wissen über Regression willkürlich und durch Wirtschaftswissenschaften und Mathematik für Wirtschaftswissenschaftler aufbauen, und die Verbindung zu Taylor ist an ihrer Abwesenheit erkennbar.
Jonathan Andrews
Ich habe deine Konten zusammengeführt. Aber bitte registrieren Sie es hier stats.stackexchange.com/users/login, damit Sie es nicht wieder verlieren.

Antworten:

43

Es hilft, die Regression als lineare Annäherung an die wahre Form zu betrachten. Angenommen, die wahre Beziehung ist

y=f(x1,...,xk)

x1,...,xkyf

f(x1,...,xk)=f(0,...,0)+i=1kf(0)xkxk+ε,

εα0=f(0,...,0)αk=f(0)xk

y=α0+α1x1+...+αkxk+ε

ε

mpiktas
quelle
1
Hallo, sehr nette Erklärung, aber ich schaffe es nicht, den "Sigma" -Teil in der Erweiterung der Taylor-Serie zu verstehen. Wie können Sie diese Gleichung, die Sie hier finden: mathworld.wolfram.com/TaylorSeries.html unter "Eine Taylor-Reihe einer reellen Funktion in zwei Variablen", auf Ihre reduzieren ?
Arun
1
n=1
18

Die andere Seite der Antwort, die zur Antwort von mpiktas komplementär ist, aber bisher nicht erwähnt wurde, lautet:

"Sie tun es nicht, aber sobald sie eine Modellstruktur annehmen, können sie diese mit den Daten vergleichen."

Die zwei grundlegenden Dinge, die schief gehen könnten, sind: Die Form der Funktion, z. B. ist sie in Protokollen nicht einmal linear. Beginnen Sie mit dem Plotten eines geeigneten Residuums gegen die erwarteten Werte. Oder die Wahl der bedingten Verteilung , z. B. die beobachteten Zählungen, die relativ zu Poisson überdispers sind. Sie würden also gegen eine Negative Binomial-Version desselben Modells testen oder prüfen, ob zusätzliche Kovariaten für die zusätzliche Variation verantwortlich sind.

Sie sollten auch nach Ausreißern, einflussreichen Beobachtungen und vielen anderen Dingen suchen. Ein vernünftiger Ort, um diese Art von Modellproblemen zu untersuchen, ist Kapitel 5 von Cameron und Trivedi 1998. (Es gibt sicherlich einen besseren Ort für epidemiologisch orientierte Forscher, um damit zu beginnen - vielleicht können andere Leute dies vorschlagen.)

Wenn diese Diagnose ergab, dass das Modell nicht zu den Daten passt, ändern Sie den relevanten Aspekt des Modells und starten den gesamten Prozess erneut.

Konjugatvorstufe
quelle
1
+1 Dies ist der Schlüssel, der alles daran hindert, von Hand zu winken: Sie wissen es nicht, aber Sie probieren etwas aus und sehen sich dann an, wie gut es passt und auf welche Weise Ihre Daten nicht übereinstimmen.
Wayne
15

Eine exzellente erste Frage! Ich stimme der Antwort von mpiktas zu, dh die kurze Antwort lautet "Sie tun es nicht, aber sie hoffen auf eine Annäherung an das richtige Modell, das ungefähr die richtige Antwort liefert".

Im Fachjargon der Epidemiologie ist diese Modellunsicherheit eine Quelle für das, was als " Residual Confounding " bekannt ist. Siehe Steve Simons Seite 'Was ist Restverwirrung?' für eine gute Kurzbeschreibung oder Heiko Bechers Artikel in Statistics in Medicine von 1992 (Abonnement erforderlich) für eine längere, mathematischere Behandlung oder Fewell, Davey Smith & Sterns neuerer Artikel im American Journal of Epidemiology (Abonnement erforderlich) ).

Dies ist einer der Gründe, warum die Epidemiologie kleiner Effekte schwierig und die Ergebnisse häufig umstritten ist. Wenn die gemessene Effektgröße klein ist, können verbleibende Störfaktoren oder andere Verzerrungsfaktoren als Erklärung nur schwer ausgeschlossen werden.

ein Stop
quelle
1
Ich würde argumentieren, dass Modellfehlspezifikationen - von denen im OP offenbar die Rede ist - sich etwas von Restverwirrungen unterscheiden. Verwirrung erfordert eine Kovariate. Sie können eine Regression nur mit der falschen Angabe einer Exposition und eines Ergebnisses vermasseln.
Fomite
13

Es gibt das berühmte Zitat "Im Wesentlichen sind alle Modelle falsch, aber einige sind nützlich" von George Box . Wenn wir Modelle wie dieses anpassen, versuchen (oder sollten) wir über den Datenerzeugungsprozess und die physische, reale Welt, die Beziehungen zwischen der Antwort und den Kovariaten nachdenken. Wir versuchen, diese Beziehungen in einem Modell auszudrücken, das zu den Daten passt. Oder anders ausgedrückt, stimmt mit den Daten überein. Als solches wird ein empirisches Modell erstellt.

Ob es sinnvoll ist oder nicht, wird später festgestellt - gibt es gute und verlässliche Vorhersagen, zum Beispiel für Frauen, die nicht an das Modell gewöhnt sind? Sind die Modellkoeffizienten interpretierbar und von wissenschaftlicher Bedeutung? Sind die Effektgrößen sinnvoll?

Gavin Simpson
quelle
3

Die Antworten, die Sie bereits erhalten haben, sind ausgezeichnet, aber ich werde eine (hoffentlich) ergänzende Antwort aus der Sicht eines Epidemiologen geben. Ich habe wirklich drei Gedanken dazu:

Erstens tun sie das nicht. Siehe auch: Alle Modelle sind falsch, einige Modelle sind nützlich. Das Ziel ist nicht, eine einzige, definitive Zahl zu erzeugen, die als "Wahrheit" einer zugrunde liegenden Funktion angesehen wird. Ziel ist es, eine Schätzung dieser Funktion mit einer Quantifizierung der damit verbundenen Unsicherheit zu erstellen , die eine vernünftige und nützliche Annäherung an die zugrunde liegende Funktion darstellt.

Dies gilt insbesondere für Maßnahmen mit großer Wirkung. Die Meldung "take away" aus einer Studie, die ein relatives Risiko von 3,0 feststellt, ist nicht wirklich anders, wenn die "wahre" Beziehung 2,5 oder 3,2 beträgt. Wie bei @onestop bereits erwähnt, wird dies bei Schätzungen kleiner Effektmaße schwieriger, da die Differenz zwischen 0,9, 1,0 und 1,1 aus gesundheitlicher und politischer Sicht sehr groß sein kann .

Zweitens ist in den meisten epidemiologischen Veröffentlichungen ein Prozess verborgen. Das ist der eigentliche Modellauswahlprozess . Wir neigen dazu, das Modell zu melden, mit dem wir am Ende fertig waren, und nicht alle Modelle, die wir in Betracht gezogen haben (denn das wäre, wenn nichts anderes, lästig). Es gibt eine Vielzahl von Modellbauschritten, konzeptionellen Diagrammen, Diagnosen, Anpassungsstatistiken, Sensitivitätsanalysen, Beschimpfungen von Computern und das Aufschreiben von Whiteboards, die sich mit der Analyse selbst kleiner Beobachtungsstudien befassen.

Denn während Sie sind Annahmen, sind viele von ihnen auch Annahmen , die Sie überprüfen können.

Drittens manchmal nicht. Und dann gehen wir zu Konferenzen und streiten uns darüber;)

Wenn Sie sich für die Grundlagen der Epidemiologie als Fachgebiet interessieren und wissen möchten, wie wir forschen, ist die 3. Ausgabe der Modern Epidemiology von Rothman, Greenland and Lash wahrscheinlich der beste Ausgangspunkt . Es ist ein mäßig technischer und sehr guter Überblick über die Durchführung der Epi-Forschung.

Fomite
quelle
1
+1, das ist eine gute Ergänzung zu dem, was hier ist. Es ist schön zu sehen, dass noch ein nützlicher Beitrag geleistet werden kann, auch wenn so viele andere gute bereits existieren.
gung - Wiedereinsetzung von Monica