Was ist der Sinn einer univariaten Regression vor einer multivariaten Regression?

13

Ich arbeite derzeit an einem Problem, bei dem es sich um einen kleinen Datensatz handelt und bei dem der Kausalitätseffekt einer Behandlung auf das Ergebnis von Interesse ist.

Mein Berater hat mich angewiesen, eine univariate Regression für jeden Prädiktor mit dem Ergebnis als Antwort und dann der Behandlungszuweisung als Antwort durchzuführen. Das heißt, ich werde gebeten, eine Regression mit jeweils einer Variablen abzugleichen und eine Tabelle mit den Ergebnissen zu erstellen. Ich fragte: "Warum sollten wir das tun?", Und die Antwort hatte den Effekt: "Wir sind daran interessiert, welche Prädiktoren mit der Behandlungszuordnung und dem Ergebnis verbunden sind, da dies wahrscheinlich auf einen Störfaktor hindeuten würde." Mein Berater ist ein ausgebildeter Statistiker und kein Wissenschaftler auf einem anderen Gebiet. Ich bin daher geneigt, ihnen zu vertrauen.

Dies ist sinnvoll, es ist jedoch nicht klar, wie das Ergebnis der univariaten Analyse verwendet werden soll. Würde die Auswahl eines Modells nicht zu einer signifikanten Verzerrung der Schätzungen und zu engen Konfidenzintervallen führen? Warum sollte das jemand tun? Ich bin verwirrt und mein Berater ist ziemlich undurchsichtig, als ich es ansprach. Hat jemand Ressourcen für diese Technik?

(NB: Mein Berater hat gesagt, dass wir keine p-Werte als Cut-Off verwenden, sondern dass wir "alles" berücksichtigen wollen.)

Marcel
quelle
6
Wenn Ihr Lehrer durch "univariate Regression" ein Streudiagramm zeichnen würde , dann ist dies in der Tat ein kluger Rat. Und da keine Regression, die Sie interessiert, jemals ohne Plotten durchgeführt werden sollte, erhalten Sie einige nützliche Informationen. Machen Sie alles auf einmal, wenn Sie können, mit einer Streudiagramm-Matrix, und zeigen Sie einige robuste Glättungen mit ihnen. Die Vorteile werden offensichtlich, wenn Sie die verschiedenen Arten sehen, in denen Ihre Variablen davon abweichen können, lineare Beziehungen aufzuweisen.
whuber
1
Was ist, wenn die Antwortdaten binär sind und wir eine GLM mit einem Logit-Link verwenden? Ihre Erklärung ist sicherlich klarer für den linearen Fall, und jetzt, wo ich darüber nachdenke, wäre die Verwendung von Streudiagrammen natürlich
Marcel
5
Ich habe mir Sorgen gemacht, dass du das fragst :-). Tatsächlich kann ein guter Smooth immer noch einen guten Einblick liefern. Es hilft, die Antwort zu zittern, damit Sie ihre Verteilung erkennen können. Hier ist ein Beispiel für einen solchen Plot: stats.stackexchange.com/a/14501/919 . Ich zeige eine andere Lösung unter stats.stackexchange.com/a/138660/919 .
Whuber
3
Diese univariate Regression vor der multivariablen Regressionstechnik wird in Hosmer und Lemeshows Buch "Applied Logistic Regression"
Great38,
7
Achtung - eine Variable zeigt möglicherweise keine Beziehung in einer unvariablen Regression, ist jedoch in der multivariaten Beziehung wichtig.
Glen_b

Antworten:

3

Der kausale Kontext Ihrer Analyse ist ein Schlüsselqualifikator für Ihre Frage. Bei der Vorhersage hat die Ausführung univariater Regressionen vor multiplen Regressionen im Sinne der von Hosmer und Lemenshow vorgeschlagenen "gezielten Auswahlmethode" ein Ziel. In Ihrem Fall, in dem Sie ein Kausalmodell erstellen, hat die Ausführung univariater Regressionen vor der Ausführung multipler Regression ein völlig anderes Ziel. Lassen Sie mich auf Letzteres eingehen.

Sie und Ihr Ausbilder müssen einen bestimmten Kausaldiagramm im Auge haben. Kausale Graphen haben überprüfbare Auswirkungen. Ihre Mission ist es, mit dem Datensatz zu beginnen, den Sie haben, und auf das Kausalmodell zurückzugehen, das ihn möglicherweise generiert hat. Die univariaten Regressionen, die er vorschlug, sind wahrscheinlich der erste Schritt auf dem Weg, die Implikationen des Kausaldiagramms zu testen, das Sie im Sinn haben. Angenommen, Sie glauben, dass Ihre Daten durch das in der folgenden Grafik dargestellte Kausalmodell generiert wurden. Angenommen, Sie interessieren sich für die kausale Auswirkung von D auf E. Die folgende Grafik deutet auf eine Vielzahl testbarer Implikationen hin, wie zum Beispiel:

  • E und D sind wahrscheinlich abhängig
  • E und A sind wahrscheinlich abhängig
  • E und C sind wahrscheinlich abhängig
  • E und B sind wahrscheinlich abhängig
  • E und N sind wahrscheinlich unabhängig

Bildbeschreibung hier eingeben

Ich erwähnte, dass dies nur der erste Schritt im kausalen Suchprozess ist, da der eigentliche Spaß erst dann beginnt, wenn Sie mehrere Regressionen ausführen, verschiedene Variablen konditionieren und testen, ob das Ergebnis der Regression mit der Implikation des Diagramms übereinstimmt. Die obige Grafik legt beispielsweise nahe, dass E und A unabhängig voneinander sein müssen, wenn Sie auf D konditionieren. Mit anderen Worten, wenn Sie E auf D und A zurückführen und feststellen, dass der Koeffizient auf A ungleich Null ist, werden Sie daraus schließen E hängt von A ab, nachdem Sie D konditioniert haben, und daher muss der Kausaldiagramm falsch sein. Es gibt Ihnen sogar Hinweise, wie Sie Ihr Kausaldiagramm ändern können, da das Ergebnis dieser Regression darauf hindeutet, dass es einen Pfad zwischen A und E geben muss, der nicht durch D getrennt ist.

ColorStatistics
quelle
1

Bevor ich zu antworten versuche, möchte ich darauf hinweisen, dass diese Art von Daten und ihre Verteilung die Art und Weise beeinflussen können, wie Sie sie bewerten / zurückbilden / klassifizieren.

Vielleicht möchten Sie auch hier suchen nach der Methode die Ihr Berater verwenden soll.

Ein bisschen Hintergrund. Obwohl die Verwendung eines Modellauswahlwerkzeugs eine Möglichkeit ist, müssen Sie immer noch sagen können, warum ein Prädiktor verwendet oder weggelassen wurde. Diese Tools können eine Blackbox sein. Sie sollten Ihre Daten vollständig verstehen und angeben können, warum ein bestimmter Prädiktor ausgewählt wurde. (Insbesondere gehe ich von einem Diplom- / Masterprojekt aus.)

Schauen Sie sich zum Beispiel den Preis von Häusern und das Alter an. Der Preis von Häusern sinkt im Allgemeinen mit dem Alter. Wenn Sie also ein altes Haus mit einem hohen Preis in Ihren Daten sehen, sieht es aus, als müsste ein Ausreißer entfernt werden, aber das ist nicht der Fall.

(Hinweis: Mein Berater hat gesagt, dass wir keine p-Werte als Cutoff verwenden, sondern dass wir "alles" berücksichtigen möchten.) P-Werte sind nicht das A und O von allem, aber sie können hilfreich sein . Rückrufalgorithmen / -programme sind begrenzt und können nicht das gesamte Bild anzeigen.

Warum können Sie die Regression für jeden Prädiktor / jede Behandlungsaufgabe univariieren?

Dies könnte dazu beitragen, die Prädiktoren auszuwählen, die in das grundlegende multivariate Modell einbezogen werden sollen. Anhand dieses Grundmodells würden Sie dann prüfen, ob diese Prädiktoren signifikant sind und erhalten bleiben sollten oder ob sie entfernt werden sollten, um ein sparsames Modell zu erhalten.

Oder Sie können sich ein besseres Verständnis der Daten verschaffen.

Apokryphon
quelle
1
Meine Frau und ich haben ein altes Haus gekauft, konnten uns aber kein historisches Haus leisten. Ihr Beispiel hat also ein einfaches Gegenbeispiel.
Nick Cox
Wahr. Ich wollte eigentlich über den Preis von Häusern sprechen. Wie die Preise von Häusern im Allgemeinen mit dem Alter sinken. Deshalb, wenn Sie ein altes Haus mit einem hohen Preis sehen, dass es wie ein Ausreißer aussehen würde, um entfernt zu werden. Ich werde diesen Punkt bearbeiten. Danke.
Apocryphon
0

Ich denke, Ihr Vorgesetzter bittet Sie, eine erste Analyse der Daten durchzuführen, um festzustellen, ob eine der Variablen einen signifikanten Bruchteil der Varianz in den Daten erklären kann.

Wenn Sie festgestellt haben, dass eine der Variablen einen Teil der Variabilität erklären kann, können Sie bewerten, wie sie zusammenarbeiten, ob sie kolinear sind oder miteinander korrelieren usw. In einer rein explorativen Phase erhalten Sie eine multivariate Analyse könnte eine erste Einschätzung erschweren, da Sie durch die Konstruktion jeder Variablen den Effekt der anderen entfernen würden. Es könnte schwieriger sein zu beurteilen, ob eine der Variablen eine der Variationen erklären könnte.

pedrofigueira
quelle
0

Das mag ein Ansatz zum Verständnis von Daten sein, aber die Erfahrung zeigt, dass die Vorhersagen variieren, wenn Sie alle Prädiktoren und jeden einzelnen Prädiktor einzeln verwenden. Wir verstehen die Vorhersagbarkeit von Daten und wissen, was für zukünftige Schritte zu tun ist.
Ich habe viele Male gesehen, dass bei allen Variablen der p-Wert besagt, dass einige Variablen nicht signifikant sind, aber bei diesen nicht signifikanten Variablen allein waren sie signifikant genug. Dies ist auf einen gemischten Effekt zurückzuführen: Es ist nicht so, dass Ihr Vorgesetzter sich irrt, aber um die Daten zu verstehen, müssen wir dies tun.

JAbr
quelle