Multiple Regression mit fehlender Prädiktorvariable

9

Angenommen, wir erhalten einen Satz von Daten der Form und . Wir haben die Aufgabe, basierend auf den Werten von vorherzusagen . Wir schätzen zwei Regressionen, bei denen: ( y , x 1 , x 2 , , x n - 1 ) y x y(y,x1,x2,,xn)(y,x1,x2,,xn1)yx

(1)y=f1(x1,,xn1,xn)(2)y=f2(x1,,xn1)

Wir schätzen auch eine Regression, die Werte von basierend auf Werten von vorhersagt : ( x 1 , , x n - 1 ) x n = f 3 ( x 1 , , x n - 1 )xn(x1,,xn1)

(3)xn=f3(x1,,xn1)

Angenommen, wir erhalten jetzt Werte von , dann hätten wir zwei verschiedene Methoden, um vorherzusagen :y(x1,,xn1)y

(4)y=f1(x1,,xn1,f3(x1,,xn1))(5)y=f2(x1,,xn1)

Welches wäre im Allgemeinen besser?

Ich vermute, dass die erste Gleichung besser wäre, weil sie Informationen aus den beiden Formen von Datenpunkten verwendet, während die zweite Gleichung nur Informationen aus Datenpunkten verwendet, die Prädiktorwerte haben. Meine Ausbildung in Statistik ist begrenzt und daher möchte ich professionellen Rat einholen.n1

Was ist im Allgemeinen der beste Ansatz für Daten mit unvollständigen Informationen? Mit anderen Worten, wie können wir die meisten Informationen aus Daten extrahieren, die nicht in allen Dimensionen Werte haben ?n

Xiaowen Li
quelle
Schätzen mit Istwerten vs. Schätzen mit Schätzungen - Sie entscheiden :)
PhD
Wirklich so einfach?
Xiaowen Li
Die Antwort kann sein, es kommt darauf an. Wie viele Daten fehlen? Wie viele Daten haben Sie insgesamt? Wie viele Prädiktoren haben Sie?
Joel W.

Antworten:

6

+1, ich denke das ist eine wirklich interessante und klar formulierte Frage. Weitere Informationen helfen uns jedoch, diese Situation zu überdenken.

Wie ist zum Beispiel die Beziehung zwischen und ? Es ist durchaus möglich, dass es keine gibt. In diesem Fall bietet die Regression keinen Vorteil gegenüber der Regression . (Tatsächlich ist dies ein sehr geringer Nachteil in dem Sinne, dass die Standardfehler geringfügig größer sind und die Betas daher im Durchschnitt geringfügig weiter von ihren wahren Werten entfernt sind.) Wenn eine Funktion vorhanden ist, die auf , dann gibt es dort per Definition echte Informationen, und die Regression ist in der Ausgangssituation besser. xny(1)(2)xny(1)

Wie ist die Art der Beziehung zwischen und ? Ist dort eines? Wenn wir beispielsweise Experimente durchführen, versuchen wir (normalerweise), jeder Wertekombination der erklärenden Variablen die gleiche Anzahl von Lerneinheiten zuzuweisen. (Dieser Ansatz verwendet ein Vielfaches des kartesischen Produkts der Ebenen der IVs und wird als "vollfaktorielles" Design bezeichnet. Es gibt auch Fälle, in denen Ebenen absichtlich verwechselt werden, um Daten zu speichern, die als " fraktionale faktorielle " Designs bezeichnet werden.) Wenn die Erklärende Variablen sind orthogonal, Ihre dritte Regression ergibt absolut genau 0. Andererseits sind in einer Beobachtungsstudie die Kovariaten so gut wie immer(x1,,xn1)xnkorreliert. Je stärker diese Korrelation ist, weniger Informationen sind in . Diese Tatsachen modulieren die relativen Vorzüge von Regression und Regression . xn(1)(2)

Allerdings (leider vielleicht) ist es komplizierter. Eines der wichtigen, aber schwierigen Konzepte bei der multiplen Regression ist die Multikollinearität . Wenn Sie versuchen, die Regression zu schätzen , werden Sie feststellen, dass Sie eine perfekte Multikollinearität haben, und Ihre Software wird Ihnen mitteilen, dass die Entwurfsmatrix nicht invertierbar ist. Während die Regression durchaus einen Vorteil gegenüber der Regression bietet, wird die Regression nicht tun. ( 1 ) ( 2 ) ( 4 )(4)(1)(2)(4)

Die interessantere Frage (und die, die Sie stellen) ist, was ist, wenn Sie die Regression , um Vorhersagen über Verwendung der geschätzten Werte zu treffen , die aus den Vorhersagen der Regression ausgegeben werden ? (Das heißt, Sie schätzen die Regression nicht Sie stecken die Ausgabe der in Regression geschätzten Vorhersagegleichung in das Vorhersagemodell .) Die Sache ist, dass Sie tatsächlich keine neuen gewinnen Informationen hier. Welche Informationen auch immer in den ersten Prädiktorwerten für jede Beobachtung vorhanden sind, wird bereits durch die Regression optimal genutzty x n ( 3 ) ( 4 ) ( 3 ) ( 4 ) n - 1 ( 2 )(1)yxn(3)(4)(3)(4)n1(2)Es gibt also keinen Gewinn.

Die Antwort auf Ihre erste Frage lautet daher, dass Sie genauso gut die Regression für Ihre Vorhersagen verwenden können, um unnötige Arbeit zu sparen. Beachten Sie, dass ich dies ziemlich abstrakt angesprochen habe, anstatt auf die von Ihnen beschriebene konkrete Situation einzugehen, in der Ihnen jemand zwei Datensätze übergibt (ich kann mir das einfach nicht vorstellen). Stattdessen denke ich an diese Frage, um etwas ziemlich Tiefes über die Natur der Regression zu verstehen. Gelegentlich treten jedoch bei einigen Beobachtungen Werte für alle Prädiktoren auf, und bei einigen anderen Beobachtungen (innerhalb desselben Datensatzes) fehlen einige Werte für einige der Prädiktoren. Dies ist besonders häufig beim Umgang mit Längsschnittdaten der Fall. In einer solchen Situation möchten Sie die multiple Imputation untersuchen . (2)

gung - Monica wieder einsetzen
quelle
Vielen Dank, Gung, für Ihre ausführliche Antwort und Sie helfen bei der Änderung des Wortlauts meiner Frage. Ich werde antworten, sobald ich Ihre Antwort vollständig interpretiert habe. Zu Ihrer Information, dies ist eine Beobachtungsstudie über den Preis von Glühbirnen. umfassen die Lebensdauer, die Leuchtkraft und die Farbtemperatur der Glühbirne. Informationen werden von Einzelhändlern gesammelt, die normalerweise nicht alles geben, was zu fehlenden Prädiktoren führt. Trotzdem versuchen wir, die gesammelten Informationen optimal zu nutzen. xn
Xiaowen Li
1
OK, ich dachte, es geht nur darum, die Regression zu verstehen. Ich würde mich mit Mehrfachzuschreibungen befassen.
Gung - Reinstate Monica
Danke Gung für deinen Einblick. Sie haben Recht, dass mit Gleichung 4 keine neuen Informationen gewonnen werden. Die Imputation ist genau das, was ich brauchte. Und Sie haben Recht, ich bin auf multiple Kollinearität gestoßen, was mir einen sehr großen p-Wert für die Koeffizienten gegeben hat. Dann stand ich vor der Wahl, entweder die Anzahl der Variablen zu reduzieren, um einen kleineren p-Wert für die Koeffizienten zu erhalten, oder einen größeren und einen größeren p zu erhalten. Ich denke, das Leben ist voller Kompromisse. r2
Xiaowen Li
Nochmals vielen Dank für Ihre abstrakten Diskussionen über Regressionen. Statistiken können sehr faszinierend sein, wenn wir sie als Methode betrachten, um die Wahrheit zu finden. Ich werde es genauer untersuchen, sobald ich mit meinem Datensatz fertig bin :)
Xiaowen Li
Sie sollten die parametrische fraktionierte Imputation überprüfen. Dies ist eine Arbeit von Jae Kwang Kim im Bundesstaat Iowa, die für diese Situation perfekt sein könnte. Siehe biomet.oxfordjournals.org/content/98/1/119.abstract
StatsStudent