Angenommen, wir erhalten einen Satz von Daten der Form und . Wir haben die Aufgabe, basierend auf den Werten von vorherzusagen . Wir schätzen zwei Regressionen, bei denen: ( y , x 1 , x 2 , ⋯ , x n - 1 ) y x y
Wir schätzen auch eine Regression, die Werte von basierend auf Werten von vorhersagt : ( x 1 , ⋯ , x n - 1 ) x n = f 3 ( x 1 , ⋯ , x n - 1 )
Angenommen, wir erhalten jetzt Werte von , dann hätten wir zwei verschiedene Methoden, um vorherzusagen :y
Welches wäre im Allgemeinen besser?
Ich vermute, dass die erste Gleichung besser wäre, weil sie Informationen aus den beiden Formen von Datenpunkten verwendet, während die zweite Gleichung nur Informationen aus Datenpunkten verwendet, die Prädiktorwerte haben. Meine Ausbildung in Statistik ist begrenzt und daher möchte ich professionellen Rat einholen.
Was ist im Allgemeinen der beste Ansatz für Daten mit unvollständigen Informationen? Mit anderen Worten, wie können wir die meisten Informationen aus Daten extrahieren, die nicht in allen Dimensionen Werte haben ?
Antworten:
+1, ich denke das ist eine wirklich interessante und klar formulierte Frage. Weitere Informationen helfen uns jedoch, diese Situation zu überdenken.
Wie ist zum Beispiel die Beziehung zwischen und ? Es ist durchaus möglich, dass es keine gibt. In diesem Fall bietet die Regression keinen Vorteil gegenüber der Regression . (Tatsächlich ist dies ein sehr geringer Nachteil in dem Sinne, dass die Standardfehler geringfügig größer sind und die Betas daher im Durchschnitt geringfügig weiter von ihren wahren Werten entfernt sind.) Wenn eine Funktion vorhanden ist, die auf , dann gibt es dort per Definition echte Informationen, und die Regression ist in der Ausgangssituation besser.xn y (1) (2) xn y (1)
Wie ist die Art der Beziehung zwischen und ? Ist dort eines? Wenn wir beispielsweise Experimente durchführen, versuchen wir (normalerweise), jeder Wertekombination der erklärenden Variablen die gleiche Anzahl von Lerneinheiten zuzuweisen. (Dieser Ansatz verwendet ein Vielfaches des kartesischen Produkts der Ebenen der IVs und wird als "vollfaktorielles" Design bezeichnet. Es gibt auch Fälle, in denen Ebenen absichtlich verwechselt werden, um Daten zu speichern, die als " fraktionale faktorielle " Designs bezeichnet werden.) Wenn die Erklärende Variablen sind orthogonal, Ihre dritte Regression ergibt absolut genau 0. Andererseits sind in einer Beobachtungsstudie die Kovariaten so gut wie immer(x1,⋯,xn−1) xn korreliert. Je stärker diese Korrelation ist, weniger Informationen sind in . Diese Tatsachen modulieren die relativen Vorzüge von Regression und Regression . xn (1) (2)
Allerdings (leider vielleicht) ist es komplizierter. Eines der wichtigen, aber schwierigen Konzepte bei der multiplen Regression ist die Multikollinearität . Wenn Sie versuchen, die Regression zu schätzen , werden Sie feststellen, dass Sie eine perfekte Multikollinearität haben, und Ihre Software wird Ihnen mitteilen, dass die Entwurfsmatrix nicht invertierbar ist. Während die Regression durchaus einen Vorteil gegenüber der Regression bietet, wird die Regression nicht tun. ( 1 ) ( 2 ) ( 4 )(4) (1) (2) (4)
Die interessantere Frage (und die, die Sie stellen) ist, was ist, wenn Sie die Regression , um Vorhersagen über Verwendung der geschätzten Werte zu treffen , die aus den Vorhersagen der Regression ausgegeben werden ? (Das heißt, Sie schätzen die Regression nicht Sie stecken die Ausgabe der in Regression geschätzten Vorhersagegleichung in das Vorhersagemodell .) Die Sache ist, dass Sie tatsächlich keine neuen gewinnen Informationen hier. Welche Informationen auch immer in den ersten Prädiktorwerten für jede Beobachtung vorhanden sind, wird bereits durch die Regression optimal genutzty x n ( 3 ) ( 4 ) ( 3 ) ( 4 ) n - 1 ( 2 )(1) y xn (3) (4) (3) (4) n−1 (2) Es gibt also keinen Gewinn.
Die Antwort auf Ihre erste Frage lautet daher, dass Sie genauso gut die Regression für Ihre Vorhersagen verwenden können, um unnötige Arbeit zu sparen. Beachten Sie, dass ich dies ziemlich abstrakt angesprochen habe, anstatt auf die von Ihnen beschriebene konkrete Situation einzugehen, in der Ihnen jemand zwei Datensätze übergibt (ich kann mir das einfach nicht vorstellen). Stattdessen denke ich an diese Frage, um etwas ziemlich Tiefes über die Natur der Regression zu verstehen. Gelegentlich treten jedoch bei einigen Beobachtungen Werte für alle Prädiktoren auf, und bei einigen anderen Beobachtungen (innerhalb desselben Datensatzes) fehlen einige Werte für einige der Prädiktoren. Dies ist besonders häufig beim Umgang mit Längsschnittdaten der Fall. In einer solchen Situation möchten Sie die multiple Imputation untersuchen .(2)
quelle