Ich habe einen Datensatz von 45 Teilnehmern mit jeweils 96 Variablen (obwohl einige Messungen fehlen). Einige Variablen sind einfach, wie z. B. Alter und Behinderung, während andere Messungen bei einem bestimmten Test bewertet werden (z. B. hat ein Test 5 Werte als Ergebnis). Ich habe Daten von 5 Tests, die zu 3 verschiedenen Zeitpunkten angegeben wurden und wie bereits erwähnt, manchmal mehrere Ergebnisse pro Test.
Da der Datensatz so groß ist (angesichts der Anzahl der Funktionen und der Anzahl der Teilnehmer), habe ich beschlossen, die Ergebnisse eines Tests anhand aller vorherigen Ergebnisse (wie Alter, Behinderung und aller Ergebnisse desselben vorherigen Tests) vorherzusagen. Das läuft also im Wesentlichen darauf hinaus, dass ich 5 Merkmale bei ungefähr 10 Merkmalen bei 45 Teilnehmern mithilfe der Regression vorhersagen möchte (ich möchte die genauen Koeffizienten, p-Werte und R-Quadrat-Messungen anzeigen).
Sollte ich eine regelmäßige Regression für jedes der Features durchführen, die ich vorhersagen möchte, oder sollte ich eine multivariate Regression für alle Features verwenden, die ich gleichzeitig vorhersagen möchte? Was ist der Unterschied?
quelle
Antworten:
Let bezeichnen den Vektor der - ten Reaktion, Wehre . In Ihrem Beispiel ist 5, da Sie 5 Testergebnisse haben. Sei eine Matrix von Prädiktoren. Wenn Sie separate Regressionen implementieren (eine für jedes ),Yi i i=1,…,r r X n×p r Yi
Dabei ist . Mit OLS erhalten Sie Schätzungen für . Sie können auch eine multivariate Regression durchführen.ϵi∼Nn(0,σ2iIn) β
Dabei ist die Matrix der Antworten, die Matrix der Regressionskoeffizienten und die Fehlermatrix, so dass die te Spalte . In diesem Fall entspricht die OLS-Schätzung für den OLS-Schätzungen für .Y n×r B p×r E i ϵi∼iidNn(0,σ2iIn) B r βi
Wenn Sie jedoch Grund zu der Annahme haben, dass unter der Bedingung die 5 Prädiktoren korreliert sind (was in Ihrem Fall eine vernünftige Annahme wäre), wird angenommen, dass die Zeilen von sind, dass z . Hier repräsentiert nun auch die Korrelationsstruktur für die Prädiktoren.X E j=1,2,…,n,ϵj∼iidNr(0,Σ) Σ
Es ist wichtig zu beachten, dass auch in diesem Fall die Schätzung für dieselbe wie die OLS-Schätzung ist, sich jedoch die Fehlerstruktur der Schätzungen ändert und sich somit auf die Schätzungen bezieht. Infolgedessen ändern sich die Werte.B p
Das MRCE R-Paket ermöglicht solche Modellanpassungen. Dieses Paket verwendet auch Regularisierungsmethoden, wenn im Vergleich zu nicht groß genug ist , sodass Sie möglicherweise nicht gezwungen sind, auf eine kleinere Anzahl von Prädiktoren zu reduzieren. Sie können auch detailliertere Theorie finden hier zusammen mit motivierende Beispiele. Die Autoren geben die folgende Motivation ann p
In ähnlicher Weise scheinen Sie in Ihrem Setup 5 Sätze von Antworten zu haben, die sich aus denselben Prädiktoren ergeben, mit einer inhärenten Korrelationsstruktur zwischen den Antworten.
quelle