Muss ich eine multivariate Regression oder mehrere Regressionsanalysen verwenden?

Ich habe einen Datensatz von 45 Teilnehmern mit jeweils 96 Variablen (obwohl einige Messungen fehlen). Einige Variablen sind einfach, wie z. B. Alter und Behinderung, während andere Messungen bei einem bestimmten Test bewertet werden (z. B. hat ein Test 5 Werte als Ergebnis). Ich habe Daten von 5 Tests, die zu 3 verschiedenen Zeitpunkten angegeben wurden und wie bereits erwähnt, manchmal mehrere Ergebnisse pro Test.

Da der Datensatz so groß ist (angesichts der Anzahl der Funktionen und der Anzahl der Teilnehmer), habe ich beschlossen, die Ergebnisse eines Tests anhand aller vorherigen Ergebnisse (wie Alter, Behinderung und aller Ergebnisse desselben vorherigen Tests) vorherzusagen. Das läuft also im Wesentlichen darauf hinaus, dass ich 5 Merkmale bei ungefähr 10 Merkmalen bei 45 Teilnehmern mithilfe der Regression vorhersagen möchte (ich möchte die genauen Koeffizienten, p-Werte und R-Quadrat-Messungen anzeigen).

Sollte ich eine regelmäßige Regression für jedes der Features durchführen, die ich vorhersagen möchte, oder sollte ich eine multivariate Regression für alle Features verwenden, die ich gleichzeitig vorhersagen möchte? Was ist der Unterschied?

regression multivariate-analysis multivariate-regression Héctor van den Boorn
quelle

+1. Es gibt keinen Unterschied! Multivariate Regression entspricht genau mehreren separaten univariaten Regressionen.

Amöbe

@amoeba: Fast! Dies hängt von Ihrer Fehlerstruktur (diagonal) und / oder der Menge der erklärenden Variablen für jedes Modell (gleich) ab. Normalerweise verwendet man auch iterative kleinste Quadrate, um diese Modelle anstelle von einfachem OLS zu schätzen.

X

$X$

usεr11852

@ usεr11852: Sie haben sicherlich Recht mit denselben Prädiktoren und unkorrelierten Fehlern. Aber ich verstehe Ihren letzten Satz nicht: Können Sie das näher erläutern? Was sind iterative kleinste Quadrate (im Gegensatz zu OLS) und warum würde man sie für die multivariate Regression bevorzugen, aber nicht für die univariate? Ist es für den Fall der korrelierten Fehler? Vielleicht möchten Sie eine Antwort beitragen!

Amöbe

Ja, dies gilt für die korrelierten Fehlerfälle. Andernfalls würde das separate OLS ausreichen (wie Sie richtig betont haben).

usεr11852

Antworten:

Let bezeichnen den Vektor der - ten Reaktion, Wehre . In Ihrem Beispiel ist 5, da Sie 5 Testergebnisse haben. Sei eine Matrix von Prädiktoren. Wenn Sie separate Regressionen implementieren (eine für jedes ), $Y_i$ $i$ $i = 1, \dots, r$ $r$ $X$ $n \times p$ $r$ $Y_i$

Y_{i} = X β_{i} + ϵ_{i},

$Y_i = X\beta_i + \epsilon_i,$

Dabei ist . Mit OLS erhalten Sie Schätzungen für . Sie können auch eine multivariate Regression durchführen. $\epsilon_i \sim N_n(0, \sigma^2_iI_n)$ $\beta$

Y = X B + E,

$\mathbf{Y} = X\mathbf{B} + \mathbf{E},$

Dabei ist die Matrix der Antworten, die Matrix der Regressionskoeffizienten und die Fehlermatrix, so dass die te Spalte . In diesem Fall entspricht die OLS-Schätzung für den OLS-Schätzungen für . $\mathbf{Y}$ $n \times r$ $\mathbf{B}$ $p \times r$ $\mathbf{E}$ $i$ $\epsilon_i \overset{iid}{\sim} N_n(0, \sigma^2_iI_n)$ $\mathbf{B}$ $r$ $\beta_i$

Wenn Sie jedoch Grund zu der Annahme haben, dass unter der Bedingung die 5 Prädiktoren korreliert sind (was in Ihrem Fall eine vernünftige Annahme wäre), wird angenommen, dass die Zeilen von sind, dass z . Hier repräsentiert nun auch die Korrelationsstruktur für die Prädiktoren. $X$ $\mathbf{E}$ $j = 1, 2, \dots, n, \epsilon_j \overset{iid}{\sim} N_r(0, \Sigma)$ $\Sigma$

Es ist wichtig zu beachten, dass auch in diesem Fall die Schätzung für dieselbe wie die OLS-Schätzung ist, sich jedoch die Fehlerstruktur der Schätzungen ändert und sich somit auf die Schätzungen bezieht. Infolgedessen ändern sich die Werte. $\mathbf{B}$ $p$

Das MRCE R-Paket ermöglicht solche Modellanpassungen. Dieses Paket verwendet auch Regularisierungsmethoden, wenn im Vergleich zu nicht groß genug ist , sodass Sie möglicherweise nicht gezwungen sind, auf eine kleinere Anzahl von Prädiktoren zu reduzieren. Sie können auch detailliertere Theorie finden hier zusammen mit motivierende Beispiele. Die Autoren geben die folgende Motivation an $n$ $p$

Anwendungen dieses allgemeinen Modells ergeben sich in der Chemometrie, Ökonometrie, Psychometrie und anderen quantitativen Disziplinen, in denen mehrere Antworten mit einem einzigen Satz von Vorhersagevariablen vorhergesagt werden. Zum Beispiel die Vorhersage mehrerer Qualitätsmaßstäbe für Papier mit einer Reihe von Variablen, die sich auf seine Produktion beziehen.

In ähnlicher Weise scheinen Sie in Ihrem Setup 5 Sätze von Antworten zu haben, die sich aus denselben Prädiktoren ergeben, mit einer inhärenten Korrelationsstruktur zwischen den Antworten.

Greenparker
quelle

Die Aussage "Prädiktoren sind selbst korreliert" könnte missverstanden werden. Was Sie wohl meinen, ist, dass Prädiktoren auch dann korreliert sind, wenn sie von abhängig sind . (Auch "Prädiktor" ist und Sie meinen wahrscheinlich "Antworten"?)

X

$X$

X

$X$

Amöbe

Zu deinem letzten Satz: aber was tun, wenn man denkt, dass Rauschen in den Antworten korreliert, aber

Σ

$\Sigma$ ist unbekannt?

Amöbe

@amoeba das Paket schätzt

Σ

$\Sigma$ (Eigentlich schätzt es

Ω = Σ^{- 1}

$\Omega = \Sigma^{-1}$ ) und das Papier, das ich beigefügt habe. Ich bin mir der technischen Details des Papiers nicht bewusst und wollte daher nicht näher auf den Schätzungsprozess eingehen.

Greenparker