Erklären Sie den Unterschied zwischen multipler Regression und multivariater Regression bei minimaler Verwendung von Symbolen / Mathematik

Antworten:

54

Sehr schnell würde ich sagen: 'multiple' bezieht sich auf die Anzahl der Prädiktoren, die mit einem einzigen Ergebnis (Y-Antwort) in das Modell (oder entsprechend in die Entwurfsmatrix) eintreten, während sich 'multivariate' auf eine Matrix von Antwortvektoren bezieht. Ich kann mich nicht an den Autor erinnern, der mit dieser Überlegung den einleitenden Abschnitt zur multivariaten Modellierung beginnt, aber ich denke, es ist Brian Everitt in seinem Lehrbuch Ein R- und S-Plus-Begleiter zur multivariaten Analyse . Um dies gründlich zu diskutieren, schlage ich vor, sein neuestes Buch Multivariable Modellierung und Multivariate Analyse für die Verhaltenswissenschaften zu lesen .

Für 'variate' würde ich sagen, dass dies eine gebräuchliche Methode ist, um sich auf eine Zufallsvariable zu beziehen, die einer bekannten oder hypothetischen Verteilung folgt. Beispielsweise sprechen wir von Gaußvariablen als eine Reihe von Beobachtungen aus einer Normalverteilung (mit Parametern μ und σ 2 ). In probabilistischen Begriffen haben wir gesagt, dass dies einige zufällige Realisierungen von X mit mathematischer Erwartung μ sind und dass ungefähr 95% von ihnen auf dem Bereich [ μ - 2 σ liegen sollen ; μ + 2 σ ] .Xichμσ2μ[μ-2σ;μ+2σ]

chl
quelle
1
Sogar coursera.org/learn/machine-learning/home/week/2 verwendet den Begriff multivariate Regression anstelle von multipler Regression…
Franck Dernoncourt
Ich denke, dass die gleiche Verwirrung bei Menschen auftritt, die den Begriff GLM für das allgemeine lineare Modell (z. B. in Neuroimaging-Studien) im Vergleich zum verallgemeinerten linearen Modell verwenden. Ich habe viele Fälle von "multivariater logistischer Regression" gesehen, in denen es nur ein Ergebnis gibt, und ich denke, dass dies nicht so wichtig ist, solange der Begriff vom Autor klar definiert wird.
Chl
39

Hier sind zwei nahe verwandte Beispiele, die die Ideen veranschaulichen. Die Beispiele sind etwas US-zentriert, aber die Ideen können auf andere Länder übertragen werden.

Beispiel 1

Angenommen, eine Universität möchte ihre Zulassungskriterien verfeinern, damit sie "bessere" Studenten zulässt. Angenommen, der Notendurchschnitt eines Studenten ist das, was die Universität als Leistungsmetrik für Studenten verwenden möchte. Sie haben verschiedene Kriterien im Sinn, wie zB High School GPA (HSGPA), SAT-Punktzahl (SAT), Geschlecht usw., und möchten wissen, welches dieser Kriterien für GPA von Bedeutung ist.

Lösung: Multiple Regression

Im obigen Kontext gibt es eine abhängige Variable (GPA) und Sie haben mehrere unabhängige Variablen (HSGPA, SAT, Geschlecht usw.). Sie möchten herausfinden, welche der unabhängigen Variablen gute Prädiktoren für Ihre abhängige Variable sind. Sie würden mehrfache Regression verwenden, um diese Beurteilung vorzunehmen.

Beispiel 2

Angenommen, die Zulassungsstelle möchte die Leistung der Schüler über einen bestimmten Zeitraum hinweg verfolgen und bestimmen, welches ihrer Kriterien die Leistung der Schüler über einen bestimmten Zeitraum hinweg bestimmt. Mit anderen Worten, sie haben GPA-Werte für die vier Jahre, in denen ein Schüler in der Schule bleibt (z. B. GPA1, GPA2, GPA3, GPA4), und sie möchten wissen, welche der unabhängigen Variablen die GPA-Werte für ein Jahr besser vorhersagen. Jahresbasis. Die Zulassungsstelle hofft, dass dieselben unabhängigen Variablen die Leistung über alle vier Jahre vorhersagen, sodass die Auswahl der Zulassungskriterien sicherstellt, dass die Leistung der Schüler über alle vier Jahre konstant hoch ist.

Lösung: Multivariate Regression

In Beispiel 2 haben wir mehrere abhängige Variablen (dh GPA1, GPA2, GPA3, GPA4) und mehrere unabhängige Variablen. In einer solchen Situation würden Sie eine multivariate Regression verwenden.


quelle
2
Es gibt immer einen, der die Frage richtig mit Beispielen beantwortet :)
Tjorriemorrie
100% die beste Antwort, die Sie tatsächlich verstehen können
Alvis
21

yXy=f(X)

y=f(X1,X2,...,Xn)

y1,y2,...,ym=f(X1,X2,...,Xn)y11,y12,...X11,X12,...Y.=f(X)

Weitere Lektüre:

stackoverflowuser2010
quelle
Ich verstehe die Definition. Aber wie wirkt es sich aus, eine multivariate Regression als ein System von univariaten Regressionen zu behandeln?
LKS
@ LKS: Vielleicht möchten Sie das in einer völlig anderen Frage stellen.
Stackoverflowuser2010
Bezog sich die Antwort in der Quora auf diese Seite? : P
Habeeb Perwad
4

Ich denke, die wichtigste Erkenntnis (und das Unterscheidungsmerkmal) neben der Anzahl der Variablen auf beiden Seiten der Gleichung ist, dass für den Fall der multivariaten Regression das Ziel darin besteht, die Tatsache zu nutzen, dass (im Allgemeinen) Korrelation zwischen Antwortvariablen besteht (oder Ergebnisse). Zum Beispiel können in einer medizinischen Studie Gewicht, Alter und Rasse als Prädiktoren dienen, und die Ergebnisvariablen sind Blutdruck und Cholesterin. Theoretisch könnten wir zwei "multiple Regressionsmodelle" erstellen, ein Modell, das den Blutdruck in Bezug auf Gewicht, Alter und Rasse reguliert, und ein zweites Modell, das das Cholesterin aufgrund derselben Faktoren reguliert. Alternativ könnten wir jedoch ein einzelnes multivariates Regressionsmodell erstellen, das beide prognostiziertBlutdruck und Cholesterin gleichzeitig basierend auf den drei Prädiktorvariablen. Die Idee ist, dass das multivariate Regressionsmodell insofern besser (prädiktiver) sein kann, als es mehr aus der Korrelation zwischen Blutdruck und Cholesterin bei Patienten lernen kann.

thecity2
quelle
Großartiger Punkt. Ich habe mich gefragt, ob mit R eine multivariate Regression durchgeführt werden kann. Mit Manova kann ich eine multivariate ANOVA durchführen, aber keine Koeffizienten wie eine univariate Regression erhalten.
KarthikS
1

In der multivariaten Regression gibt es mehr als eine abhängige Variable mit unterschiedlichen Varianzen (oder Verteilungen). Die Prädiktorvariablen können mehr als eine oder mehrere sein. Es kann sich also um eine multiple Regression mit einer Matrix abhängiger Variablen handeln, dh um multiple Varianzen. Wenn wir jedoch multiple Regression sagen, meinen wir nur eine abhängige Variable mit einer einzelnen Verteilung oder Varianz. Die Prädiktorvariablen sind mehr als eins. Zusammenfassend bezieht sich mehrere auf mehr als eine Prädiktorvariable, aber multivariate auf mehr als eine abhängige Variable.

Bhabesh Mahanta
quelle