Warum brauchen wir multivariate Regression (im Gegensatz zu einer Reihe von univariaten Regressionen)?

28

Ich habe gerade dieses wunderbare Buch durchgesehen: Angewandte multivariate statistische Analyse von Johnson und Wichern . Die Ironie ist, dass ich die Motivation für die Verwendung multivariater (Regressions-) Modelle anstelle separater univariater (Regressions-) Modelle immer noch nicht verstehen kann. Ich habe die stats.statexchange-Posts 1 und 2 durchgesehen , die (a) den Unterschied zwischen multipler und multivariater Regression und (b) die Interpretation multivariater Regressionsergebnisse erklären, aber ich bin nicht in der Lage, die Verwendung multivariater statistischer Modelle aus allen Informationen herauszufiltern, die ich habe Holen Sie sich online über sie.

Meine Fragen sind:

Warum brauchen wir multivariate Regression? Was ist der Vorteil, wenn die Ergebnisse nicht einzeln, sondern gleichzeitig betrachtet werden, um Rückschlüsse zu ziehen?
Wann werden multivariate Modelle und wann werden mehrere univariate Modelle verwendet (für mehrere Ergebnisse)?
Nehmen Sie ein Beispiel auf der UCLA-Website mit drei Ergebnissen: Kontrollort, Selbstverständnis und Motivation. Können wir die Analyse in Bezug auf 1. und 2. vergleichen, wenn wir drei univariate multiple Regressionen mit einer multivariaten multiplen Regression durchführen? Wie kann man sich gegenseitig rechtfertigen?
Ich bin nicht auf viele wissenschaftliche Arbeiten gestoßen, die multivariate statistische Modelle verwenden. Liegt dies an der multivariaten Normalitätsannahme, der Komplexität der Modellanpassung / -interpretation oder einem anderen bestimmten Grund?

regression multiple-regression inference multivariate-regression KarthikS
quelle

18

Separate univariate Modelle ignorieren Korrelationen.

Jwimberley

3

Ja, es gibt viele Phänomene auf der Welt, die nicht durch unabhängige Zufallsvariablen modelliert werden können.

Michael R. Chernick

2

@jwimberley Könnten Sie die Konsequenzen des Ignorierens dieser Korrelationen in einer Antwort erläutern?

Jake Westfall

2

Nur eine Anmerkung zum Titel: Dimensionsreduktion (PCA, Faktoranalyse, jede nichtlineare Methode usw.) und Clustering werden normalerweise auch als "multivariate" Methoden betrachtet. Ihre Frage scheint sich speziell auf die multivariate Regression zu konzentrieren (im Gegensatz zu einer Reihe von univariaten Regressionen). Ich schlage daher vor, dass Sie sie direkt in Ihren Titel aufnehmen. +1 übrigens

Amöbe sagt Reinstate Monica

2

Ein einfaches Beispiel, wie MANOVA im Gegensatz zu ANOVAs vorteilhaft sein kann: stats.stackexchange.com/questions/129123 . Eine umgekehrte Situation, in der MANOVA immer noch von Vorteil ist, jedoch aus einem anderen Grund: stats.stackexchange.com/questions/61921 . Somit kann MANOVA: (i) mehr Leistung liefern, (ii) die Gesamtfehlerrate steuern.

Amöbe sagt Reinstate Monica

22

Haben Sie das vollständige Beispiel auf der von Ihnen verlinkten UCLA-Site gelesen?

Zu 1: Die
Verwendung eines multivariaten Modells hilft Ihnen (formal, inferentiell), Koeffizienten über die Ergebnisse hinweg zu vergleichen.
In diesem verknüpften Beispiel verwenden sie das multivariate Modell, um zu testen, ob sich der writeKoeffizient für das locus_of_controlErgebnis signifikant von dem für das self_conceptErgebnis unterscheidet. Ich bin kein Psychologe, aber vermutlich ist es interessant zu fragen, ob Ihre Schreibfähigkeit zwei verschiedene psychische Variablen auf die gleiche Weise beeinflusst / vorhersagt. (Wenn wir der Null nicht glauben, ist es immer noch interessant zu fragen, ob Sie genügend Daten gesammelt haben, um überzeugend nachzuweisen , dass sich die Auswirkungen tatsächlich unterscheiden.)
Wenn Sie separate univariate Analysen durchführen, ist es schwieriger, die zu vergleichenwriteKoeffizient zwischen den beiden Modellen. Beide Schätzungen würden aus demselben Datensatz stammen, sodass sie korreliert wären. Das multivariate Modell berücksichtigt diese Korrelation.

Auch zu 4:
Es gibt einige sehr häufig verwendete multivariate Modelle, z. B. ANOVA mit wiederholten Messungen . Stellen Sie sich bei einem geeigneten Studiendesign vor, Sie geben jedem Patienten mehrere Medikamente und messen den Gesundheitszustand jedes Patienten nach jedem Medikament. Oder stellen Sie sich vor, Sie messen über die Zeit das gleiche Ergebnis wie mit Längsschnittdaten, etwa Kinderhöhen über die Zeit. Dann haben Sie mehrere Ergebnisse für jede Einheit (auch wenn es sich nur um Wiederholungen "derselben" Art von Messung handelt). Sie werden wahrscheinlich zumindest ein paar einfache Kontraste anstellen wollen: Vergleichen der Wirkungen von Medikament A mit Medikament B oder der durchschnittlichen Wirkungen von Medikament A und B mit Placebo. Zu diesem Zweck ist die ANOVA mit wiederholten Messungen ein geeignetes multivariates statistisches Modell / eine geeignete statistische Analyse.

civilstat
quelle

1

Du hast eine großartige Antwort gegeben. Mir war auf jeden Fall bewusst, dass es eine ganze Welt anderer Beispiele und Argumente geben könnte. Es gefällt mir, dass Sie Informationen aus dem UCLA-Link entnommen haben, um das OP anzuzeigen. Ehrlich gesagt war ich anfangs von der Frage beleidigt, aber ich entschied mich, eine Antwort zu geben, als mir klar wurde, dass das OP aufrichtig gute Argumente vorbringen wollte und die Idee, multivariate Methoden zu ignorieren, nicht forcierte. Ich wollte Beispiele zeigen, bei denen das Ignorieren der Korrelation verheerende und fatale Folgen hatte.

Michael R. Chernick

1

Ich freue mich über Ihre Antwort und hoffentlich über besser durchdachte Antworten, die diesen Thread zu einem wertvollen Thema machen.

Michael R. Chernick

Danke für die tolle Antwort, @civilstat. Wenn wir in Punkt 1 zwei unabhängige univariate Modelle ausführen, haben Sie erwähnt, dass der Eingangsvariablenkoeffizient (zum Beispiel der writeKoeffizient) korreliert wäre und dass das multivariate Modell denselben ausmacht. Hier möchte ich mehr Verständnis gewinnen. locus_of_control und self_concept können mithilfe von Faktorenanalysen oder anderen Techniken zu einer einzigen Kennzahl zusammengeführt und die resultierende Kennzahl bei entsprechender Motivation modelliert werden. Wenn beide zwei verschiedene Psyc messen. Phänomene, was gewinnen wir, wenn wir sie gleichzeitig modellieren?

KarthikS

2

@ManuelFazio Siehe den nächsten Satz auf der UCLA-Site: "Warum also eine multivariate Regression durchführen? Wie bereits erwähnt, besteht einer der Vorteile der Verwendung von mvreg darin, dass Sie Koeffiziententests für die verschiedenen Ergebnisvariablen durchführen können." Wenn Sie separate Regressionen durchführen, erhalten Sie für jedes Ergebnis denselben Koeffizienten und dieselbe SE , aber Sie erhalten keine Schätzung der Korrelation zwischen Koeffizienten über die Ergebnisse hinweg . Sie benötigen diese Korrelation, wenn Sie beispielsweise einen CI für die Differenz der Lesekoeffizienten für das Motivationsergebnis im Vergleich zum Selbstverständnisergebnis erhalten möchten.

Civilstat

1

@civilstat Ah, schade um mich, die Annahme der Unabhängigkeit war in meinem Kopf so tief verwurzelt, dass sie selbst nach dem Lesen dieses Satzes nicht anklickte. Danke für die ausführliche Erklärung!

zipzapboing

11

Denken Sie an all die falschen und manchmal gefährlichen Schlussfolgerungen, die sich aus der einfachen Multiplikation von Wahrscheinlichkeiten ergeben. Denkende Ereignisse sind unabhängig. Aufgrund all der eingebauten redundanten Sicherheitsvorkehrungen haben wir Experten für Kernkraftwerke unter der Annahme der Unabhängigkeit davon ausgegangen, dass die Wahrscheinlichkeit eines schweren nuklearen Unfalls infinitesimal war. Aber wie wir auf Three Mile Island gesehen haben, machen die Menschen korrelierte Fehler, vor allem wenn sie in Panik geraten, aufgrund eines anfänglichen Fehlers, der sich schnell verschlimmern kann. Es mag schwierig sein, ein realistisches multivariates Modell zu konstruieren, das menschliches Verhalten charakterisiert, aber die Wirkung eines schrecklichen Modells (unabhängige Fehler) zu erkennen, ist klar.

Es gibt viele andere mögliche Beispiele. Ich werde das Challenger Shuttle-Desaster als ein weiteres mögliches Beispiel nehmen. Die Frage war, ob der Start bei niedrigen Temperaturen erfolgen sollte oder nicht. Es gab einige Daten, die darauf hindeuten, dass die O-Ringe bei niedrigen Temperaturen versagen könnten. Es gab jedoch nicht viele Daten über bestandene Missionen, um zu verdeutlichen, wie hoch das Risiko war. Die NASA hat sich immer um die Sicherheit der Astronauten gekümmert, und viele Entlassungen wurden in die Raumfahrzeuge und Trägerraketen eingebaut, um die Missionen sicherer zu machen.

Vor 1986 gab es jedoch einige Systemfehler und Beinahe-Fehler, wahrscheinlich weil nicht alle möglichen Fehlermodi identifiziert wurden (eine schwierige Aufgabe). Zuverlässigkeitsmodellierung ist ein schwieriges Geschäft. Aber das ist eine andere Geschichte. Im Falle des Shuttles hatte der Hersteller der O-Ringe (Morton Thiokol) einige Tests der O-Ringe durchgeführt, die auf die Möglichkeit eines Ausfalls bei niedriger Temperatur hinwiesen.

Die Daten für eine begrenzte Anzahl von Missionen zeigten jedoch eine gewisse Beziehung zwischen Temperatur und Ausfall. Da jedoch einige Administratoren aufgrund von Redundanz der Ansicht waren, dass es nicht zu mehreren O-Ring-Ausfällen kommen würde, setzten sie die NASA unter Druck.

Natürlich gab es viele andere Faktoren, die zur Entscheidung führten. Denken Sie daran, wie sehr Präsident Reagan darauf bedacht war, einen Lehrer in den Weltraum zu schicken, um zu demonstrieren, dass es nun sicher genug war, dass gewöhnliche Menschen , die keine Astronauten waren, sicher mit dem Shuttle reisen konnten . Der politische Druck war ein weiterer wichtiger Faktor für die Entscheidung. In diesem Fall hätte das Risiko mit genügend Daten und einem multivariaten Modell besser nachgewiesen werden können. Die NASA verwendet, um zu versuchen, auf der Seite der Vorsicht zu irren. In diesem Fall wäre es vernünftig gewesen, den Start für ein paar Tage zu verschieben, bis sich das Wetter in Florida erwärmt hat.

Nach der Katastrophe haben Kommissionen, Ingenieure, Wissenschaftler und Statistiker eine Menge Analysen durchgeführt und Artikel veröffentlicht. Ihre Ansichten können von meinen abweichen. Edward Tufte hat in einer seiner Buchreihen zu Grafiken gezeigt, dass gute Grafiken überzeugender gewesen sein könnten. Aber am Ende, obwohl diese Analysen alle Verdienste haben, denke ich, hätte sich die Politik noch durchgesetzt.

Die Moral dieser Geschichten ist nicht, dass diese Katastrophen den Einsatz multivariater Methoden motivierten, sondern dass schlechte Analysen, bei denen die Abhängigkeit ignoriert wurde, manchmal zu einer starken Unterschätzung des Risikos führen. Dies kann zu einem Übermaß an Vertrauen führen, das gefährlich sein kann. Wie jwimberley im ersten Kommentar zu diesem Thread betonte "Separate univariate Modelle ignorieren Korrelationen."

Michael R. Chernick
quelle

Vielen Dank für Ihr wunderbares Beispiel, @MichaelChernick. Ich verstehe, dass die Annahme der Unabhängigkeit Anlass zur Sorge gibt. Ich bin neugieriger in Bezug auf die Wechselbeziehung zwischen Ergebnissen und der Notwendigkeit, sie gleichzeitig zu modellieren.

KarthikS

Nehmen wir das Beispiel der Challenger-Shuttle-Katastrophe. Hier ist das univariate Ergebnis binär - ob es sicher ist oder nicht, das Space Shuttle zu starten. Stellen Sie sich das Modell vor, das versucht, viele Dinge zu tun, z. B. die Sicherheit vorherzusagen, Flugbahnabweichungen zu messen und den Innendruck für das Shuttle vorherzusagen. Ein Ansatz könnte darin bestehen, separate Modelle für jedes dieser Modelle zu erstellen, und der andere darin, ein Modell für alle zu berücksichtigen, das nicht nur versucht, die Auswirkungen von Eingaben (Temperatur, Luftfeuchtigkeit usw.) zu erfassen, sondern auch die gleichzeitige Prüfung Auswirkungen auf die Ergebnisse.

KarthikS

1

Danke @MichaelChernick. Ich bin nicht sicher, ob ich Ihre Argumente vollständig verstehe. Ich verstehe, dass viele von uns die univariate und multivariate Regression für die einfache lineare Regression mit einer Eingabe und mehr als einer Eingabevariable verwenden (wobei in diesem Fall die gleichzeitigen Auswirkungen von mehr als einer Eingabe untersucht werden). Ich habe diese Frage jedoch für Modelle mit einem (univariaten) oder mehreren (multivariaten) Ergebnissen formuliert. Wenn der Challenger-Fall nicht auf einen Anwendungsfall für multivariate Ergebnisse anspielt, können Sie auf einen gültigen Fall anspielen. Vielen Dank für die Fortsetzung der Diskussion.

KarthikS

Ich bin überrascht, dass Sie dieser Frage ein Kopfgeld ausgesetzt haben. Kopfgelder werden häufiger ausgezahlt, wenn nur wenige Kommentare eingegangen sind und wenn sie Antworten enthalten, decken sie keinen wichtigen Aspekt der Fragen ab. Dieser Thread hatte drei gute Antworten und jede Menge Kommentare (auch wirklich gute wie die erste von jwimberley.

Michael R. Chernick

Ich bin mir nicht sicher, was Sie sonst noch wollen. Die Frage ist sehr weit gefasst und scheint eher eine Diskussion als eine technische zu sein. Mir kommt es fast so vor, als würden Sie jemanden dazu bringen, zu sagen, dass eine univariate Analyse allein in komplexen Situationen in Ordnung ist. Ich werde nicht versuchen, das Kopfgeld zu erhalten, und es wird interessant sein, in den nächsten sieben Tagen zu sehen, ob jemand es versucht und ob er es akzeptiert, wenn er es tut. Die Challenger-Katastrophe kann als ein univariates Ergebnis angesehen werden, aber ich denke, dass jede Menge Vorstellungskraft nur mit univariaten Methoden gründlich beantwortet werden kann.

Michael R. Chernick

7

Betrachten Sie dieses Zitat von p. 36 von Darcy Olsens Buch The Right to Try [1]:

Doch ungefähr 16 Wochen nach Beginn der [eteplirsen] Infusionen bemerkte Jenn Veränderungen bei [ihrem Sohn] Max. "Der Junge wollte seinen Rollstuhl nicht mehr benutzen", sagt sie. Ein paar Wochen später bat er darum, draußen zu spielen - etwas, was er seit Jahren nicht mehr getan hatte. Dann fing Max an, seine Feinmotorik zurückzugewinnen. Er konnte wieder Behälter öffnen - eine Fähigkeit, die er mit fortschreitender [Duchenne-Muskeldystrophie] verloren hatte.

Max 'Mutter Jenn baut ein kohärentes Bild seiner Verbesserung durch Zusammen Beweise von mehreren Ergebnissen ziehen , die individuell könnten als ‚Lärm‘ abgetan werden, aber das zusammen ist ziemlich überzeugend. (Dieses Prinzip der Evidenzsynthese ist Teil des Grundes, warum Kinderärzte in der Regel die instinktiven Schlussfolgerungen eines Elternteils, dass "etwas mit meinem Kind nicht in Ordnung ist", niemals ablehnen. Eltern haben Zugang zu einer multivariaten Längsschnittanalyse ihrer Kinder, die weitaus umfangreicher ist als die "oligovariaten". Querschnittsanalyse, die einem Kliniker während einer einzigen, kurzen klinischen Begegnung zugänglich ist.)

Betrachten Sie eine hypothetische Situation, in der nur ein kleiner Teil der Studienteilnehmer von einer experimentellen Therapie profitierte, beispielsweise aufgrund eines gemeinsamen genetischen Faktors, der der Wissenschaft noch nicht bekannt ist. Es ist durchaus möglich, dass für diese wenigen Probanden ein statistisches Argument, das Jenns multivariater Geschichte entspricht, sie eindeutig als „Responder“ identifiziert, während mehrere separate Analysen der in den einzelnen Ergebnissen enthaltenen schwachen Signale jeweils , was eine „Null“ zur Folge hätte. summative Schlussfolgerung. $p>0.05$

Das Erreichen einer solchen Evidenzsynthese ist das zentrale Argument für die multivariate Ergebnisanalyse in klinischen Studien. Statistische Methoden in der medizinischen Forschung hatten vor einigen Jahren ein spezielles Thema [2], das der „gemeinsamen Modellierung“ multivariater Ergebnisse gewidmet war.

Olsen, Darcy. Das Recht zu versuchen: Wie die Bundesregierung verhindert, dass Amerikaner die lebensrettenden Behandlungen erhalten, die sie benötigen. Erste Ausgabe. New York, NY: Harper, ein Abdruck von HarperCollins Publishers, 2015.
Rizopoulos, Dimitris und Emmanuel Lesaffre. „Einführung in die Sonderausgabe über gemeinsame Modellierungstechniken.“ Statistische Methoden in der medizinischen Forschung 23, Nr. 1 (1. Februar 2014): 3–10. doi: 10.1177 / 0962280212445800.

David C. Norris
quelle

6

Machen wir eine einfache Analogie, denn das ist alles, was ich wirklich beitragen kann. Anstelle einer univariaten versus multivariaten Regression betrachten wir univariate (marginale) versus multivariate (gemeinsame) Verteilungen. Angenommen, ich habe die folgenden Daten und möchte "Ausreißer" finden. Als ersten Ansatz könnte ich die beiden Randverteilungen ("univariate") verwenden und unabhängig voneinander Linien bei den unteren 2,5% und oberen 2,5% zeichnen. Punkte, die außerhalb der resultierenden Linien liegen, gelten als Ausreißer.

Aber zwei Dinge: 1) Was halten wir von Punkten, die außerhalb der Linien für eine Achse, aber innerhalb der Linien für die andere Achse liegen? Sind sie "partielle Ausreißer" oder so? Und 2) die resultierende Box sieht nicht so aus, als würde sie wirklich das tun, was wir wollen. Der Grund ist natürlich, dass die beiden Variablen korreliert sind, und wir wollen intuitiv Ausreißer finden, die ungewöhnlich sind, wenn man die Variablen in Kombination betrachtet.

In diesem Fall sehen wir uns die gemeinsame Verteilung an, und ich habe die Punkte farbkodiert, indem ich prüfe, ob ihr Mahalanobis-Abstand vom Zentrum innerhalb der oberen 5% liegt oder nicht. Die schwarzen Punkte ähneln eher Ausreißern, obwohl einige Ausreißer innerhalb beider Sätze von grünen Linien liegen und einige Nicht-Ausreißer (rot) außerhalb beider Sätze von grünen Linien liegen.

In beiden Fällen begrenzen wir die 95% gegenüber den 5%, aber die zweite Technik berücksichtigt die gemeinsame Verteilung. Ich glaube, multivariate Regression ist so, wo Sie "Verteilung" durch "Regression" ersetzen. Ich verstehe es nicht ganz und musste (soweit ich weiß) selbst keine multivariate Regression durchführen, aber so denke ich darüber.

[Die Analogie hat Probleme: Die Mahalanobis-Distanz reduziert zwei Variablen auf eine einzige Zahl - so wie eine univariate Regression eine Reihe unabhängiger Variablen berücksichtigt und mit den richtigen Techniken Kovarianzen zwischen den unabhängigen Variablen und Ergebnisse berücksichtigt in einer einzelnen abhängigen Variablen - während eine multivariate Regression zu mehreren abhängigen Variablen führt. Es ist also irgendwie rückwärts, aber hoffentlich vorwärts genug, um eine gewisse Intuition zu vermitteln.]

Wayne
quelle

1

Ich mag das. Ich würde die äußeren Ellipsen verwenden, um die Ausreißer zu definieren. Wie ich in Ihrer Illustration sehe, kann ein Punkt entweder in x- oder in y-Richtung weit vom Mittelwert entfernt sein, sich aber immer noch innerhalb einer Ellipse befinden, die nicht weit von der Regressionslinie entfernt ist.

Michael R. Chernick

3

1) Die Natur ist nicht immer einfach. Tatsächlich hängen die meisten Phänomene (Ergebnisse), die wir untersuchen, von mehreren Variablen auf komplexe Weise ab. Ein Inferenzmodell, das jeweils auf einer Variablen basiert, weist höchstwahrscheinlich eine hohe Verzerrung auf.

2) Univariate Modelle sind per Definition das einfachste Modell, das Sie erstellen können. Es ist in Ordnung, wenn Sie ein Problem zum ersten Mal untersuchen und dessen wichtigste Funktion erfassen möchten. Aber wenn Sie ein tieferes Verständnis davon wünschen, ein Verständnis, das Sie tatsächlich nutzen können, weil Sie dem vertrauen, was Sie tun, würden Sie multivariate Analysen verwenden. Und unter den multivariaten sollten Sie diejenigen bevorzugen, die Korrelationsmuster verstehen, wenn Sie Wert auf Modellgenauigkeit legen.

3) Entschuldigung, keine Zeit, diese zu lesen.

4) Papiere, die multivariate Techniken verwenden, sind heutzutage sehr verbreitet - in einigen Bereichen sogar extrem verbreitet. Bei den CERN-Experimenten mit den Large Hadron Collider-Daten (um ein Beispiel aus der Teilchenphysik zu nehmen) verwenden mehr als die Hälfte der Hunderte von Veröffentlichungen pro Jahr auf die eine oder andere Weise multivariate Techniken

https://inspirehep.net/search?ln=de&ln=de&p=find+cn+cms+&of=hb&action_search=Search&sf=earliestdate&so=d&rm=&rg=25&sc=0

Famargar
quelle

Ich denke, Sie wollen damit sagen, dass ein univariates Modell nur Eingaben enthält und ein multivariates Modell mehrere Eingaben enthält. Meine Frage betraf mehrere Ergebnisse, die gleichzeitig in einem Modell analysiert wurden.

KarthikS

1

Sie haben multivariate / univariate Regression mit multipler / einfacher Regression gemischt.

Firebug

1

Meine Antwort hängt davon ab, was Sie mit der Regression anfangen möchten. Wenn Sie versuchen, den Effekt verschiedener Koeffizienten zu vergleichen, ist die Regression möglicherweise nicht das richtige Werkzeug für Sie. Wenn Sie versuchen, Vorhersagen mit verschiedenen Koeffizienten zu treffen, die Sie als unabhängig erwiesen haben, sollten Sie möglicherweise mehrere Regressionen verwenden.

Sind die Faktoren miteinander korreliert? In diesem Fall kann eine multivariate Regression zu einem schlechten Modell führen. Verwenden Sie eine Methode wie VIFs oder Ridge-Regression, um Kreuzkorrelationen zu korrigieren. Sie sollten Koeffizienten erst vergleichen, wenn die kreuzkorrelierten Faktoren eliminiert sind. Dies würde zu einer Katastrophe führen. Wenn sie nicht kreuzkorreliert sind, sollten multivariate Koeffizienten genauso vergleichbar sein wie univariate Koeffizienten, und dies sollte nicht überraschen.

Das Ergebnis kann auch vom verwendeten Softwarepaket abhängen. Ich mache keine Witze. Unterschiedliche Softwarepakete haben unterschiedliche Methoden zur Berechnung der multivariaten Regression. (Glauben Sie mir nicht? Sehen Sie sich an, wie das Standard-R-Regressionspaket R ² mit und ohne Erzwingen des Ursprungs als Achsenabschnitt berechnet . Ihr Kiefer sollte auf dem Boden aufschlagen.) Sie müssen verstehen, wie das Softwarepaket die Regression ausführt. Wie gleicht es Kreuzkorrelationen aus? Führt es eine sequentielle oder Matrix-Lösung durch? Ich war in der Vergangenheit frustriert. Ich schlage vor, Ihre multiple Regression mit verschiedenen Softwarepaketen durchzuführen und zu sehen, was Sie erhalten.

Ein weiteres gutes Beispiel hier:

Es ist zu beachten, dass in dieser Gleichung die Regressionskoeffizienten (oder B-Koeffizienten) die unabhängigen Beiträge jeder unabhängigen Variablen zur Vorhersage der abhängigen Variablen darstellen. Eine andere Möglichkeit, diese Tatsache auszudrücken, besteht darin, zu sagen, dass beispielsweise die Variable X1 mit der Y-Variablen korreliert wird, nachdem alle anderen unabhängigen Variablen gesteuert wurden. Diese Art der Korrelation wird auch als Teilkorrelation bezeichnet (dieser Begriff wurde erstmals von Yule, 1907, verwendet). Möglicherweise wird dieses Problem durch das folgende Beispiel verdeutlicht. Sie würden wahrscheinlich eine signifikante negative Korrelation zwischen Haarlänge und -höhe in der Bevölkerung finden (dh kurze Menschen haben längere Haare). Auf den ersten Blick mag dies merkwürdig erscheinen. Wenn wir jedoch die Variable Geschlecht in die multiple Regressionsgleichung aufnehmen würden, würde diese Korrelation wahrscheinlich verschwinden. Dies liegt daran, dass Frauen im Durchschnitt längere Haare haben als Männer. Sie sind auch im Durchschnitt kürzer als Männer. Nachdem wir diesen Geschlechtsunterschied durch Eingabe von Geschlecht in die Gleichung beseitigt haben, verschwindet die Beziehung zwischen Haarlänge und Körpergröße, da die Haarlänge keinen eindeutigen Beitrag zur Vorhersage der Körpergröße leistet, und zwar über das hinaus, was sie in der Vorhersage mit dem variablen Geschlecht teilt . Anders ausgedrückt, nach der Kontrolle der Variablen Geschlecht ist die partielle Korrelation zwischen Haarlänge und -höhe Null. Die Beziehung zwischen Haarlänge und Körpergröße verschwindet, da die Haarlänge keinen eindeutigen Beitrag zur Vorhersage der Körpergröße leistet, und zwar über das hinaus, was sie in der Vorhersage mit variablem Geschlecht teilt. Anders ausgedrückt, nach der Kontrolle der Variablen Geschlecht ist die partielle Korrelation zwischen Haarlänge und -höhe Null. Die Beziehung zwischen Haarlänge und Körpergröße verschwindet, da die Haarlänge keinen eindeutigen Beitrag zur Vorhersage der Körpergröße leistet, und zwar über das hinaus, was sie in der Vorhersage mit variablem Geschlecht teilt. Anders ausgedrückt, nach der Kontrolle der Variablen Geschlecht ist die partielle Korrelation zwischen Haarlänge und -höhe Null. http://www.statsoft.com/Textbook/Multiple-Regression

Es gibt so viele Fallstricke bei der Verwendung von multipler Regression, dass ich versuche, sie zu vermeiden. Wenn Sie es verwenden, seien Sie sehr vorsichtig mit den Ergebnissen und überprüfen Sie sie. Sie sollten die Daten immer visuell darstellen, um die Korrelation zu überprüfen. (Nur weil in Ihrem Softwareprogramm keine Korrelation angegeben wurde, heißt das nicht, dass es keine gibt. Interessante Korrelationen ) Überprüfen Sie Ihre Ergebnisse immer mit gesundem Menschenverstand. Wenn ein Faktor in einer univariaten Regression eine starke Korrelation aufweist, aber keiner in einer multivariaten, müssen Sie verstehen, warum, bevor Sie die Ergebnisse teilen (der obige Geschlechtsfaktor ist ein gutes Beispiel).

Maddenker
quelle

„ Sehen Sie sich an, wie das Standard-R-Regressionspaket R2 mit und ohne Erzwingung des Ursprungs als Achsenabschnitt berechnet. “ Während es für diejenigen, die es nicht erwarten, möglicherweise verwirrend ist, ist das, was R in dieser Situation tut, der Standardansatz, der in buchstäblich jeder Statistiksoftware implementiert ist Paket, wo ich das überprüft habe.

Jake Westfall

Interessant. Ich habe veröffentlichte Artikel von Analysten gesehen, die diesen Unterschied nicht verstanden haben. Haben Sie eine gute Online-Diskussion zu diesem Thema gesehen? Sollte ich eine neue Frage zum Lebenslauf einreichen?

Maddenker

stats.stackexchange.com/questions/267325/… stats.stackexchange.com/questions/26176/… stats.stackexchange.com/questions/102709/… stats.stackexchange.com/questions/7948/…

Jake Westfall

Warum brauchen wir multivariate Regression (im Gegensatz zu einer Reihe von univariaten Regressionen)?

Antworten: