Ich habe gerade dieses wunderbare Buch durchgesehen: Angewandte multivariate statistische Analyse von Johnson und Wichern . Die Ironie ist, dass ich die Motivation für die Verwendung multivariater (Regressions-) Modelle anstelle separater univariater (Regressions-) Modelle immer noch nicht verstehen kann. Ich habe die stats.statexchange-Posts 1 und 2 durchgesehen , die (a) den Unterschied zwischen multipler und multivariater Regression und (b) die Interpretation multivariater Regressionsergebnisse erklären, aber ich bin nicht in der Lage, die Verwendung multivariater statistischer Modelle aus allen Informationen herauszufiltern, die ich habe Holen Sie sich online über sie.
Meine Fragen sind:
- Warum brauchen wir multivariate Regression? Was ist der Vorteil, wenn die Ergebnisse nicht einzeln, sondern gleichzeitig betrachtet werden, um Rückschlüsse zu ziehen?
- Wann werden multivariate Modelle und wann werden mehrere univariate Modelle verwendet (für mehrere Ergebnisse)?
- Nehmen Sie ein Beispiel auf der UCLA-Website mit drei Ergebnissen: Kontrollort, Selbstverständnis und Motivation. Können wir die Analyse in Bezug auf 1. und 2. vergleichen, wenn wir drei univariate multiple Regressionen mit einer multivariaten multiplen Regression durchführen? Wie kann man sich gegenseitig rechtfertigen?
- Ich bin nicht auf viele wissenschaftliche Arbeiten gestoßen, die multivariate statistische Modelle verwenden. Liegt dies an der multivariaten Normalitätsannahme, der Komplexität der Modellanpassung / -interpretation oder einem anderen bestimmten Grund?
Antworten:
Haben Sie das vollständige Beispiel auf der von Ihnen verlinkten UCLA-Site gelesen?
Zu 1: Die
Verwendung eines multivariaten Modells hilft Ihnen (formal, inferentiell), Koeffizienten über die Ergebnisse hinweg zu vergleichen.
In diesem verknüpften Beispiel verwenden sie das multivariate Modell, um zu testen, ob sich der
write
Koeffizient für daslocus_of_control
Ergebnis signifikant von dem für dasself_concept
Ergebnis unterscheidet. Ich bin kein Psychologe, aber vermutlich ist es interessant zu fragen, ob Ihre Schreibfähigkeit zwei verschiedene psychische Variablen auf die gleiche Weise beeinflusst / vorhersagt. (Wenn wir der Null nicht glauben, ist es immer noch interessant zu fragen, ob Sie genügend Daten gesammelt haben, um überzeugend nachzuweisen , dass sich die Auswirkungen tatsächlich unterscheiden.)Wenn Sie separate univariate Analysen durchführen, ist es schwieriger, die zu vergleichen
write
Koeffizient zwischen den beiden Modellen. Beide Schätzungen würden aus demselben Datensatz stammen, sodass sie korreliert wären. Das multivariate Modell berücksichtigt diese Korrelation.Auch zu 4:
Es gibt einige sehr häufig verwendete multivariate Modelle, z. B. ANOVA mit wiederholten Messungen . Stellen Sie sich bei einem geeigneten Studiendesign vor, Sie geben jedem Patienten mehrere Medikamente und messen den Gesundheitszustand jedes Patienten nach jedem Medikament. Oder stellen Sie sich vor, Sie messen über die Zeit das gleiche Ergebnis wie mit Längsschnittdaten, etwa Kinderhöhen über die Zeit. Dann haben Sie mehrere Ergebnisse für jede Einheit (auch wenn es sich nur um Wiederholungen "derselben" Art von Messung handelt). Sie werden wahrscheinlich zumindest ein paar einfache Kontraste anstellen wollen: Vergleichen der Wirkungen von Medikament A mit Medikament B oder der durchschnittlichen Wirkungen von Medikament A und B mit Placebo. Zu diesem Zweck ist die ANOVA mit wiederholten Messungen ein geeignetes multivariates statistisches Modell / eine geeignete statistische Analyse.
quelle
write
Koeffizient) korreliert wäre und dass das multivariate Modell denselben ausmacht. Hier möchte ich mehr Verständnis gewinnen. locus_of_control und self_concept können mithilfe von Faktorenanalysen oder anderen Techniken zu einer einzigen Kennzahl zusammengeführt und die resultierende Kennzahl bei entsprechender Motivation modelliert werden. Wenn beide zwei verschiedene Psyc messen. Phänomene, was gewinnen wir, wenn wir sie gleichzeitig modellieren?Denken Sie an all die falschen und manchmal gefährlichen Schlussfolgerungen, die sich aus der einfachen Multiplikation von Wahrscheinlichkeiten ergeben. Denkende Ereignisse sind unabhängig. Aufgrund all der eingebauten redundanten Sicherheitsvorkehrungen haben wir Experten für Kernkraftwerke unter der Annahme der Unabhängigkeit davon ausgegangen, dass die Wahrscheinlichkeit eines schweren nuklearen Unfalls infinitesimal war. Aber wie wir auf Three Mile Island gesehen haben, machen die Menschen korrelierte Fehler, vor allem wenn sie in Panik geraten, aufgrund eines anfänglichen Fehlers, der sich schnell verschlimmern kann. Es mag schwierig sein, ein realistisches multivariates Modell zu konstruieren, das menschliches Verhalten charakterisiert, aber die Wirkung eines schrecklichen Modells (unabhängige Fehler) zu erkennen, ist klar.
Es gibt viele andere mögliche Beispiele. Ich werde das Challenger Shuttle-Desaster als ein weiteres mögliches Beispiel nehmen. Die Frage war, ob der Start bei niedrigen Temperaturen erfolgen sollte oder nicht. Es gab einige Daten, die darauf hindeuten, dass die O-Ringe bei niedrigen Temperaturen versagen könnten. Es gab jedoch nicht viele Daten über bestandene Missionen, um zu verdeutlichen, wie hoch das Risiko war. Die NASA hat sich immer um die Sicherheit der Astronauten gekümmert, und viele Entlassungen wurden in die Raumfahrzeuge und Trägerraketen eingebaut, um die Missionen sicherer zu machen.
Vor 1986 gab es jedoch einige Systemfehler und Beinahe-Fehler, wahrscheinlich weil nicht alle möglichen Fehlermodi identifiziert wurden (eine schwierige Aufgabe). Zuverlässigkeitsmodellierung ist ein schwieriges Geschäft. Aber das ist eine andere Geschichte. Im Falle des Shuttles hatte der Hersteller der O-Ringe (Morton Thiokol) einige Tests der O-Ringe durchgeführt, die auf die Möglichkeit eines Ausfalls bei niedriger Temperatur hinwiesen.
Die Daten für eine begrenzte Anzahl von Missionen zeigten jedoch eine gewisse Beziehung zwischen Temperatur und Ausfall. Da jedoch einige Administratoren aufgrund von Redundanz der Ansicht waren, dass es nicht zu mehreren O-Ring-Ausfällen kommen würde, setzten sie die NASA unter Druck.
Natürlich gab es viele andere Faktoren, die zur Entscheidung führten. Denken Sie daran, wie sehr Präsident Reagan darauf bedacht war, einen Lehrer in den Weltraum zu schicken, um zu demonstrieren, dass es nun sicher genug war, dass gewöhnliche Menschen , die keine Astronauten waren, sicher mit dem Shuttle reisen konnten . Der politische Druck war ein weiterer wichtiger Faktor für die Entscheidung. In diesem Fall hätte das Risiko mit genügend Daten und einem multivariaten Modell besser nachgewiesen werden können. Die NASA verwendet, um zu versuchen, auf der Seite der Vorsicht zu irren. In diesem Fall wäre es vernünftig gewesen, den Start für ein paar Tage zu verschieben, bis sich das Wetter in Florida erwärmt hat.
Nach der Katastrophe haben Kommissionen, Ingenieure, Wissenschaftler und Statistiker eine Menge Analysen durchgeführt und Artikel veröffentlicht. Ihre Ansichten können von meinen abweichen. Edward Tufte hat in einer seiner Buchreihen zu Grafiken gezeigt, dass gute Grafiken überzeugender gewesen sein könnten. Aber am Ende, obwohl diese Analysen alle Verdienste haben, denke ich, hätte sich die Politik noch durchgesetzt.
Die Moral dieser Geschichten ist nicht, dass diese Katastrophen den Einsatz multivariater Methoden motivierten, sondern dass schlechte Analysen, bei denen die Abhängigkeit ignoriert wurde, manchmal zu einer starken Unterschätzung des Risikos führen. Dies kann zu einem Übermaß an Vertrauen führen, das gefährlich sein kann. Wie jwimberley im ersten Kommentar zu diesem Thread betonte "Separate univariate Modelle ignorieren Korrelationen."
quelle
Betrachten Sie dieses Zitat von p. 36 von Darcy Olsens Buch The Right to Try [1]:
Max 'Mutter Jenn baut ein kohärentes Bild seiner Verbesserung durch Zusammen Beweise von mehreren Ergebnissen ziehen , die individuell könnten als ‚Lärm‘ abgetan werden, aber das zusammen ist ziemlich überzeugend. (Dieses Prinzip der Evidenzsynthese ist Teil des Grundes, warum Kinderärzte in der Regel die instinktiven Schlussfolgerungen eines Elternteils, dass "etwas mit meinem Kind nicht in Ordnung ist", niemals ablehnen. Eltern haben Zugang zu einer multivariaten Längsschnittanalyse ihrer Kinder, die weitaus umfangreicher ist als die "oligovariaten". Querschnittsanalyse, die einem Kliniker während einer einzigen, kurzen klinischen Begegnung zugänglich ist.)
Betrachten Sie eine hypothetische Situation, in der nur ein kleiner Teil der Studienteilnehmer von einer experimentellen Therapie profitierte, beispielsweise aufgrund eines gemeinsamen genetischen Faktors, der der Wissenschaft noch nicht bekannt ist. Es ist durchaus möglich, dass für diese wenigen Probanden ein statistisches Argument, das Jenns multivariater Geschichte entspricht, sie eindeutig als „Responder“ identifiziert, während mehrere separate Analysen der in den einzelnen Ergebnissen enthaltenen schwachen Signale jeweils , was eine „Null“ zur Folge hätte. summative Schlussfolgerung.p>0.05
Das Erreichen einer solchen Evidenzsynthese ist das zentrale Argument für die multivariate Ergebnisanalyse in klinischen Studien. Statistische Methoden in der medizinischen Forschung hatten vor einigen Jahren ein spezielles Thema [2], das der „gemeinsamen Modellierung“ multivariater Ergebnisse gewidmet war.
quelle
Machen wir eine einfache Analogie, denn das ist alles, was ich wirklich beitragen kann. Anstelle einer univariaten versus multivariaten Regression betrachten wir univariate (marginale) versus multivariate (gemeinsame) Verteilungen. Angenommen, ich habe die folgenden Daten und möchte "Ausreißer" finden. Als ersten Ansatz könnte ich die beiden Randverteilungen ("univariate") verwenden und unabhängig voneinander Linien bei den unteren 2,5% und oberen 2,5% zeichnen. Punkte, die außerhalb der resultierenden Linien liegen, gelten als Ausreißer.
Aber zwei Dinge: 1) Was halten wir von Punkten, die außerhalb der Linien für eine Achse, aber innerhalb der Linien für die andere Achse liegen? Sind sie "partielle Ausreißer" oder so? Und 2) die resultierende Box sieht nicht so aus, als würde sie wirklich das tun, was wir wollen. Der Grund ist natürlich, dass die beiden Variablen korreliert sind, und wir wollen intuitiv Ausreißer finden, die ungewöhnlich sind, wenn man die Variablen in Kombination betrachtet.
In diesem Fall sehen wir uns die gemeinsame Verteilung an, und ich habe die Punkte farbkodiert, indem ich prüfe, ob ihr Mahalanobis-Abstand vom Zentrum innerhalb der oberen 5% liegt oder nicht. Die schwarzen Punkte ähneln eher Ausreißern, obwohl einige Ausreißer innerhalb beider Sätze von grünen Linien liegen und einige Nicht-Ausreißer (rot) außerhalb beider Sätze von grünen Linien liegen.
In beiden Fällen begrenzen wir die 95% gegenüber den 5%, aber die zweite Technik berücksichtigt die gemeinsame Verteilung. Ich glaube, multivariate Regression ist so, wo Sie "Verteilung" durch "Regression" ersetzen. Ich verstehe es nicht ganz und musste (soweit ich weiß) selbst keine multivariate Regression durchführen, aber so denke ich darüber.
[Die Analogie hat Probleme: Die Mahalanobis-Distanz reduziert zwei Variablen auf eine einzige Zahl - so wie eine univariate Regression eine Reihe unabhängiger Variablen berücksichtigt und mit den richtigen Techniken Kovarianzen zwischen den unabhängigen Variablen und Ergebnisse berücksichtigt in einer einzelnen abhängigen Variablen - während eine multivariate Regression zu mehreren abhängigen Variablen führt. Es ist also irgendwie rückwärts, aber hoffentlich vorwärts genug, um eine gewisse Intuition zu vermitteln.]
quelle
1) Die Natur ist nicht immer einfach. Tatsächlich hängen die meisten Phänomene (Ergebnisse), die wir untersuchen, von mehreren Variablen auf komplexe Weise ab. Ein Inferenzmodell, das jeweils auf einer Variablen basiert, weist höchstwahrscheinlich eine hohe Verzerrung auf.
2) Univariate Modelle sind per Definition das einfachste Modell, das Sie erstellen können. Es ist in Ordnung, wenn Sie ein Problem zum ersten Mal untersuchen und dessen wichtigste Funktion erfassen möchten. Aber wenn Sie ein tieferes Verständnis davon wünschen, ein Verständnis, das Sie tatsächlich nutzen können, weil Sie dem vertrauen, was Sie tun, würden Sie multivariate Analysen verwenden. Und unter den multivariaten sollten Sie diejenigen bevorzugen, die Korrelationsmuster verstehen, wenn Sie Wert auf Modellgenauigkeit legen.
3) Entschuldigung, keine Zeit, diese zu lesen.
4) Papiere, die multivariate Techniken verwenden, sind heutzutage sehr verbreitet - in einigen Bereichen sogar extrem verbreitet. Bei den CERN-Experimenten mit den Large Hadron Collider-Daten (um ein Beispiel aus der Teilchenphysik zu nehmen) verwenden mehr als die Hälfte der Hunderte von Veröffentlichungen pro Jahr auf die eine oder andere Weise multivariate Techniken
https://inspirehep.net/search?ln=de&ln=de&p=find+cn+cms+&of=hb&action_search=Search&sf=earliestdate&so=d&rm=&rg=25&sc=0
quelle
Meine Antwort hängt davon ab, was Sie mit der Regression anfangen möchten. Wenn Sie versuchen, den Effekt verschiedener Koeffizienten zu vergleichen, ist die Regression möglicherweise nicht das richtige Werkzeug für Sie. Wenn Sie versuchen, Vorhersagen mit verschiedenen Koeffizienten zu treffen, die Sie als unabhängig erwiesen haben, sollten Sie möglicherweise mehrere Regressionen verwenden.
Sind die Faktoren miteinander korreliert? In diesem Fall kann eine multivariate Regression zu einem schlechten Modell führen. Verwenden Sie eine Methode wie VIFs oder Ridge-Regression, um Kreuzkorrelationen zu korrigieren. Sie sollten Koeffizienten erst vergleichen, wenn die kreuzkorrelierten Faktoren eliminiert sind. Dies würde zu einer Katastrophe führen. Wenn sie nicht kreuzkorreliert sind, sollten multivariate Koeffizienten genauso vergleichbar sein wie univariate Koeffizienten, und dies sollte nicht überraschen.
Das Ergebnis kann auch vom verwendeten Softwarepaket abhängen. Ich mache keine Witze. Unterschiedliche Softwarepakete haben unterschiedliche Methoden zur Berechnung der multivariaten Regression. (Glauben Sie mir nicht? Sehen Sie sich an, wie das Standard-R-Regressionspaket R 2 mit und ohne Erzwingen des Ursprungs als Achsenabschnitt berechnet . Ihr Kiefer sollte auf dem Boden aufschlagen.) Sie müssen verstehen, wie das Softwarepaket die Regression ausführt. Wie gleicht es Kreuzkorrelationen aus? Führt es eine sequentielle oder Matrix-Lösung durch? Ich war in der Vergangenheit frustriert. Ich schlage vor, Ihre multiple Regression mit verschiedenen Softwarepaketen durchzuführen und zu sehen, was Sie erhalten.
Ein weiteres gutes Beispiel hier:
Es gibt so viele Fallstricke bei der Verwendung von multipler Regression, dass ich versuche, sie zu vermeiden. Wenn Sie es verwenden, seien Sie sehr vorsichtig mit den Ergebnissen und überprüfen Sie sie. Sie sollten die Daten immer visuell darstellen, um die Korrelation zu überprüfen. (Nur weil in Ihrem Softwareprogramm keine Korrelation angegeben wurde, heißt das nicht, dass es keine gibt. Interessante Korrelationen ) Überprüfen Sie Ihre Ergebnisse immer mit gesundem Menschenverstand. Wenn ein Faktor in einer univariaten Regression eine starke Korrelation aufweist, aber keiner in einer multivariaten, müssen Sie verstehen, warum, bevor Sie die Ergebnisse teilen (der obige Geschlechtsfaktor ist ein gutes Beispiel).
quelle