Was ist die Nullhypothese einer MANOVA?

Hintergrund

Um Unterschiede in einer kontinuierlichen Variablen zwischen verschiedenen Gruppen zu analysieren (gegeben durch eine kategoriale Variable), kann eine Einweg-ANOVA durchgeführt werden. Wenn es mehrere erklärende (kategoriale) Variablen gibt, kann eine faktorielle ANOVA durchgeführt werden. Wenn man Unterschiede zwischen Gruppen in mehreren kontinuierlichen Variablen (dh mehreren Antwortvariablen) analysieren möchte, muss man eine multivariate ANOVA (MANOVA) durchführen.

Frage

Ich verstehe kaum, wie man einen ANOVA-ähnlichen Test für mehrere Antwortvariablen durchführen kann, und was noch wichtiger ist, ich verstehe nicht, wie die Nullhypothese aussehen könnte. Ist die Nullhypothese:

"Für jede Antwortvariable sind die Mittelwerte aller Gruppen gleich",

oder ist es

"Für mindestens eine Antwortvariable sind die Mittelwerte aller Gruppen gleich",

oder ist etwas anderes? $H_0$

hypothesis-testing anova manova Remi.b
quelle

Ich kann nicht sagen, fragen Sie auch, wie eine ANOVA funktioniert? Im Zusammenhang mit der Erörterung eines Standardfehlers erkläre ich hier im Wesentlichen die Grundidee einer ANOVA: Wie funktioniert der Standardfehler?

Gung - Reinstate Monica

Keine Ihrer beiden Aussagen. H0von MANOVA ist, dass es keinen Unterschied im multivariaten Raum gibt . Der multivariate Fall ist erheblich komplexer als der univariate, da wir uns mit Kovarianzen befassen müssen, nicht nur mit Varianzen. Es gibt verschiedene Möglichkeiten, die H0-H1Hypothesen in MANOVA zu formulieren . Lesen Sie Wikipedia.

ttnphns

@ttnphns: Warum auch nicht? Das von ANOVA ist, dass die Mittelwerte aller Gruppen gleich sind. Das von MANOVA ist, dass die multivariaten Mittelwerte aller Gruppen gleich sind. Dies ist genau Alternative 1 im OP. Kovarianzen usw. geben die Annahmen und Berechnungen von MANOVA ein, nicht die Nullhypothese.

H_{0}

$H_0$

H_{0}

$H_0$

Amöbe sagt Reinstate Monica

@ Amöbe, ich mochte nicht For each response variable. Für mich klingt es so (oder ich lese es als) "Testen wird univarietiert an jedem durchgeführt" (und dann irgendwie kombiniert).

ttnphns

Antworten:

Die Nullhypothese einer Einweg-ANOVA lautet, dass die Mittelwerte aller Gruppen gleich sind: Die Nullhypothese einer Einweg-MANOVA lautet, dass die [multivariaten] Mittelwerte aller Gruppen gleich sind:Dies entspricht der Aussage, dass die Mittelwerte für jede Antwortvariable gleich sind, dh Ihre erste Option ist korrekt . $H_0$

{H.}_{0} :: μ_{1} = μ_{2} = . . . = μ_{k} .

$H_0: \mu_1 = \mu_2 = ... = \mu_k.$

H_{0}

$H_0$

{H.}_{0} :: μ_{1} = μ_{2} = . . . = μ_{k} .

$H_0: \boldsymbol \mu_1 = \boldsymbol \mu_2 = ... = \boldsymbol \mu_k.$

In beiden Fällen ist die alternative Hypothese die Negation der Null. In beiden Fällen sind die Annahmen (a) Gaußsche gruppeninterne Verteilungen und (b) gleiche Varianzen (für ANOVA) / Kovarianzmatrizen (für MANOVA) über Gruppen hinweg. $H_1$

Unterschied zwischen MANOVA und ANOVAs

Dies mag etwas verwirrend erscheinen: Die Nullhypothese von MANOVA ist genau die gleiche wie die Kombination von Nullhypothesen für eine Sammlung univariater ANOVAs, aber gleichzeitig wissen wir, dass MANOVA nicht gleichbedeutend mit univariaten ANOVAs ist und dann irgendwie " Kombinieren "der Ergebnisse (man könnte sich verschiedene Kombinationsmöglichkeiten ausdenken). Warum nicht?

Die Antwort ist, dass das Ausführen aller univariaten ANOVAs, obwohl sie dieselbe Nullhypothese testen würden, weniger Leistung hat. Eine Illustration finden Sie in meiner Antwort hier: Wie kann MANOVA einen signifikanten Unterschied melden, wenn keine der univariaten ANOVAs eine Signifikanz erreicht? Eine naive Methode des "Kombinierens" (die globale Null ablehnen, wenn mindestens eine ANOVA die Null ablehnt) würde ebenfalls zu einer enormen Inflation der Typ-I-Fehlerrate führen. Aber selbst wenn man eine intelligente Art des "Kombinierens" wählt, um die richtige Fehlerrate beizubehalten, würde man an Leistung verlieren.

Wie das Testen funktioniert

ANOVA zersetzt sich die Gesamtsumme der Quadrate in zwischen den Gruppen sum-of-Squares und innerhalb der Gruppe sum-of-Squares , so dass . Sie berechnet dann das Verhältnis . Unter der Nullhypothese sollte dieses Verhältnis klein sein (um ); man kann die genaue Verteilung dieses Verhältnisses berechnen, die unter der Nullhypothese erwartet wird (es wird von und von der Anzahl der Gruppen abhängen ). Der Vergleich des beobachteten Wertes mit dieser Verteilung ergibt einen p-Wert. $T$ $B$ $W$ $T=B+W$ $B/W$ $1$ $n$ $B/W$

MANOVA zersetzt sich die Gesamtstreumatrix in zwischen den Gruppen Streumatrix und innerhalb der Gruppe Streumatrix , so dass . Es berechnet dann die Matrix . Unter der Nullhypothese sollte diese Matrix "klein" sein (um ); aber wie kann man quantifizieren, wie "klein" es ist? MANOVA betrachtet die Eigenwerte dieser Matrix (sie sind alle positiv). Wiederum sollten diese Eigenwerte unter der Nullhypothese "klein" sein (rund um $\mathbf T$ $\mathbf B$ $\mathbf W$ $\mathbf T = \mathbf B + \mathbf W$ $\mathbf W^{-1} \mathbf B$ $\mathbf{I}$ $\lambda_i$ $1$ $\sum \lambda_i$ $\max\{\lambda_i\}$

Unterschiedliche Auswahlmöglichkeiten der Teststatistik führen zu geringfügig unterschiedlichen p-Werten. Es ist jedoch wichtig zu wissen, dass jeweils dieselbe Nullhypothese getestet wird.

Amöbe sagt Reinstate Monica
quelle

Wenn Sie mehrere Tests nicht korrigieren, führt der all-univariate ANOVAs-Ansatz auch zu einer Fehlerinflation vom Typ I.

Gung - Reinstate Monica

@gung: Ja, das stimmt auch. Man kann jedoch klüger "kombinieren", als nur die Null abzulehnen, sobald mindestens eine der ANOVAs die Null ablehnt. Mein Punkt war, dass man, egal wie klug man versucht, "zu kombinieren", im Vergleich zu MANOVA immer noch an Leistung verliert (selbst wenn man es schafft, die Größe des Tests beizubehalten, ohne die Fehlerrate zu erhöhen).

Amöbe sagt Reinstate Monica

Aber hängt diese "Macht" jetzt nicht direkt mit dem Begriff der Kovarianz zusammen? Die Moral ist, dass wir mit einer (Reihe von) univariaten Tests nur auf Skalareffekte testen SSdifference/SSerror. In MANOVA ist der multivariate Effekt SSCPerror^(-1)SSCPdifferenceMatrix (Kovarianzen insgesamt und innerhalb von Gruppen berücksichtigt). Da es jedoch mehrere Eigenwerte gibt, die in einer Teststatistik nicht auf eine einzige Weise "kombiniert" werden könnten, existieren mehrere mögliche alternative Hypothesen. Mehr Leistung - mehr theoretische Komplexität.

ttnphns

@ttnphns, ja, das ist alles richtig, aber ich denke, es ändert nichts an der Tatsache, dass die Nullhypothese das ist, was ich geschrieben habe (und darum ging es bei der Frage). Unabhängig von der verwendeten Teststatistik (Wilks / Roy / Pillai-Bartlett / Lawley-Hotelling) versuchen sie, dieselbe Nullhypothese zu testen. Ich könnte meine Antwort später erweitern, um dies genauer zu diskutieren.

Amöbe sagt Reinstate Monica

H_{1}

$H_1$

H_{0} : μ_{group 1} = \dots = μ_{group k}

$H_0: \mu_{\mbox{group }1} = \ldots = \mu_{\mbox{group }k}$

p

$p$

k p

$kp$

p

$p$

Es ist das erstere.

Die Art und Weise, wie dies geschieht, ist jedoch nicht wörtlich, die Mittelwerte der einzelnen Originalvariablen nacheinander zu vergleichen. Stattdessen werden die Antwortvariablen auf eine Weise linear transformiert, die der Hauptkomponentenanalyse sehr ähnlich ist . (PCA hat hier einen ausgezeichneten Thread: Sinnvolle Hauptkomponentenanalyse, Eigenvektoren und Eigenwerte .) Der Unterschied besteht darin, dass PCA Ihre Achsen so ausrichtet, dass sie mit den Richtungen maximaler Variation ausgerichtet sind, während MANOVA Ihre Achsen in die Richtungen dreht, in denen Maximieren Sie die Trennung Ihrer Gruppen.

Um klar zu sein, testet keiner der mit einer MANOVA verbundenen Tests alle Mittel nacheinander in direktem Sinne, entweder mit den Mitteln im ursprünglichen Raum oder im transformierten Raum. Es gibt verschiedene Teststatistiken, die jeweils etwas anders funktionieren. Sie tendieren jedoch dazu, über die Eigenwerte der Zerlegung zu operieren, die den Raum transformiert. Was die Art der Nullhypothese betrifft, so ist es so, dass alle Mittelwerte aller Gruppen für jede Antwortvariable gleich sind, nicht dass sie sich bei einigen Variablen unterscheiden können, sondern bei mindestens einer.

gung - Monica wieder einsetzen
quelle

H o

$Ho$

Es gibt verschiedene mögliche Tests. Wenn Sie nur die 1. Achse testen, wird im Wesentlichen Roys größte Wurzel als Test verwendet. Dies ist oft der leistungsstärkste Test, aber auch begrenzter. Ich nehme an, es wird ständig darüber diskutiert, welcher Test der beste ist.

Gung - Reinstate Monica

Ich denke, wir verwenden MANOVA anstelle mehrerer ANOVAs, um mehrere Testprobleme zu vermeiden. Wenn wir jedoch bei einer MANOVA nur eine ANOVA auf PC1 eines LDR erstellen, müssen wir beim Betrachten des P-Werts immer noch ein Problem mit mehreren Tests berücksichtigen. Ist das richtig? (Hoffe, das macht mehr Sinn. Ich habe meinen vorherigen unklaren Kommentar gelöscht)

Remi.b

Das ist ein aufschlussreicher Punkt, aber es gibt zwei Probleme: 1) Die Achsen sind jetzt orthogonal und das kann die Probleme mit mehreren Tests ändern. 2) Die Stichprobenverteilungen der MANOVA-Teststatistik berücksichtigen die mehreren Achsen.

Gung - Reinstate Monica

@ Remi.b: Das sind gute Fragen, aber um ganz klar zu sein: MANOVA ist nicht gleichbedeutend mit einer ANOVA auf der ersten Diskriminanzachse von LDA! Hier finden Sie eine Beziehung zwischen MANOVA und LDA: Wie hängt MANOVA mit LDA zusammen?

Amöbe sagt Reinstate Monica