Die Reihenfolge der Variablen in ANOVA ist wichtig, nicht wahr?

20

Ist es richtig zu verstehen, dass die Reihenfolge, in der Variablen in einer multifaktoriellen ANOVA angegeben werden, einen Unterschied macht, aber dass die Reihenfolge bei einer multiplen linearen Regression keine Rolle spielt?

Nehmen wir also ein Ergebnis wie den gemessenen Blutverlust y und zwei kategoriale Variablen an

  1. Adenoidektomie-Methode a ,
  2. Tonsillektomie-Methode b .

Das Modell y~a+bunterscheidet sich vom Modell y~b+a(oder so scheint meine Implementierung in R darauf hinzudeuten).

Ist es richtig zu verstehen, dass der Begriff hier lautet, dass ANOVA ein hierarchisches Modell ist, da es dem ersten Faktor zunächst so viel Varianz wie möglich zuschreibt, bevor es versucht, dem zweiten Faktor die Restvarianz zuzuschreiben?

Im obigen Beispiel ist die Hierarchie sinnvoll, da ich immer zuerst die Adenoidektomie durchführe, bevor ich die Tonsillektomie durchführe. Aber was würde passieren, wenn man zwei Variablen ohne inhärente Reihenfolge hätte?

Farrel
quelle
12
Bei ANOVAs mit unausgeglichenem Design, dh bei ungleichen Zellengrößen, ist die Reihenfolge wichtig. Dieses Thema wird häufig unter der Überschrift "Arten von Quadratsummen" behandelt. Siehe epm.sagepub.com/content/38/3/621.full.pdf+html und chls Antwort auf stats.stackexchange.com/questions/11209/…
caracal
1
Siehe auch die Antwort von gung in stats.stackexchange.com/questions/20452 .
Amöbe sagt Reinstate Monica
Ich habe gerade eine ältere Diskussion von mir in der Hoffnung erweitert, dass sie ein weiteres Licht auf die Angelegenheit werfen wird. Es braucht sicherlich noch Arbeit, und möglicherweise hat jemand die Nerven, bei der Bearbeitung zu helfen. Folgendes habe ich bisher: go.helms-net.de/stat/div/%28SSE%29%20ANovaRegression_SPSS_R.htm Möglicherweise gibt es hier etwas Interessantes mit dem Potenzial, eine explizite Antwort auf diese Frage zu finden.
Gottfried Helms

Antworten:

17

Diese Frage stammt offensichtlich aus einer Studie mit einem unausgeglichenen Zweiwege-Design, die in R mit der aov()Funktion analysiert wurde . Auf dieser Seite finden Sie ein aktuelles und detailliertes Beispiel für dieses Problem.

Die allgemeine Antwort auf diese Frage lautet für so viele: "Es kommt darauf an." Hier kommt es darauf an, ob das Design ausgewogen ist und wenn nicht, welches Aroma von ANOVA gewählt wird.

Erstens hängt es davon ab, ob das Design ausgewogen ist. In der besten aller möglichen Welten, mit der gleichen Anzahl von Fällen in allen Zellen eines Fakultätsentwurfs, würde es keinen Unterschied aufgrund der Reihenfolge der Eingabe der Faktoren in das Modell geben, unabhängig davon, wie die ANOVA durchgeführt wird. * Die vorliegenden Fälle , offensichtlich aus einer retrospektiven klinischen Kohorte, scheinen aus einer realen Welt zu stammen, in der ein solches Gleichgewicht nicht gefunden wurde. Die Reihenfolge könnte also eine Rolle spielen.

Zweitens hängt es davon ab, wie die ANOVA durchgeführt wird, was ein ziemlich umstrittenes Thema ist. Die ANOVA-Typen für unsymmetrische Designs unterscheiden sich in der Reihenfolge der Bewertung der Haupteffekte und Wechselwirkungen. Die Bewertung von Interaktionen ist für die Zwei-Wege-ANOVA und die ANOVA höherer Ordnung von grundlegender Bedeutung. Daher gibt es Streit darüber, wie am besten vorgegangen werden kann. Auf dieser Seite mit der Kreuzvalidierung finden Sie eine Erläuterung und Diskussion. Anova()Eine andere Ansicht finden Sie in den Details und der Warnung für die Funktion (mit einem Großbuchstaben "A") im Handbuch für das carPaket .

Die Reihenfolge der Faktoren spielt bei unsymmetrischen Konstruktionen unter der Vorgabe aov()in R eine Rolle , bei der sogenannte Typ-I-Tests verwendet werden. Dies sind sequentielle Varianzzuordnungen zu Faktoren in der Reihenfolge des Eintritts in das Modell, wie in der vorliegenden Frage vorgesehen. Die Reihenfolge spielt bei den Tests des Typs II oder III, die von der Anova()Funktion in der carVerpackung in R bereitgestellt werden, keine Rolle . Diese Alternativen haben jedoch ihre eigenen potenziellen Nachteile, die in den obigen Links angegeben sind.

Betrachten Sie abschließend die Beziehung zur multiplen linearen Regression wie lm()in R, die im Wesentlichen der gleiche Modelltyp ist, wenn Sie Interaktionsterme einbeziehen. Die Reihenfolge der Eingabe von Variablen in lm()spielt keine Rolle in Bezug auf Regressionskoeffizienten und p- Werte, die von gemeldet werden summary(lm()), wobei ein k-Level-Kategoriefaktor als (k-1) binäre Dummy-Variablen codiert wird und ein Regressionskoeffizient für jeden Dummy gemeldet wird .

Es ist jedoch möglich, die lm()Ausgabe mit anova()(Kleinbuchstaben "a" aus dem R- statsPaket) Anova()zu umbrechen oder den Einfluss jedes Faktors auf alle Ebenen zusammenzufassen, wie dies in der klassischen ANOVA zu erwarten ist. Dann wird die Reihenfolge der Faktoren egal mit anova()wie aov()und wird keine Rolle , mit Anova(). Ebenso würden die Streitigkeiten darüber, welche Art von ANOVA verwendet werden soll, zurückkehren. Es ist daher nicht sicher, bei allen nachgelagerten Modellanwendungen eine geordnete Unabhängigkeit der Faktorerfassung anzunehmen lm().


* Es ist ausreichend, in allen Zellen die gleiche Anzahl von Beobachtungen durchzuführen, aber meines Wissens ist es nicht erforderlich, dass die Reihenfolge der Faktoren keine Rolle spielt. Weniger anspruchsvolle Arten der Bilanzierung können eine Unabhängigkeit von der Reihenfolge ermöglichen.

EdM
quelle
Ja, diese Beobachtungsdaten waren unausgewogen, sehr unausgewogen.
Farrel
0

Der Begriff hierarchisches Modell bezieht sich auf die Struktur zwischen den Faktoren. Eine multizentrische Studie ist beispielsweise hierarchisch aufgebaut: Sie haben die Patienten in den Krankenhäusern, die sie behandeln. In jedem Krankenhaus werden Patienten mit Placebo und Verum behandelt. Der Empfang in Krankenhaus A oder B ist jedoch geringfügig unterschiedlich, da das Krankenhaus einige gemeinsame Auswirkungen auf alle Patienten hat (möglicherweise sogar eine Wechselwirkung mit dem experimentellen Wirkstoff). Man nennt es also hierarchischen Effekt.

Jetzt können Ihre Ektomiemethoden hierarchisch sein: Ist es plausibel, dass sich eine bestimmte Tonsillektomiemethode geringfügig unterscheidet (an sich noch nicht in der Wirkung, da Sie diese abschätzen und testen werden), abhängig von der zuvor verwendeten Adenoidektomiemethode geduldig? Wenn ja, sollten Sie dies in Ihrem Modell angeben.

Ihre Beobachtung, dass y ~ a + b von y ~ b + a verschieden sein kann, zeigt an, dass etwas nicht stimmt. Additive Effekte pendeln, es sollte also keinen Unterschied geben (abgesehen von kleinen numerischen Unterschieden). Es ist weder plausibel noch erwünscht, dass die Wirkung der Operationsmethoden von der Reihenfolge abhängt, in der der Statistiker die Wirkungen später spezifiziert. Sie haben also wahrscheinlich den falschen Ansatz gewählt, um Rmit den Daten zu füttern .

Horst Grünbusch
quelle
1
Ich bin nicht sicher, ob ich dem letzten Absatz folge. In einer unausgeglichenen faktoriellen ANOVA hängen die p-Werte für jeden Faktor, der über die (sequentielle) Quadratsumme vom Typ I berechnet wird, sicherlich von der Reihenfolge der Faktoren ab. Ich glaube, das ist der springende Punkt der Frage.
Amöbe sagt Reinstate Monica
Ich bin mir nicht sicher, ob @Farrel Typ I SS hat. Ich erinnere mich, dass ich einmal festgestellt habe, dass SAS aufgrund einer unterschiedlichen Sortierung im Datensatz und in der Modellanweisung unterschiedliche SS-Werte vom Typ III ausgibt. Vielleicht kann das auch mit R passieren?
Horst Grünbusch
2
Ich kann es nicht genau wissen und er kann sich vielleicht nicht an sich erinnern, wenn man bedenkt, dass der Q vor fünf Jahren gefragt wurde. Aber ich denke, dies ist bei weitem die sparsamste Interpretation seiner Worte "Das Modell y ~ a + b unterscheidet sich vom Modell y ~ b + a (oder so scheint meine Implementierung in R darauf hinzudeuten)", insbesondere angesichts der Tatsache Dieser aovBefehl in R verwendet standardmäßig SS vom Typ I. Als ich das Kopfgeld anbot, erwartete ich eine Antwort, in der die Probleme hinter dem unausgeglichenen Anova-Design, die Unterschiede zwischen Typ I / II / III SS und einige Kommentare dazu erklärt wurden, ob die lineare Regression dieselben Probleme hat oder nicht.
Amöbe sagt Reinstate Monica
1
Nein. Die Designmatrix ist in Anova einzigartig, auch wenn sie ausgeglichen ist, wenn kein Unterschied zwischen SS I / II / III besteht. Die SS I / II / III unterscheiden sich nur im unausgeglichenen Fall, weil die Faktoren nicht orthogonal werden (im Gegensatz zum ausgeglichenen Fall). Nach meinem Verständnis entspricht dies einer linearen Regression mit korrelierten Prädiktoren, was eine sehr häufige Situation ist. Meine Antwort lautet, dass das gleiche Problem auch bei der Regression auftritt. Es ist lediglich Standard, einen p-Wert eines Prädiktors zu berechnen, nachdem die Auswirkungen aller anderen Prädiktoren berücksichtigt wurden. Dies entspricht dem Typ III SS in Anova.
Amöbe sagt Reinstate Monica
1
Solche Fragen zur variablen Reihenfolge in ANOVA tauchen immer wieder auf, wie diese, die gestern von Stack Overflow migriert wurde. Ich glaube, man kann davon ausgehen, dass diese 5-jährige Frage aoveher auf als auf basiert lm, und es wäre hilfreich, eine Antwort auf diese Frage des Typs zu haben, den @amoeba in dem Kommentar vom 12. Mai, 14:31, angegeben hat .
EdM