Ist es richtig zu verstehen, dass die Reihenfolge, in der Variablen in einer multifaktoriellen ANOVA angegeben werden, einen Unterschied macht, aber dass die Reihenfolge bei einer multiplen linearen Regression keine Rolle spielt?
Nehmen wir also ein Ergebnis wie den gemessenen Blutverlust y
und zwei kategoriale Variablen an
- Adenoidektomie-Methode
a
, - Tonsillektomie-Methode
b
.
Das Modell y~a+b
unterscheidet sich vom Modell y~b+a
(oder so scheint meine Implementierung in R darauf hinzudeuten).
Ist es richtig zu verstehen, dass der Begriff hier lautet, dass ANOVA ein hierarchisches Modell ist, da es dem ersten Faktor zunächst so viel Varianz wie möglich zuschreibt, bevor es versucht, dem zweiten Faktor die Restvarianz zuzuschreiben?
Im obigen Beispiel ist die Hierarchie sinnvoll, da ich immer zuerst die Adenoidektomie durchführe, bevor ich die Tonsillektomie durchführe. Aber was würde passieren, wenn man zwei Variablen ohne inhärente Reihenfolge hätte?
Antworten:
Diese Frage stammt offensichtlich aus einer Studie mit einem unausgeglichenen Zweiwege-Design, die in R mit der
aov()
Funktion analysiert wurde . Auf dieser Seite finden Sie ein aktuelles und detailliertes Beispiel für dieses Problem.Die allgemeine Antwort auf diese Frage lautet für so viele: "Es kommt darauf an." Hier kommt es darauf an, ob das Design ausgewogen ist und wenn nicht, welches Aroma von ANOVA gewählt wird.
Erstens hängt es davon ab, ob das Design ausgewogen ist. In der besten aller möglichen Welten, mit der gleichen Anzahl von Fällen in allen Zellen eines Fakultätsentwurfs, würde es keinen Unterschied aufgrund der Reihenfolge der Eingabe der Faktoren in das Modell geben, unabhängig davon, wie die ANOVA durchgeführt wird. * Die vorliegenden Fälle , offensichtlich aus einer retrospektiven klinischen Kohorte, scheinen aus einer realen Welt zu stammen, in der ein solches Gleichgewicht nicht gefunden wurde. Die Reihenfolge könnte also eine Rolle spielen.
Zweitens hängt es davon ab, wie die ANOVA durchgeführt wird, was ein ziemlich umstrittenes Thema ist. Die ANOVA-Typen für unsymmetrische Designs unterscheiden sich in der Reihenfolge der Bewertung der Haupteffekte und Wechselwirkungen. Die Bewertung von Interaktionen ist für die Zwei-Wege-ANOVA und die ANOVA höherer Ordnung von grundlegender Bedeutung. Daher gibt es Streit darüber, wie am besten vorgegangen werden kann. Auf dieser Seite mit der Kreuzvalidierung finden Sie eine Erläuterung und Diskussion.
Anova()
Eine andere Ansicht finden Sie in den Details und der Warnung für die Funktion (mit einem Großbuchstaben "A") im Handbuch für dascar
Paket .Die Reihenfolge der Faktoren spielt bei unsymmetrischen Konstruktionen unter der Vorgabe
aov()
in R eine Rolle , bei der sogenannte Typ-I-Tests verwendet werden. Dies sind sequentielle Varianzzuordnungen zu Faktoren in der Reihenfolge des Eintritts in das Modell, wie in der vorliegenden Frage vorgesehen. Die Reihenfolge spielt bei den Tests des Typs II oder III, die von derAnova()
Funktion in dercar
Verpackung in R bereitgestellt werden, keine Rolle . Diese Alternativen haben jedoch ihre eigenen potenziellen Nachteile, die in den obigen Links angegeben sind.Betrachten Sie abschließend die Beziehung zur multiplen linearen Regression wie
lm()
in R, die im Wesentlichen der gleiche Modelltyp ist, wenn Sie Interaktionsterme einbeziehen. Die Reihenfolge der Eingabe von Variablen inlm()
spielt keine Rolle in Bezug auf Regressionskoeffizienten und p- Werte, die von gemeldet werdensummary(lm())
, wobei ein k-Level-Kategoriefaktor als (k-1) binäre Dummy-Variablen codiert wird und ein Regressionskoeffizient für jeden Dummy gemeldet wird .Es ist jedoch möglich, die
lm()
Ausgabe mitanova()
(Kleinbuchstaben "a" aus dem R-stats
Paket)Anova()
zu umbrechen oder den Einfluss jedes Faktors auf alle Ebenen zusammenzufassen, wie dies in der klassischen ANOVA zu erwarten ist. Dann wird die Reihenfolge der Faktoren egal mitanova()
wieaov()
und wird keine Rolle , mitAnova()
. Ebenso würden die Streitigkeiten darüber, welche Art von ANOVA verwendet werden soll, zurückkehren. Es ist daher nicht sicher, bei allen nachgelagerten Modellanwendungen eine geordnete Unabhängigkeit der Faktorerfassung anzunehmenlm()
.* Es ist ausreichend, in allen Zellen die gleiche Anzahl von Beobachtungen durchzuführen, aber meines Wissens ist es nicht erforderlich, dass die Reihenfolge der Faktoren keine Rolle spielt. Weniger anspruchsvolle Arten der Bilanzierung können eine Unabhängigkeit von der Reihenfolge ermöglichen.
quelle
Der Begriff hierarchisches Modell bezieht sich auf die Struktur zwischen den Faktoren. Eine multizentrische Studie ist beispielsweise hierarchisch aufgebaut: Sie haben die Patienten in den Krankenhäusern, die sie behandeln. In jedem Krankenhaus werden Patienten mit Placebo und Verum behandelt. Der Empfang in Krankenhaus A oder B ist jedoch geringfügig unterschiedlich, da das Krankenhaus einige gemeinsame Auswirkungen auf alle Patienten hat (möglicherweise sogar eine Wechselwirkung mit dem experimentellen Wirkstoff). Man nennt es also hierarchischen Effekt.
Jetzt können Ihre Ektomiemethoden hierarchisch sein: Ist es plausibel, dass sich eine bestimmte Tonsillektomiemethode geringfügig unterscheidet (an sich noch nicht in der Wirkung, da Sie diese abschätzen und testen werden), abhängig von der zuvor verwendeten Adenoidektomiemethode geduldig? Wenn ja, sollten Sie dies in Ihrem Modell angeben.
Ihre Beobachtung, dass y ~ a + b von y ~ b + a verschieden sein kann, zeigt an, dass etwas nicht stimmt. Additive Effekte pendeln, es sollte also keinen Unterschied geben (abgesehen von kleinen numerischen Unterschieden). Es ist weder plausibel noch erwünscht, dass die Wirkung der Operationsmethoden von der Reihenfolge abhängt, in der der Statistiker die Wirkungen später spezifiziert. Sie haben also wahrscheinlich den falschen Ansatz gewählt, um
R
mit den Daten zu füttern .quelle
aov
Befehl in R verwendet standardmäßig SS vom Typ I. Als ich das Kopfgeld anbot, erwartete ich eine Antwort, in der die Probleme hinter dem unausgeglichenen Anova-Design, die Unterschiede zwischen Typ I / II / III SS und einige Kommentare dazu erklärt wurden, ob die lineare Regression dieselben Probleme hat oder nicht.aov
eher auf als auf basiertlm
, und es wäre hilfreich, eine Antwort auf diese Frage des Typs zu haben, den @amoeba in dem Kommentar vom 12. Mai, 14:31, angegeben hat .