Ich habe ANOVA bisher auf zwei Arten gesehen:
Zunächst wurde in meinem einführenden Statistiktext ANOVA eingeführt, um Mittelwerte von drei oder mehr Gruppen zu vergleichen, als Verbesserung gegenüber dem paarweisen Vergleich, um festzustellen, ob eines der Mittelwerte einen statistisch signifikanten Unterschied aufweist.
Zweitens habe ich in meinem statistischen Lerntext gesehen, dass ANOVA zum Vergleichen von zwei (oder mehr) verschachtelten Modellen verwendet wurde, um festzustellen, ob Modell 1, das eine Teilmenge der Prädiktoren von Modell 2 verwendet, gleich gut zu den Daten passt oder ob es vollständig ist Modell 2 ist überlegen.
Jetzt gehe ich davon aus, dass diese beiden Dinge auf die eine oder andere Weise tatsächlich sehr ähnlich sind, weil beide den ANOVA-Test verwenden, aber an der Oberfläche scheinen sie mir ganz anders zu sein. Zum einen werden bei der ersten Verwendung drei oder mehr Gruppen verglichen, während bei der zweiten Methode nur zwei Modelle verglichen werden können. Würde es bitte jemandem etwas ausmachen, den Zusammenhang zwischen diesen beiden Verwendungszwecken zu klären?
anova()
Funktion implementiert , da die erste echte ANOVA auch einen F-Test verwendet. Dies führt zu Terminologieverwirrung.anova()
Funktion mehr als nur ANOVA kann. Dieser Beitrag unterstützt Ihre Schlussfolgerung: stackoverflow.com/questions/20128781/f-test-for-two-models-in-rAntworten:
Nach meinem Verständnis lautet die abstrakte Intuition von ANOVA wie folgt: Man zerlegt die Varianzquellen der beobachteten Variablen in verschiedene Richtungen und untersucht die jeweiligen Beiträge. Genauer gesagt zerlegt man die Identitätskarte in eine Summe von Projektionen und untersucht, welche Projektionen / Richtungen einen wichtigen Beitrag zur Erklärung der Varianz leisten und welche nicht. Die theoretische Grundlage ist Cochrans Theorem .
Um weniger abstrakt zu sein, habe ich die zweite vom OP erwähnte Form in den gerade beschriebenen Rahmen gegossen . Anschließend interpretiere ich die erste Form als Sonderfall der zweiten.
Betrachten wir ein Regressionsmodell mit erklärenden Variablen (das vollständige Modell) und vergleichen Sie es mit dem eingeschränkten Modell mit K - J - Variablen. WLOG, die letzten J- Variablen des vollständigen Modells sind nicht im eingeschränkten Modell enthalten. Die von ANOVA beantwortete Frage lautetK K−J J
"Können wir signifikant mehr Varianz in der beobachteten Variablen erklären, wenn wir zusätzliche Variablen einbeziehenJ ? "
Diese Frage wird durch den Vergleich der Varianz Beiträge des ersten beantwortet Variablen, das nächste J Variablen und der Rest / unerklärten Teil (die Restsumme der Quadrate). Diese Zerlegung (erhalten zB aus dem Satz von Cochran) wird verwendet, um den F-Test zu konstruieren. Somit analysiert man die Reduktion (durch Einbeziehen weiterer Variablen) der verbleibenden Quadratsumme des eingeschränkten Modells (entsprechend dem H 0 : alle Koeffizienten, die zu den letzten J- Variablen gehören, sind Null ), indem man mehr Variablen einschließt und erhält die F-Statistik R S S r e s t r - R.K−J J H0: J
Wenn der Wert groß genug ist, ist die Varianz, die durch die zusätzlichenJ-Variablen erklärt wird, signifikant.
Nun wird die vom OP erwähnte erste Form als Sonderfall der zweiten Form interpretiert . Betrachten wir drei verschiedene Gruppen A, B, und C mit Mitteln , μ B und μ C . Die H 0 : μ A = μ B = μ C wird durch Vergleichen der Varianz erläuterte durch die Regression auf einem Achsenabschnitt (das eingeschränkte Modell) mit der Varianz vom Gesamtmodell , das einen Achsenabschnitt erläuterte getestet, eine Dummy für die Gruppe A, und einem Dummy für Gruppe B. Die resultierende F-Statistik R S S i n tμEIN μB. μC. H.0: μEIN= μB.= μC. entspricht dem ANOVA-Test aufWikipedia. Der Nenner ist gleich der Variation innerhalb der Gruppen, der Zähler ist gleich der Variation zwischen den Gruppen. Wenn die Variation zwischen den Gruppen größer ist als die Variation innerhalb der Gruppen, lehnt man die Hypothese ab, dass alle Mittelwerte gleich sind.
quelle
Wenn Sie eine Einweg-ANOVA durchführen, um zu testen, ob zwischen den Gruppen ein signifikanter Unterschied besteht, vergleichen Sie implizit zwei verschachtelte Modelle (es gibt also nur eine Verschachtelungsebene, aber es wird immer noch verschachtelt).
Diese beiden Modelle sind:
Modell 1: Die Werte werden anhand der geschätzten Mittelwerte der Gruppen modelliert.
Ein Beispiel für den Vergleich von Mittelwerten und Äquivalenz mit verschachtelten Modellen: Nehmen wir die Kelchblattlänge (cm) aus dem Irisdatensatz (wenn wir alle vier Variablen verwenden, könnten wir tatsächlich LDA oder MANOVA durchführen, wie es Fisher 1936 getan hat).
Die beobachteten Gesamt- und Gruppenmittelwerte sind:
Welches ist in Modellform:
Und die ANOVA-Tabelle wird wie folgt aussehen (und implizit die Differenz zwischen der Gruppensumme der Quadrate berechnen, die die 63.212 in der Tabelle mit 2 Freiheitsgraden ist):
im Beispiel verwendeter Datensatz:
Blütenblattlänge (cm) für drei verschiedene Arten von Irisblüten
quelle
Die Verwendung von ANOVA im Vergleich zwischen mehreren Modellen bedeutet zu testen, ob mindestens einer der Koeffizienten, die in Modellen mit höherer Ordnung verwendet werden (und in Modellen mit niedrigerer Ordnung fehlen), signifikant von Null abweicht.
Dies entspricht der Aussage, dass die Summe der Residuen für das Modell höherer Ordnung erheblich geringer ist als die des Modells niedrigerer Ordnung.
Es handelt sich um zwei Modelle, da die verwendete Grundgleichung lautet
Wobei MSM der Mittelwert der quadratischen Residuen des Modells niedrigerer Ordnung ist (wobei die niedrigste Ordnung der Mittelwert der Zielvariablen ist, dh der Achsenabschnitt).
( http://www.stat.yale.edu/Courses/1997-98/101/anovareg.htm )
Sie können jedoch ähnliche Themen im Lebenslauf lesen, wie z
Wie verwende ich Anova für den Vergleich zweier Modelle?
quelle
Aus dem, was ich gelernt habe,
Mithilfe von ANOVA-Tabellen können Sie feststellen, ob Ihre erklärenden Variablen tatsächlich einen signifikanten Einfluss auf die Antwortvariable haben und somit zum entsprechenden Modell passen.
Angenommen, Sie haben zwei erklärende Variablenx1 und x2 , aber Sie sind sich nicht sicher, ob x2 wirkt sich tatsächlich auf Y aus. Sie können ANOVA-Tabellen der beiden Modelle vergleichen:
Sie führen einen Hypothesentest mit der zusätzlichen Restquadratsumme mit dem F-Test durch, um festzustellen, ob ein reduziertes Modell mit justx1 ist wichtiger.
Hier ist ein ANOVA-Ausgabebeispiel für ein Projekt, an dem ich in R arbeite, wo ich zwei Modelle teste (eines mit den variablen Tagen und eines ohne die variablen Tage):
Wie Sie sehen können, beträgt der entsprechende p-Wert aus dem F-Test 0,13, was größer als 0,05 ist. Daher können wir die Nullhypothese, dass Tage keinen Einfluss auf Y haben, nicht ablehnen. Daher wähle ich Modell 1 gegenüber Modell 2.
quelle