Welche Frage beantwortet ANOVA?

9

Ich möchte ANOVA lernen. Bevor ich lerne, wie der Algorithmus funktioniert (welche Berechnungen müssen durchgeführt werden) und warum er funktioniert, möchte ich zunächst wissen, welches Problem wir tatsächlich mit ANOVA lösen oder welche Antwort wir zu beantworten versuchen. Mit anderen Worten: Was ist Eingabe und was ist Ausgabe des Algorithmus?

Ich verstehe, was wir als Input verwenden. Wir haben eine Reihe von Zahlen. Jede Zahl enthält Werte einer oder mehrerer kategorialer Variablen (auch als "Faktoren" bezeichnet). Beispielsweise:

+------------+------------+-------+
|   factor 1 |   factor 2 | value |
+------------+------------+-------+
|     "A"    |     "a"    |  1.0  |
|     "A"    |     "a"    |  2.4  |
|     "A"    |     "b"    |  0.3  |
|     "A"    |     "b"    |  7.4  |
|     "B"    |     "a"    |  1.2  |
|     "B"    |     "a"    |  8.4  |
|     "B"    |     "b"    |  0.4  |
|     "B"    |     "b"    |  7.2  |
+------------+------------+-------+

Ist es richtig zu sagen, dass ANOVA den p-Wert der Nullhypothese berechnet, der besagt, dass die Faktoren keinen Einfluss auf den Mittelwert der Werte haben? Mit anderen Worten, wir geben die oben angegebenen Daten an den Algorithmus weiter und erhalten als Ergebnis den p-Wert der Nullhypothese?

Wenn dies der Fall ist, welches Maß verwenden wir tatsächlich, um den p-Wert zu berechnen. Zum Beispiel können wir sagen, dass M bei gegebener Nullhypothese in 1% der Fälle zufällig so hoch sein kann wie die beobachtete (oder sogar höher). Was ist M?

Untersuchen wir Faktoren in ANOVA nicht auch separat? Kann ANOVA sagen, dass Faktor_1 einen Effekt hat, Faktor_2 jedoch nicht? Kann ANOVA sagen, dass für einen gegebenen Faktor Werte, die dem Wert "A" entsprechen, "B" und "C" statistisch nicht unterscheidbar sind (zum Beispiel den gleichen Mittelwert haben), aber der Wert "D" eine Wirkung hat?

römisch
quelle

Antworten:

6

ANOVA steht für "Varianzanalyse". Es ist eher nicht überraschend, dass die Varianz analysiert wird.

Lassen Sie uns etwas expliziter sein. Ihre Beobachtungen werden einige Abweichungen aufweisen. Wenn Sie Ihre Beobachtungen nach Ihrem Faktor 1 gruppieren , ist die Varianz innerhalb der durch Faktor 1 definierten Gruppen kleiner als die Gesamtvarianz. Faktor 1 "erklärt die Varianz".

F

FFFpF

(Warum ein einseitiger Test? Da wie oben beschrieben jede Gruppierung eine gewisse Varianz erklärt, ist es nur sinnvoll zu prüfen, ob Ihr Faktor eine signifikant große Varianz erklärt.)

Der Abschnitt "Motivierendes Beispiel" des Wikipedia-Eintrags enthält einige sehr schöne Abbildungen von Faktoren, die nur sehr wenig, einige und einen Großteil der Gesamtvarianz erklären.

Zweiwege-ANOVA und Interaktionen, wie in Ihrem Beispiel, sowie ANCOVA sind dann nur Verallgemeinerungen zu diesem Thema. In jedem Fall untersuchen wir, ob das Hinzufügen einer erklärenden Variablen eine signifikant große Varianz erklärt.

Ft

Stephan Kolassa
quelle
VviM=M(V,v1,v2,...,vk,n1,n2,...,nk). Dann berechnen wir die Wahrscheinlichkeit, dass M so groß wie es ist oder sogar größer ist, unter der Annahme, dass die Nullhypothese korrekt ist.
Roman
MF
Um ehrlich zu sein, bin ich immer noch ein bisschen verwirrt. Soweit ich Sie verstanden habe, gibt ANOVA den p-Wert der Nullhypothese zurück. Andererseits kann man aus dem "Motivationsbeispiel" von Wikipedia schließen, dass ANOVA uns den besten Faktor (oder eine Kombination von Faktoren) gibt, der die Daten am besten "erklärt". In dem Beispiel sagt ANOVA, dass die Rasse der beste Faktor ist, um das Gewicht der Hunde zu erklären.
Roman
1
F