Ich möchte ANOVA lernen. Bevor ich lerne, wie der Algorithmus funktioniert (welche Berechnungen müssen durchgeführt werden) und warum er funktioniert, möchte ich zunächst wissen, welches Problem wir tatsächlich mit ANOVA lösen oder welche Antwort wir zu beantworten versuchen. Mit anderen Worten: Was ist Eingabe und was ist Ausgabe des Algorithmus?
Ich verstehe, was wir als Input verwenden. Wir haben eine Reihe von Zahlen. Jede Zahl enthält Werte einer oder mehrerer kategorialer Variablen (auch als "Faktoren" bezeichnet). Beispielsweise:
+------------+------------+-------+
| factor 1 | factor 2 | value |
+------------+------------+-------+
| "A" | "a" | 1.0 |
| "A" | "a" | 2.4 |
| "A" | "b" | 0.3 |
| "A" | "b" | 7.4 |
| "B" | "a" | 1.2 |
| "B" | "a" | 8.4 |
| "B" | "b" | 0.4 |
| "B" | "b" | 7.2 |
+------------+------------+-------+
Ist es richtig zu sagen, dass ANOVA den p-Wert der Nullhypothese berechnet, der besagt, dass die Faktoren keinen Einfluss auf den Mittelwert der Werte haben? Mit anderen Worten, wir geben die oben angegebenen Daten an den Algorithmus weiter und erhalten als Ergebnis den p-Wert der Nullhypothese?
Wenn dies der Fall ist, welches Maß verwenden wir tatsächlich, um den p-Wert zu berechnen. Zum Beispiel können wir sagen, dass M bei gegebener Nullhypothese in 1% der Fälle zufällig so hoch sein kann wie die beobachtete (oder sogar höher). Was ist M?
Untersuchen wir Faktoren in ANOVA nicht auch separat? Kann ANOVA sagen, dass Faktor_1 einen Effekt hat, Faktor_2 jedoch nicht? Kann ANOVA sagen, dass für einen gegebenen Faktor Werte, die dem Wert "A" entsprechen, "B" und "C" statistisch nicht unterscheidbar sind (zum Beispiel den gleichen Mittelwert haben), aber der Wert "D" eine Wirkung hat?