Wie visualisiere ich, was ANOVA macht?

60

Auf welche Weise (auf welche Arten?) Kann visuell erklärt werden, was ANOVA ist?

Verweise, Links (R-Pakete?) Sind willkommen.

Tal Galili
quelle
In seinem Blog 'Die Bemühungen eines Psychologen in der statistischen Programmierung' gibt Kristoffer Magnusson ein großartiges Beispiel für eine Einweg-Anova-Visualisierung mit D3.js rpsychologist.com/d3-one-way-anova/#comment-1891
Epifunky
Ich habe diese schöne Visualisierung der Varianzanalyse gefunden. Es ist nicht so präzise wie vorherige Antworten, aber Sie können interaktiv mit der Visualisierung spielen. Fand es ziemlich interessant: students.brown.edu/seeing-theory/regression/index.html#third
Mike

Antworten:

51

Persönlich mag ich die Einführung der linearen Regression und der ANOVA, indem ich zeige, dass sie alle gleich sind und dass lineare Modelle die Gesamtvarianz aufteilen: Wir haben eine Art von Varianz im Ergebnis, die durch die interessierenden Faktoren und die unerklärten Faktoren erklärt werden kann Teil (als "Residuum" bezeichnet). Ich verwende im Allgemeinen die folgende Abbildung (graue Linie für die Gesamtvariabilität, schwarze Linien für die Gruppen- oder individuelle spezifische Variabilität):

Alt-Text

Ich mag auch die heplots R - Paket, von Michael Freundlich und John Fox, aber auch von Visual Hypothesentests in Multivariate Linear Models: Die heplots Paket für R .

Standardmethoden zur Erklärung der tatsächlichen Funktionsweise von ANOVA, insbesondere im Rahmen des linearen Modells, werden in den ebenen Antworten auf komplexe Fragen von Christensen sehr gut erläutert , es gibt jedoch nur sehr wenige Abbildungen. Statistische Methoden von Saville und Wood : Der geometrische Ansatz enthält einige Beispiele, hauptsächlich jedoch die Regression. In Montgomerys Design und Analyse von Experimenten , die sich hauptsächlich auf DoE konzentrierten, gibt es Illustrationen, die ich mag, aber siehe unten

Alt-Text

(das sind meine :-)

Aber ich denke, Sie müssen nach Lehrbüchern für lineare Modelle suchen, wenn Sie sehen möchten, wie sich die Summe von Quadraten, Fehlern usw. in einen Vektorraum übersetzt, wie in Wikipedia gezeigt . Estimation and Inference in Econometrics von Davidson und MacKinnon scheint nette Illustrationen zu haben (das erste Kapitel behandelt tatsächlich die OLS-Geometrie), aber ich stöbere nur in der französischen Übersetzung ( hier verfügbar ). Die Geometrie der linearen Regression hat auch einige gute Abbildungen.

Bearbeiten :

Ah, und ich erinnere mich nur an diesen Artikel von Robert Pruzek, Eine neue Grafik für die Einweg-ANOVA .

Bearbeiten 2

Und jetzt wurde das granova- Paket (von @ gd047 erwähnt und mit dem obigen Artikel verknüpft ) nach ggplot portiert, siehe granovaGG mit einer Illustration für eine Einweg-ANOVA unten.

Bildbeschreibung hier eingeben

chl
quelle
Wird die erste Abbildung mit R erstellt?
George Dontas
@ gd047 Ja. Sollte den hässlichen Quellcode irgendwo haben, wenn Sie wollen. Die zweite erfolgt in Metapost.
chl
3
@ gd047 Okay, wie üblich ist es immer dann, wenn wir nach altem Code suchen, dass wir ihn nicht finden können (trotz meiner Bemühungen mit grep / find), also habe ich ein schnelles (immer noch hässliches) R-Skript dafür geschrieben. Ich habe auch ein Beispiel für den MP-Code angegeben .
chl
Die Geometrie der linearen Regressionsverbindung scheint traurigerweise verfault zu sein.
Silverfish
23

Wie wäre es mit so etwas? Alt-Text

Nach Crawley (2005). Statistiken. Eine Einführung mit R: Wiley.

EDi
quelle
1
(+1) Ich erinnere mich an plot.design()(aber deine in einer erweiterten Version :-)
chl
Das ist das beste.
Curious
13

Vielen Dank für Ihre großartige Antwort. Obwohl sie sehr aufschlussreich waren, hatte ich das Gefühl, dass es meinen Schülern zu viel wird, sie für den Kurs zu verwenden, den ich gerade unterrichte (na ja, TA'ing). (Ich helfe beim Unterrichten des Kurses BioStatistik für Studenten mit fortgeschrittenem Abschluss in Medizinwissenschaften.)

Daher habe ich zwei Bilder erstellt (beide sind simulationsbasiert), die meines Erachtens ein nützliches Beispiel für die Erklärung von ANOVA sind.

Über Kommentare oder Verbesserungsvorschläge würde ich mich freuen.

Das erste Bild zeigt eine Simulation von 30 Datenpunkten, die in 3 Diagramme unterteilt sind (wobei gezeigt wird, wie MST = Var in die Daten aufgeteilt wird, die MSB und MSW erzeugen:

  • Das linke Diagramm zeigt ein Streudiagramm der Daten pro Gruppe.
  • Die mittlere zeigt, wie die Daten aussehen, die wir für MSB verwenden werden.
  • Das rechte Bild zeigt, wie die Daten aussehen, die wir für MSW verwenden werden.

Alt-Text

Das zweite Bild zeigt 4 Kurven, jede für eine andere Kombination von Varianz und Erwartung für die Gruppen

  • Die erste Reihe von Kurven ist für niedrige Varianz, während die zweite Reihe für hohe (er) Varianz ist.
  • Die erste Spalte der Diagramme ist für die gleiche Erwartung zwischen den Gruppen, während die zweite Spalte Gruppen mit (sehr) unterschiedlichen Erwartungen zeigt.

Alt-Text

Tal Galili
quelle
2
(+1) Ich denke immer, dass die Nachrichten zum Mitnehmen beim Unterrichten von ANOVA sind: (1) Wir haben ein F-Verhältnis, das die relative Wichtigkeit der Varianz widerspiegelt, die durch unseren Faktor von Interesse in Bezug auf die Varianz berücksichtigt wird. Gesamtvarianz (oder MSB / MSW mit MSW = MST-MSB), (2) die Unterschiede zwischen den Gruppenmitteln sind eine Varianz, und (3) wir testen explizit vs . ( ). Wenn Sie in der Lage sind, diese Ideen in einer grafischen Anzeige darzustellen - was hier der Fall zu sein scheint -, dann sind Sie fast fertig. H0: μ1=μ2==μk H1:  i,j | μiμjH1¬ H0
chl
Hallo chl, danke für das positive Feedback (und für deine bisherige ausführliche Antwort)! Ich denke, einige der größten Massagen, die ich mit nach Hause nehmen konnte, wenn ich das Material für diesen Kurs vorbereitet habe, sind: 1) Wie beschreibt man die Transformation der Originaldaten, um die MSB- und MSW-Varianzen zu messen? 2) Wie ist die Teststatistik des MSB / MSW tatsächlich ein einseitiger (kein zweiseitiger) Test, wobei der H0 der MSB <= MSW ist. Zuletzt dachte ich nur daran, dass es stimmt, dass SSW = SST-SSB (aber ich sehe nicht, wie es für MSW = MST-MSB gilt).
Tal Galili
1
Tut mir leid, ich habe schnell geschrieben. Ich meinte: Betrachte das Modell oder und hebe die folgende Zerlegung grafisch hervor: , das ist obs. werden als Abweichungen vom Mittelwert + Gruppenmittelwert + Schwankungen um den Gruppenmittelwert ausgedrückt. Dann haben wir oder totale Variation = dazwischen -Gruppenvariation + Variation innerhalb der Gruppe (das ist im Grunde Ihr erstes Bild). yij=μ+αi+εijyij=μi+εijyij=yi¯+εij=y¯+(y¯iy¯)+(yijy¯i)(yijy¯)=(y¯iy¯)+(yijy¯i)
Chl
12

Da wir in diesem Beitrag bestimmte Arten von netten Diagrammen zusammenfassen, habe ich kürzlich ein weiteres Diagramm gefunden, das Ihnen helfen kann, die Funktionsweise von ANOVA und die Generierung der F-Statistik zu verstehen. Die Grafik wurde mit dem granova- Paket in R erstellt. Alt-Text

George Dontas
quelle
2
(+1) Ich habe einen Link zu Robert Pruzeks Artikel gegeben, aber ich wusste nicht, dass er in R.
chl
10

Schauen Sie sich Hadley Wickhams Präsentation ( pdf , Spiegel ) auf ggplot an. Ab den Seiten 23 bis 40 dieses Dokuments beschreibt er einen interessanten Ansatz zur Visualisierung von ANOVAs.

* Link von: http://had.co.nz/ggplot2/

Dimitry L
quelle
6

Gute Frage. Weißt du, ich habe mich sehr lange Mühe gegeben, meinen Kopf um ANOVA zu wickeln. Ich finde mich immer wieder in der Intuition "zwischen versus innerhalb" wieder und habe immer versucht mir vorzustellen, wie das in meinem Kopf aussehen würde. Ich bin froh, dass diese Frage aufgeworfen wurde, und ich war erstaunt über die unterschiedlichen Ansätze in den obigen Antworten.

Wie auch immer, ich wollte schon seit langer Zeit (sogar seit Jahren) mehrere Grundstücke an einem Ort sammeln, an dem ich sehen konnte, was aus vielen verschiedenen Richtungen gleichzeitig geschah: 1) wie weit die Populationen voneinander entfernt sind, 2) wie weit sie voneinander entfernt sind Die Daten sind weit voneinander entfernt . 3) Wie groß ist das Dazwischen im Vergleich zum Inneren und 4) wie vergleichen sich die zentralen und nicht zentralen F-Verteilungen?

In einer wirklich großartigen Welt könnte ich sogar mit Schiebereglern spielen, um zu sehen, wie sich die Sample-Größe ändert.

Also habe ich mit dem manipulateBefehl in RStudio gespielt und die heilige Kuh, es funktioniert! Hier ist eine der Handlungen, eine Momentaufnahme:

visualisierenANOVA

Wenn Sie über RStudio verfügen, können Sie den Code zum Erstellen des obigen Diagramms erhalten (Schieberegler und alle)! auf Github hier .

Nachdem ich eine Weile damit gespielt habe, bin ich überrascht, wie gut die F-Statistik die Gruppen auch bei mäßig kleinen Stichprobengrößen unterscheidet. Wenn ich mir die Populationen anschaue, sind sie wirklich nicht so weit voneinander entfernt (aus meiner Sicht), dennoch wird die "Innen" -Leiste durchgehend von der "Zwischen" -Leiste in den Schatten gestellt. Lerne jeden Tag etwas, denke ich.

kjetil b halvorsen
quelle
3

Um zu veranschaulichen, was mit der Einweg-ANOVA vor sich geht, habe ich manchmal ein Applet der Autoren von "Introduction to the Practice of Statistics" verwendet, mit dem die Schüler innerhalb und zwischen Varianzen spielen und ihre Auswirkung auf die F-Statistik beobachten können . Hier ist der Link (das Applet ist das letzte auf der Seite). Beispiel-Screenshot:

Bildbeschreibung hier eingeben

Der Benutzer steuert den oberen Schieberegler und variiert die vertikalen Spreads der drei Datengruppen. Der rote Punkt am unteren Rand bewegt sich entlang der Darstellung der p-Werte, während die unten gezeigte F-Statistik aktualisiert wird.

David
quelle
2

Es scheint, dass das Schiff bereits eine Antwort gefunden hat, aber ich denke, wenn es sich um einen Einführungskurs handelt, werden die meisten der hier angebotenen Anzeigen für Einführungsstudenten zu schwer zu verstehen sein ... oder zumindest auch Ohne eine einführende Anzeige, die eine sehr vereinfachte Erklärung der Partitionierungsvarianz bietet, nur schwer zu erfassen. Zeigen Sie ihnen, wie sich die Gesamtzahl der SST mit der Anzahl der Probanden erhöht. Erklären Sie dann, nachdem Sie gezeigt haben, dass es für mehrere Probanden aufgeblasen ist (möglicherweise fügen Sie in jeder Gruppe mehrmals einen hinzu), dass SST = SSB + SSW ist (obwohl ich es von Anfang an lieber als SSE bezeichne, da dies Verwirrung vermeidet, wenn Sie zum Test IMO für die einzelnen Probanden gehen ). Zeigen Sie ihnen dann eine visuelle Darstellung der Varianzaufteilung, z. B. ein großes Quadrat, das farblich so gekennzeichnet ist, dass Sie sehen können, wie SST aus SSB und SSW besteht. Dann,

russellpierce
quelle
2

Hier sind einige Darstellungen von Situationen, in denen eine ANOVA zu einem unterschiedlichen Anpassungsgrad zwischen und .XYX

Bildbeschreibung hier eingeben

Bildbeschreibung hier eingeben

Bildbeschreibung hier eingeben

Martin Van der Linden
quelle