Auf welche Weise (auf welche Arten?) Kann visuell erklärt werden, was ANOVA ist?
Verweise, Links (R-Pakete?) Sind willkommen.
data-visualization
anova
teaching
Tal Galili
quelle
quelle
Antworten:
Persönlich mag ich die Einführung der linearen Regression und der ANOVA, indem ich zeige, dass sie alle gleich sind und dass lineare Modelle die Gesamtvarianz aufteilen: Wir haben eine Art von Varianz im Ergebnis, die durch die interessierenden Faktoren und die unerklärten Faktoren erklärt werden kann Teil (als "Residuum" bezeichnet). Ich verwende im Allgemeinen die folgende Abbildung (graue Linie für die Gesamtvariabilität, schwarze Linien für die Gruppen- oder individuelle spezifische Variabilität):
Ich mag auch die heplots R - Paket, von Michael Freundlich und John Fox, aber auch von Visual Hypothesentests in Multivariate Linear Models: Die heplots Paket für R .
Standardmethoden zur Erklärung der tatsächlichen Funktionsweise von ANOVA, insbesondere im Rahmen des linearen Modells, werden in den ebenen Antworten auf komplexe Fragen von Christensen sehr gut erläutert , es gibt jedoch nur sehr wenige Abbildungen. Statistische Methoden von Saville und Wood : Der geometrische Ansatz enthält einige Beispiele, hauptsächlich jedoch die Regression. In Montgomerys Design und Analyse von Experimenten , die sich hauptsächlich auf DoE konzentrierten, gibt es Illustrationen, die ich mag, aber siehe unten
(das sind meine :-)
Aber ich denke, Sie müssen nach Lehrbüchern für lineare Modelle suchen, wenn Sie sehen möchten, wie sich die Summe von Quadraten, Fehlern usw. in einen Vektorraum übersetzt, wie in Wikipedia gezeigt . Estimation and Inference in Econometrics von Davidson und MacKinnon scheint nette Illustrationen zu haben (das erste Kapitel behandelt tatsächlich die OLS-Geometrie), aber ich stöbere nur in der französischen Übersetzung ( hier verfügbar ). Die Geometrie der linearen Regression hat auch einige gute Abbildungen.
Bearbeiten :
Ah, und ich erinnere mich nur an diesen Artikel von Robert Pruzek, Eine neue Grafik für die Einweg-ANOVA .
Bearbeiten 2
Und jetzt wurde das granova- Paket (von @ gd047 erwähnt und mit dem obigen Artikel verknüpft ) nach ggplot portiert, siehe granovaGG mit einer Illustration für eine Einweg-ANOVA unten.
quelle
Wie wäre es mit so etwas?
Nach Crawley (2005). Statistiken. Eine Einführung mit R: Wiley.
quelle
plot.design()
(aber deine in einer erweiterten Version :-)Vielen Dank für Ihre großartige Antwort. Obwohl sie sehr aufschlussreich waren, hatte ich das Gefühl, dass es meinen Schülern zu viel wird, sie für den Kurs zu verwenden, den ich gerade unterrichte (na ja, TA'ing). (Ich helfe beim Unterrichten des Kurses BioStatistik für Studenten mit fortgeschrittenem Abschluss in Medizinwissenschaften.)
Daher habe ich zwei Bilder erstellt (beide sind simulationsbasiert), die meines Erachtens ein nützliches Beispiel für die Erklärung von ANOVA sind.
Über Kommentare oder Verbesserungsvorschläge würde ich mich freuen.
Das erste Bild zeigt eine Simulation von 30 Datenpunkten, die in 3 Diagramme unterteilt sind (wobei gezeigt wird, wie MST = Var in die Daten aufgeteilt wird, die MSB und MSW erzeugen:
Das zweite Bild zeigt 4 Kurven, jede für eine andere Kombination von Varianz und Erwartung für die Gruppen
quelle
Da wir in diesem Beitrag bestimmte Arten von netten Diagrammen zusammenfassen, habe ich kürzlich ein weiteres Diagramm gefunden, das Ihnen helfen kann, die Funktionsweise von ANOVA und die Generierung der F-Statistik zu verstehen. Die Grafik wurde mit dem granova- Paket in R erstellt.
quelle
Schauen Sie sich Hadley Wickhams Präsentation ( pdf , Spiegel ) auf ggplot an. Ab den Seiten 23 bis 40 dieses Dokuments beschreibt er einen interessanten Ansatz zur Visualisierung von ANOVAs.
* Link von: http://had.co.nz/ggplot2/
quelle
Gute Frage. Weißt du, ich habe mich sehr lange Mühe gegeben, meinen Kopf um ANOVA zu wickeln. Ich finde mich immer wieder in der Intuition "zwischen versus innerhalb" wieder und habe immer versucht mir vorzustellen, wie das in meinem Kopf aussehen würde. Ich bin froh, dass diese Frage aufgeworfen wurde, und ich war erstaunt über die unterschiedlichen Ansätze in den obigen Antworten.
Wie auch immer, ich wollte schon seit langer Zeit (sogar seit Jahren) mehrere Grundstücke an einem Ort sammeln, an dem ich sehen konnte, was aus vielen verschiedenen Richtungen gleichzeitig geschah: 1) wie weit die Populationen voneinander entfernt sind, 2) wie weit sie voneinander entfernt sind Die Daten sind weit voneinander entfernt . 3) Wie groß ist das Dazwischen im Vergleich zum Inneren und 4) wie vergleichen sich die zentralen und nicht zentralen F-Verteilungen?
In einer wirklich großartigen Welt könnte ich sogar mit Schiebereglern spielen, um zu sehen, wie sich die Sample-Größe ändert.
Also habe ich mit dem
manipulate
Befehl in RStudio gespielt und die heilige Kuh, es funktioniert! Hier ist eine der Handlungen, eine Momentaufnahme:Wenn Sie über RStudio verfügen, können Sie den Code zum Erstellen des obigen Diagramms erhalten (Schieberegler und alle)! auf Github hier .
Nachdem ich eine Weile damit gespielt habe, bin ich überrascht, wie gut die F-Statistik die Gruppen auch bei mäßig kleinen Stichprobengrößen unterscheidet. Wenn ich mir die Populationen anschaue, sind sie wirklich nicht so weit voneinander entfernt (aus meiner Sicht), dennoch wird die "Innen" -Leiste durchgehend von der "Zwischen" -Leiste in den Schatten gestellt. Lerne jeden Tag etwas, denke ich.
quelle
Um zu veranschaulichen, was mit der Einweg-ANOVA vor sich geht, habe ich manchmal ein Applet der Autoren von "Introduction to the Practice of Statistics" verwendet, mit dem die Schüler innerhalb und zwischen Varianzen spielen und ihre Auswirkung auf die F-Statistik beobachten können . Hier ist der Link (das Applet ist das letzte auf der Seite). Beispiel-Screenshot:
Der Benutzer steuert den oberen Schieberegler und variiert die vertikalen Spreads der drei Datengruppen. Der rote Punkt am unteren Rand bewegt sich entlang der Darstellung der p-Werte, während die unten gezeigte F-Statistik aktualisiert wird.
quelle
Es scheint, dass das Schiff bereits eine Antwort gefunden hat, aber ich denke, wenn es sich um einen Einführungskurs handelt, werden die meisten der hier angebotenen Anzeigen für Einführungsstudenten zu schwer zu verstehen sein ... oder zumindest auch Ohne eine einführende Anzeige, die eine sehr vereinfachte Erklärung der Partitionierungsvarianz bietet, nur schwer zu erfassen. Zeigen Sie ihnen, wie sich die Gesamtzahl der SST mit der Anzahl der Probanden erhöht. Erklären Sie dann, nachdem Sie gezeigt haben, dass es für mehrere Probanden aufgeblasen ist (möglicherweise fügen Sie in jeder Gruppe mehrmals einen hinzu), dass SST = SSB + SSW ist (obwohl ich es von Anfang an lieber als SSE bezeichne, da dies Verwirrung vermeidet, wenn Sie zum Test IMO für die einzelnen Probanden gehen ). Zeigen Sie ihnen dann eine visuelle Darstellung der Varianzaufteilung, z. B. ein großes Quadrat, das farblich so gekennzeichnet ist, dass Sie sehen können, wie SST aus SSB und SSW besteht. Dann,
quelle
Hier sind einige Darstellungen von Situationen, in denen eine ANOVA zu einem unterschiedlichen Anpassungsgrad zwischen und .XY X
quelle