Follow-up: In einem gemischten ANOVA-Plot zwischen geschätzten SEs oder tatsächlichen SEs?

14

Ich beende gerade eine Arbeit und bin auf diese Frage von gestern gestoßen, was mich dazu veranlasste, die gleiche Frage an mich selbst zu stellen. Ist es besser, mein Diagramm mit dem tatsächlichen Standardfehler aus den Daten oder dem aus meiner ANOVA geschätzten Fehler zu versehen?
Da die Frage von gestern eher unspezifisch war und meine ziemlich spezifisch ist, hielt ich es für angebracht, diese Anschlussfrage zu stellen.

Details:
Ich habe ein Experiment in einem Bereich der kognitiven Psychologie (Bedingtes Denken) durchgeführt, in dem zwei Gruppen (induktive und deduktive Anweisungen, dh eine Manipulation zwischen Subjekten) mit zwei Manipulationen innerhalb von Subjekten (Problemtyp und Inhalt des Problems, jeweils mit zwei Faktorstufen).

Die Ergebnisse sehen folgendermaßen aus (linkes Feld mit SE-Schätzungen aus der ANOVA-Ausgabe, rechtes Feld mit SE-Schätzungen aus den Daten): Alt-Text
Beachten Sie, dass die verschiedenen Linien die zwei verschiedenen Gruppen darstellen (dh die Manipulation zwischen Subjekten) und die Die Manipulationen der Probanden sind auf der x-Achse aufgetragen (dh die 2x2-Faktorstufen).

Im Text stelle ich die jeweiligen Ergebnisse der ANOVA und sogar geplante Vergleiche für die kritische Crossover-Interaktion in der Mitte vor. Die SEs sollen dem Leser einen Hinweis auf die Variabilität der Daten geben. Ich bevorzuge SEs gegenüber Standardabweichungen und Konfidenzintervallen, da es nicht üblich ist, SDs zu zeichnen und beim Vergleich von CIs innerhalb und zwischen Probanden schwerwiegende Probleme auftreten (wie dies sicherlich für SEs gilt, ist es nicht so üblich, fälschlicherweise signifikante Unterschiede zu vermuten von ihnen).

Um meine Frage zu wiederholen: Ist es besser, die aus der ANOVA geschätzten SEs zu zeichnen, oder sollte ich die aus den Rohdaten geschätzten SEs zeichnen?

Update:
Ich denke, ich sollte ein bisschen klarer sein, was die geschätzten SEs sind. Die ANOVA-Ausgabe in SPSS gibt mir estimated marginal meansentsprechende SEs und CIs. Dies ist in der linken Grafik dargestellt. Soweit ich das verstehe, sollten sie die SDs der Residuen sein. Beim Speichern der Residuen liegen die SDs jedoch nicht in der Nähe der geschätzten SEs. Eine sekundäre (möglicherweise SPSS-spezifische) Frage wäre also:
Was sind diese SEs?


UPDATE 2: Ich habe es endlich geschafft, eine R-Funktion zu schreiben, die in der Lage sein sollte, einen Plot zu erstellen, wie es mir endlich gefallen hat (siehe meine akzeptierte Antwort). Wenn jemand Zeit hat, würde ich mich sehr freuen, wenn Sie sich das ansehen könnten. Hier ist es.

Henrik
quelle
1
Können Sie die vorhergesagte Variable "Mean Endorsement" klarstellen? Ist dies eine 0-100-Skala, die die Teilnehmer zur Beantwortung verwendet haben, oder ist dies ein Maß für den Anteil der Versuche, bei denen die Teilnehmer mit "Ja, ich stimme zu" geantwortet haben (im Gegensatz zu "Nein, ich stimme nicht zu"). Ist dies der Fall, ist es unangemessen, diese Daten als Proportionen zu analysieren. Stattdessen sollten Sie die Rohdaten für jeden Versuch mithilfe eines gemischten Effektmodells mit Binomial-Link-Funktion analysieren.
Mike Lawrence
Entschuldigen Sie, dass Sie dies weggelassen haben: Es handelt sich um eine Skala von 0 bis 100 Antworten.
Henrik
Haben Sie viele Nullen oder Hunderte? Wenn nicht, würde ich überlegen, durch 100 zu dividieren und eine logit-Transformation durchzuführen, um die Einschränkung des Bereichs an den Extremen zu berücksichtigen. Dies ist im Wesentlichen das, was durch die Binomial Link-Funktion erreicht wird, wenn Sie über Binärdaten verfügen. Dies ist jedoch nützlich, wenn Sie nur proportionale Daten haben, wie Sie sie hier zu haben scheinen. Sie können jedoch Transformation 1 oder 0 nicht protokollieren, sodass Sie keine Antworten von 100 oder 0 werfen müssen.
Mike Lawrence
Hoppla, habe gerade gemerkt, dass mein erster Kommentar nicht 100% richtig war. Jeder geplottete Mittelwert repräsentiert den Mittelwert von zwei Antworten auf einer Skala von 0 bis 100. In diesen Daten gibt es viele Werte, die sehr nahe bei 100 liegen, und einige direkt bei 100, aber tatsächlich sehr wenig bei 0 und um 0. Sie haben Literatur, um Ihre Empfehlung zu rechtfertigen?
Henrik
1
Andere Leute, die Daten visualisieren, könnten behaupten, dass Balkendiagramme ein Verbrechen gegen die Menschlichkeit sind: Op
Mike Lawrence

Antworten:

9

Als Konsequenz der inspirierenden Antworten und Diskussionen auf meine Frage habe ich die folgenden Diagramme erstellt, die sich nicht auf modellbasierte Parameter stützen, sondern die zugrunde liegenden Daten darstellen.

Die Gründe dafür sind, dass unabhängig von der Art des von mir gewählten Standardfehlers der Standardfehler ein modellbasierter Parameter ist. Warum also nicht die zugrunde liegenden Daten präsentieren und dadurch mehr Informationen übermitteln?

Außerdem ergeben sich bei der Auswahl der SE aus der ANOVA zwei Probleme für meine spezifischen Probleme.
Zunächst ist (zumindest für mich) irgendwie unklar, was die SEs von SPSSANOVA Output tatsächlich sind ( siehe auch diese Diskussion in den Kommentaren ). Sie hängen irgendwie mit der MSE zusammen, aber wie genau weiß ich nicht.
Zweitens sind sie nur dann sinnvoll, wenn die zugrunde liegenden Annahmen erfüllt sind. Wie die folgenden Darstellungen zeigen, wird jedoch die Annahme der Homogenität der Varianz eindeutig verletzt.

Die Grundstücke mit Boxplots: Alt-Text

Die Diagramme mit allen Datenpunkten: Alt-Text

Beachten Sie, dass die beiden Gruppen ein wenig nach links oder rechts versetzt sind: deduktiv nach links, induktiv nach rechts. Die Mittel sind weiterhin schwarz und die Daten oder Boxplots im Hintergrund grau dargestellt. Die Unterschiede zwischen den Darstellungen links und rechts bestehen darin, dass die Mittelwerte genauso verschoben sind wie die Punkte oder Boxplots oder dass sie zentral dargestellt werden.
Entschuldigen Sie die nicht optimale Qualität der Grafiken und die fehlenden Beschriftungen auf der x-Achse.

Die Frage, die bleibt, ist, welches der oben genannten Diagramme das ist, das Sie jetzt wählen müssen. Ich muss darüber nachdenken und den anderen Autor unserer Arbeit fragen. Aber im Moment bevorzuge ich die "Punkte mit verlagerten Mitteln". Und ich wäre immer noch sehr an Kommentaren interessiert.


Update: Nach einigem Programmieren habe ich es endlich geschafft, eine R-Funktion zu schreiben, um automatisch eine grafische Darstellung wie Punkte mit versetzten Mitteln zu erstellen. Probieren Sie es aus (und senden Sie mir Kommentare) !

Henrik
quelle
Hervorragender Henrik. Ich bevorzuge auch die "Punkte mit verrenkten Mitteln". Das Verknüpfen von Motiven mit Liniensegmenten sieht möglicherweise zu überladen aus. Das Mitleid. In Bezug auf die Homogenität der Varianz bin ich etwas zuversichtlicher. Das Varianzproblem ist möglicherweise nicht so schlimm, wie es in den Rohdaten aussieht. Ich vermute, Sie werden zum größten Teil Kontraste vergleichen - innerhalb von Gruppenunterschieden. Kontrastabweichungen sind homogener als die Abweichungen der Rohdaten. Wenn Rohdaten mit unterschiedlichen Varianzen verglichen werden (z. B. Induktiv vs. Deduktiv in der Gruppe MP-valiad & plausibel), kann ein nicht parametrischer Test als Backup verwendet werden.
Thylacoleo
1
Ich mag die Punkte mit Mittelwert zentral. Es hat eine genauere Darstellung der Linien. Sie könnten die Punkte kleiner machen.
John
8

Sie werden mit dieser Art von Versuchsaufbau keinen einzigen vernünftigen Fehlerbalken für Inferenzzwecke finden. Dies ist ein altes Problem ohne klare Lösung.

Es scheint unmöglich zu sein, Ihre geschätzten SEs hier zu haben. Es gibt zwei Hauptfehlerarten in einem solchen Entwurf, die zwischen und innerhalb von S error. Sie sind meist sehr unterschiedlich und nicht vergleichbar. Es gibt wirklich keine gute einzelne Fehlerleiste, um Ihre Daten darzustellen.

Man könnte argumentieren, dass die rohen SEs oder SDs aus den Daten eher in beschreibender als inferentieller Hinsicht am wichtigsten sind. Sie geben entweder Auskunft über die Qualität der zentralen Tendenzschätzung (SE) oder die Variabilität der Daten (SD). Aber selbst dann ist es etwas unaufrichtig, weil das, was Sie in S testen und messen, nicht dieser Rohwert ist, sondern der Effekt der Variablen in S. Daher ist die Angabe der Variabilität der Rohwerte in Bezug auf S-Effekte entweder bedeutungslos oder irreführend.

Ich habe in der Regel keine Fehlerbalken in solchen Diagrammen und in Diagrammen benachbarter Effekte angegeben, die die Variabilität der Effekte anzeigen. Man könnte CIs in diesem Graphen haben, die absolut vernünftig sind. Beispiele für die Effektgrafiken finden Sie in Masson & Loftus (2003). Beseitigen Sie einfach ihre (so gut wie völlig unbrauchbaren) Fehlerbalken um die angezeigten Mittelwerte und verwenden Sie einfach die Effektfehlerbalken.

Für Ihre Studie würde ich zuerst die Daten als das 2 x 2 x 2-Design replizieren (2-Panel 2x2) und dann direkt neben einem Diagramm mit Konfidenzintervallen der Gültigkeits-, Plausibilitäts-, Anweisungs- und Interaktionseffekte zeichnen. Fügen Sie SDs und SEs für die Anweisungsgruppen in eine Tabelle oder in den Text ein.

(Warten auf die erwartete Reaktion der Analyse gemischter Effekte;))

UPDATE: OK, nach der Bearbeitung ist klar, dass Sie nur eine SE verwenden möchten, um die Qualität der Schätzung des Werts anzuzeigen. In diesem Fall verwenden Sie Ihre Modellwerte. Beide Werte basieren auf einem Modell und es gibt keinen "wahren" Wert in Ihrer Stichprobe. Verwenden Sie die aus dem Modell, das Sie auf Ihre Daten angewendet haben. ABER, stellen Sie sicher, dass Sie die Leser in der Bildunterschrift warnen, dass diese SEs für Ihre S-Effekte oder Interaktionen keinerlei Inferenzwert haben.

UPDATE2: Wenn Sie auf die Daten zurückblicken, die Sie vorgelegt haben, sieht das verdächtig nach Prozentsätzen aus, die mit ANOVA überhaupt nicht hätten analysiert werden dürfen. Unabhängig davon, ob dies der Fall ist oder nicht, es handelt sich um eine Variable mit einem Maximum von 100 und einer reduzierten Varianz an den Extremen. Daher sollte sie mit ANOVA nicht analysiert werden. Ich mag Ihre Grundstückspläne sehr. Ich wäre immer noch versucht, separate Diagramme der Zwischenbedingungen zu erstellen, in denen die Rohdaten und in Bedingungen, in denen die Daten mit entfernter Variabilität zwischen S angezeigt werden, dargestellt werden.

John
quelle
1
Ich habe gute (nicht statistische) Gründe, die Grafik so zu zeichnen, wie sie ist: Sie sehen direkt die Antwort auf die Forschungsfrage. Außerdem suche ich keine Fehlerbalken für Inferenzzwecke, da ich über die Zwischenprobleme Bescheid weiß. Aber dank meiner Rückmeldung an Mason & Loftus muss ich vergessen haben, dass sie ein gemischtes Beispiel hatten. Ich muss darüber nachdenken, ob es meinem Zweck dient oder nicht.
Henrik
7

Das sieht nach einem sehr schönen Experiment aus, also herzlichen Glückwunsch!

Ich stimme John Christie zu, es ist ein gemischtes Modell, aber wenn es in einem ANOVA-Design richtig spezifiziert werden kann (& ist ausgeglichen), verstehe ich nicht, warum es nicht so formuliert werden kann. Zwei Faktoren innerhalb und ein Faktor zwischen Subjekten, aber der Faktor zwischen Subjekten (induktiv / deduktiv) interagiert (modifiziert) eindeutig die Effekte innerhalb der Subjekte. Ich gehe davon aus, dass die aufgetragenen Mittelwerte vom ANOVA-Modell (LHS) stammen und das Modell daher korrekt angegeben ist. Gut gemacht - das ist nicht trivial!

Einige Punkte: 1) Der "geschätzte" vs "tatsächliche" "Fehler" ist eine falsche Zweiteilung. Beide gehen von einem zugrunde liegenden Modell aus und nehmen auf dieser Basis Schätzungen vor. Wenn das Modell angemessen ist, ist es meiner Meinung nach besser, die modellbasierten Schätzungen zu verwenden (sie basieren auf der Zusammenfassung größerer Stichproben). Aber wie James erwähnt, unterscheiden sich die Fehler in Abhängigkeit von dem Vergleich, den Sie durchführen, so dass keine einfache Darstellung möglich ist.

2) Ich würde es vorziehen, Box-Plots oder einzelne Datenpunkte (wenn es nicht zu viele sind) zu zeichnen, möglicherweise mit etwas Seitenjitter, damit Punkte mit demselben Wert unterschieden werden können.

http://en.wikipedia.org/wiki/Box_plot

3) Wenn Sie eine Schätzung des Mittelwertfehlers zeichnen müssen, zeichnen Sie niemals SDs - sie sind eine Schätzung der Standardabweichung der Stichprobe und beziehen sich auf die Populationsvariabilität, nicht auf einen statistischen Vergleich der Mittelwerte. Es ist im Allgemeinen vorzuziehen, 95% -Konfidenzintervalle anstelle von SEs zu zeichnen, aber in diesem Fall nicht (siehe 1 und Johns Punkt).

4) Das einzige Problem mit diesen Daten, das mich betrifft, ist die Annahme einer einheitlichen Varianz, die wahrscheinlich verletzt wird, da die "MP Valid and Plausible" -Daten eindeutig durch die 100% -Grenze beschränkt sind, insbesondere für die deduktiven Personen. Ich überlege mir, wie wichtig dieses Thema ist. Der Übergang zu einem Mixed-Effects-Logit (Binomialwahrscheinlichkeit) ist wahrscheinlich die ideale Lösung, aber eine schwierige Frage. Am besten lassen Sie andere antworten.

Thylacoleo
quelle
Ich bin nicht ganz sicher, ob ich Ihre Empfehlung in 1 verstehe. Da die tatsächliche SE [dh SD / sqrt (n)] und die geschätzte SE beide modellbasiert sind, empfehlen Sie die modellbasierte. Also welches? Oder meinst du: geh mit dem komplizierteren Modell (hier: ANOVA), denn beide Modelle sind vernünftig.
Henrik
stimme Punkt 1 voll und ganz zu
John
Hallo Henrik, Einfaches Beispiel - vergleiche zwei Gruppen (x1, x2) angenommen ND. Annahmen und Modelle: 1) Unabhängig abgetastete, unterschiedliche Varianz. SEs für x1, x2 werden separat geschätzt. Dies ist implizit die Voraussetzung in vielen grafischen Darstellungen. Die geschätzten SEs unterscheiden sich. 2) In der Tat, gleiche Var. Übliche ANOVA-Annahme. Schätzen Sie SEs mithilfe von gepooltem RSS. Die Schätzung ist robuster, wenn die Annahmen korrekt sind. 3) Jedes x1 hat ein x2-Paar. SEs geschätzt von x1-x2. Um sie effektiv aufzuzeichnen, müssen Sie die Differenz x1-x2 aufzeichnen. Sobald Sie 1) und 2) gemischt haben, haben Sie ein echtes Problem beim Zeichnen aussagekräftiger SEs oder CIs.
Thylacoleo
Henrik, ein Kommentar zur Handlung. Wie viele Fächer hast du? Ich würde dringend empfehlen, die Daten einzeln zu zeichnen und Liniensegmente zum Verknüpfen von Personen zu verwenden. (Das Verbindungsmittel für Liniensegmente täuscht.) Es ist nicht erforderlich, SEs zu zeichnen. Die Idee ist, Ihre statistische Analyse visuell zu unterstützen. Vorausgesetzt, die Handlung wird nicht zu unübersichtlich, sollte ein Leser (zum Beispiel) sehen, dass die klare Mehrheit der Bewertungen von MP-valid-implaus zu AC-inval-plaus für die induktive Gruppe und abwärts für die deduktive Gruppe steigt. Siehe: jstor.org/stable/2685323?seq=1 Insbesondere die Bodenplatten der Abbildungen 1 und 9.
Thylacoleo
3

In letzter Zeit habe ich eine Analyse mit gemischten Effekten verwendet und bei dem Versuch, einen Ansatz zur visuellen Datenanalyse zu entwickeln, habe ich Bootstrapping verwendet ( siehe meine Beschreibung hier) ) verwendet, das Konfidenzintervalle liefert, die nicht für die Probleme zwischen zwei und drei anfällig sind konventioneller CIs.

Außerdem würde ich vermeiden, mehrere Variablen derselben visuellen Ästhetik zuzuordnen, wie Sie es in der obigen Grafik getan haben. Sie haben 3 Variablen (MP / AC, gültig / ungültig, plausibel / unplausibel) auf der x-Achse abgebildet, was das Parsen des Designs und der Muster ziemlich schwierig macht. Ich würde stattdessen vorschlagen, MP / AC auf die x-Achse abzubilden, gültig / ungültig für Facettenspalten und plausibel / unplausibel für Facettenzeilen. Schauen Sie sich ggplot2 in R an, um dies einfach zu erreichen, zB:

library(ggplot2)
ggplot(
    data = my_data
    , mapping = aes(
        y = mean_endorsement
        , x = mp_ac
        , linetype = deductive_inductive
        , shape = deductive_inductive
)+
geom_point()+
geom_line()+
facet_grid(
    plausible_implausible ~ valid_invalid
)
Mike Lawrence
quelle
Mike, in der Paketsprache R führt die Funktion pvals.fnc eine MCMC durch, um die Hypothesen des früheren Modells zu evaluieren - sie behandelt jedoch keine Designs mit zufälligen Steigungen -, was mich zu dem Verdacht veranlasst, dass es einen Grund gibt, MCMC mit zufälligen Steigungen durchzuführen irgendwie problematisch, weißt du definitiv, dass es kein solches problem gibt?
Russellpierce
Ich muss zugeben, dass ich immer noch nicht herausgefunden habe, wie MCMC funktioniert. Dies ist einer der Gründe, warum ich mich stattdessen für das Bootstrapping entschieden habe. Während Bootstrapping mit zufälligen Steigungen möglich sein sollte, kann es sein, dass Sie mit pvals.fnc keine CIs für Modelle mit zufälligen Steigungen erstellen können, da dies aus irgendeinem Grund ungültig ist und sich diese Ungültigkeit möglicherweise auf erstreckt Bootstrapping solcher Modelle. Ich denke nicht intuitiv, dass es Probleme mit dem Bootstrapping geben würde, aber das kann eine Funktion meiner begrenzten Expertise sein.
Mike Lawrence