Dies ist keine rein statistische Frage. Ich kann alle Lehrbücher über ANOVA-Annahmen lesen. Ich versuche herauszufinden, wie tatsächlich arbeitende Analysten mit Daten umgehen, die den Annahmen nicht ganz entsprechen. Ich habe viele Fragen auf dieser Website nach Antworten durchsucht und finde immer wieder Beiträge darüber, wann ich ANOVA nicht verwenden soll (in einem abstrakten, idealisierten mathematischen Kontext) oder wie ich einige der Dinge, die ich unten in R. I beschreibe, tun soll Ich versuche wirklich herauszufinden, welche Entscheidungen die Leute tatsächlich treffen und warum.
Ich analysiere gruppierte Daten von Bäumen (tatsächliche Bäume, keine statistischen Bäume) in vier Gruppen. Ich habe Daten für ungefähr 35 Attribute für jeden Baum und gehe jedes Attribut durch, um festzustellen, ob sich die Gruppen in diesem Attribut signifikant unterscheiden. In einigen Fällen werden die ANOVA-Annahmen jedoch leicht verletzt, da die Varianzen nicht gleich sind (nach einem Levene-Test unter Verwendung von Alpha = 0,05).
Aus meiner Sicht habe ich folgende Möglichkeiten: 1. Transformieren Sie die Daten mit Strom und prüfen Sie, ob sie den Levene-p-Wert ändern. 2. Verwenden Sie einen nicht parametrischen Test wie einen Wilcoxon (wenn ja, welchen?). 3. Korrigieren Sie das ANOVA-Ergebnis wie bei einem Bonferroni (ich bin mir nicht sicher, ob es so etwas gibt?). Ich habe die ersten beiden Optionen ausprobiert und dabei leicht unterschiedliche Ergebnisse erzielt. In einigen Fällen ist ein Ansatz von Bedeutung und der andere nicht. Ich habe Angst davor, in die p-wertige Angelfalle zu geraten, und suche nach Ratschlägen, die mir dabei helfen, den zu verwendenden Ansatz zu rechtfertigen.
Ich habe auch einige Dinge gelesen, die darauf hindeuten, dass die Heteroskedastizität für ANOVA kein so großes Problem darstellt, es sei denn, die Mittelwerte und Varianzen sind miteinander korreliert (dh beide nehmen gemeinsam zu) Muster wie das? Wenn ja, gibt es einen Test dafür?
Abschließend möchte ich hinzufügen, dass ich diese Analyse für die Veröffentlichung in einem von Fachleuten geprüften Journal durchführe. Welchen Ansatz ich auch wähle, muss ich mit den Gutachtern vereinbaren. Wenn also jemand Links zu ähnlichen, veröffentlichten Beispielen bereitstellen kann, wäre das fantastisch.
quelle
R
, kann es von Vorteil sein, wenn Sie meine Antwort hier lesen: Alternativen zur Einweg-ANOVA für heteroskedastische Daten , in der einige dieser Probleme behandelt werden.Antworten:
Es hängt von meinen Bedürfnissen ab, welche Annahmen auf welche Weise verletzt werden, wie stark, wie stark sich dies auf die Inferenz auswirkt und manchmal auch auf die Stichprobengröße.
1) Wenn die Stichprobengrößen gleich sind, haben Sie kein großes Problem. ANOVA ist gegenüber verschiedenen Varianzen ziemlich (pegel-) robust, wenn die n gleich sind.
2) Testen der Varianzgleichheit, bevor entschieden wird, ob dies von einer Reihe von Studien empfohlen wird. Wenn Sie wirklich Zweifel haben, dass sie nahezu gleich sind, ist es besser, einfach anzunehmen, dass sie ungleich sind.
Einige Referenzen:
Zimmerman, DW (2004),
"Eine Anmerkung zu vorläufigen Tests der Varianzgleichheit."
Br. J. Math. Stat. Psychol. , Mai ; 57 (Pt 1): 173 & ndash; 81.
http://www.ncbi.nlm.nih.gov/pubmed/15171807
Henrik gibt drei Referenzen hier
3) Es kommt auf die Effektgröße an, nicht darauf, ob Ihr Sample groß genug ist, um Ihnen zu sagen, dass sie sich erheblich unterscheiden. In großen Stichproben wird sich ein kleiner Unterschied in der Varianz nach Levene-Test als hoch signifikant herausstellen, hat jedoch im Wesentlichen keine Auswirkung auf die Auswirkung. Wenn die Stichproben groß sind und die Effektgröße - das Verhältnis der Varianzen oder die Unterschiede in den Varianzen - ziemlich nahe bei dem liegt, was sie sein sollten, hat der p-Wert keine Auswirkung. (In kleinen Stichproben ist ein netter großer p-Wert hingegen wenig tröstlich. In beiden Fällen beantwortet der Test nicht die richtige Frage.)
Beachten Sie, dass es eine Welch-Satterthwaite-Typanpassung für die Schätzung des verbleibenden Standardfehlers und des df in der ANOVA gibt, genau wie dies bei T-Tests mit zwei Stichproben der Fall ist.
Wenn Sie an Alternativen zur Standortverschiebung interessiert sind, gehen Sie immer noch von einer konstanten Streuung aus. Wenn Sie an viel allgemeineren Alternativen interessiert sind, können Sie dies vielleicht in Betracht ziehen. Die einem Wilcoxon-Test entsprechende k-Probe ist ein Kruskal-Wallis-Test.
Siehe meinen obigen Vorschlag, Welch-Satterthwaite in Betracht zu ziehen, das ist eine Art Korrektur.
(Alternativ können Sie Ihre ANOVA auch als paarweisen Welch-T-Test verwenden. In diesem Fall möchten Sie sich wahrscheinlich einen Bonferroni oder ähnliches ansehen.)
Sie müssten so etwas zitieren. Nachdem ich eine Reihe von Situationen mit T-Tests betrachtet habe, glaube ich nicht, dass dies eindeutig zutrifft. Vielleicht ist die Situation in irgendeiner Weise eingeschränkt. Es wäre jedoch schön, wenn dies der Fall wäre, da häufig verallgemeinerte lineare Modelle in dieser Situation hilfreich sein können.
Es ist sehr schwer vorherzusagen, was Ihre Rezensenten zufriedenstellen könnte. Die meisten von uns arbeiten nicht mit Bäumen.
quelle
Es ist eigentlich nicht sehr schwierig, mit Heteroskedastizität in einfachen linearen Modellen umzugehen (z. B. Einweg- oder Zweiweg-ANOVA-ähnlichen Modellen).
Robustheit von ANOVA
Erstens ist die ANOVA, wie andere angemerkt haben, erstaunlich robust gegenüber Abweichungen von der Annahme gleicher Varianzen, insbesondere wenn Sie ungefähr ausgeglichene Daten haben (gleiche Anzahl von Beobachtungen in jeder Gruppe). Vorläufige Tests auf gleiche Varianzen sind dagegen nicht (obwohl Levenes Test viel besser ist als der in Lehrbüchern gelehrte F -Test ). Wie George Box es ausdrückte:
Obwohl die ANOVA sehr robust ist, da es sehr einfach ist, Heteroskedatismus zu berücksichtigen, gibt es wenig Grund, dies nicht zu tun.
Nichtparametrische Tests
Wenn Sie wirklich an Mittelwertunterschieden interessiert sind , sind die nicht-parametrischen Tests (z. B. der Kruskal-Wallis-Test) wirklich nicht von Nutzen. Sie tun Test Unterschiede zwischen den Gruppen, aber sie tun nicht im allgemeinen Test Unterschiede in den Mitteln.
Beispieldaten
Lassen Sie uns ein einfaches Beispiel für Daten generieren, bei denen man ANOVA verwenden möchte, bei denen die Annahme gleicher Varianzen jedoch nicht zutrifft.
Wir haben drei Gruppen mit (deutlichen) Unterschieden in Mittelwert und Varianz:
ANOVA
Es überrascht nicht, dass eine normale ANOVA dies recht gut handhabt:
Welche Gruppen unterscheiden sich? Verwenden wir die HSD-Methode von Tukey:
Mit einem P- Wert von 0,26 können wir keinen Unterschied (im Mittelwert) zwischen Gruppe A und B behaupten. Und selbst wenn wir nicht berücksichtigt hätten, dass wir drei Vergleiche durchgeführt haben, bekämen wir keinen niedrigen P - Wert ( P = 0,12):
Warum das? Aus der Handlung ergibt sich ein ziemlich deutlicher Unterschied. Der Grund dafür ist, dass ANOVA in jeder Gruppe gleiche Varianzen annimmt und eine gemeinsame Standardabweichung von 2,77 schätzt (in der
summary.lm
Tabelle als " Reststandardfehler" angegeben). in der ANOVA-Tabelle).Gruppe A hat jedoch eine (Populations-) Standardabweichung von 1, und diese Überschätzung von 2,77 macht es (unnötig) schwierig, statistisch signifikante Ergebnisse zu erhalten, dh wir haben einen Test mit (zu) geringer Leistung.
'ANOVA' mit ungleichen Varianzen
Wie passt man ein geeignetes Modell an, das die Unterschiede in den Abweichungen berücksichtigt? In R ist es einfach:
Wenn Sie also eine einfache Einweg-ANOVA in R ausführen möchten, ohne gleiche Varianzen anzunehmen, verwenden Sie diese Funktion. Es ist im Grunde eine Erweiterung von (Welch)
t.test()
für zwei Stichproben mit ungleichen Varianzen.Leider funktioniert es nicht mit
TukeyHSD()
(oder den meisten anderen Funktionen, die Sie füraov
Objekte verwenden). Selbst wenn wir uns ziemlich sicher sind , dass es Gruppenunterschiede gibt, wissen wir nicht, wo sie sich befinden.Modellierung der Heteroskedastizität
Die beste Lösung besteht darin, die Abweichungen explizit zu modellieren. Und es ist sehr einfach in R:
Natürlich immer noch signifikante Unterschiede. Nun sind aber auch die Unterschiede zwischen Gruppe A und B statisch signifikant ( P = 0,025):
Die Verwendung eines geeigneten Modells hilft also! Beachten Sie auch, dass wir Schätzungen der (relativen) Standardabweichungen erhalten. Die geschätzte Standardabweichung für Gruppe A befindet sich am unteren Rand der, Ergebnisse, 1,02. Die geschätzte Standardabweichung der Gruppe B ist das 2,44-fache oder 2,48-fache, und die geschätzte Standardabweichung der Gruppe C ist ähnlich 3,97 (Typ
intervals(mod.gls)
, um Konfidenzintervalle für die relativen Standardabweichungen der Gruppen B und C zu erhalten).Korrektur für mehrere Tests
Wir sollten jedoch unbedingt mehrere Tests korrigieren. Dies ist einfach mit der "Multcomp" -Bibliothek. Leider gibt es keine eingebaute Unterstützung für 'gls'-Objekte, daher müssen wir zuerst einige Hilfsfunktionen hinzufügen:
Nun geht es an die Arbeit:
Immer noch statistisch signifikanter Unterschied zwischen Gruppe A und Gruppe B! ☺ Und wir können sogar (simultane) Konfidenzintervalle für die Unterschiede zwischen Gruppenmitteln erhalten:
Mit einem annähernd (hier genau) korrekten Modell können wir diesen Ergebnissen vertrauen!
Beachten Sie, dass für dieses einfache Beispiel die Daten für Gruppe C keine Informationen zu den Unterschieden zwischen Gruppe A und B enthalten, da wir für jede Gruppe sowohl separate Mittelwerte als auch Standardabweichungen modellieren. Wir könnten nur paarweise t- Tests verwenden, die für mehrere Vergleiche korrigiert wurden:
Für kompliziertere Modelle, z. B. Zweiwegemodelle oder lineare Modelle mit vielen Prädiktoren, ist die Verwendung von GLS (Generalized Least Squares) und die explizite Modellierung der Varianzfunktionen die beste Lösung.
Und die Varianzfunktion muss nicht einfach eine andere Konstante in jeder Gruppe sein; wir können es strukturieren. Zum Beispiel können wir die Varianz als Potenz des Mittelwerts jeder Gruppe modellieren (und müssen daher nur einen Parameter, den Exponenten, schätzen ) oder vielleicht als Logarithmus eines der Prädiktoren im Modell. All dies ist mit GLS (und
gls()
in R) sehr einfach .Die verallgemeinerte Methode der kleinsten Quadrate ist meiner Meinung nach eine sehr wenig genutzte statistische Modellierungstechnik. Anstatt sich Gedanken über Abweichungen von den Modellannahmen zu machen, modellieren Sie diese Abweichungen!
quelle
Es kann tatsächlich zu einer Transformation Ihrer Daten kommen, die zu einer akzeptablen Normalverteilung führt. In Ihrer Schlussfolgerung geht es jetzt natürlich um die transformierten Daten, nicht um die nicht transformierten Daten.
Angenommen, Sie sprechen von einer Einweg-ANOVA, ist der Kruskal-Wallis- Test ein geeignetes nichtparametrisches Analogon zur Einweg-ANOVA. Der Dunn-Test (nicht der Rang-Summen-Test für Gartensorten) ist möglicherweise der häufigste nichtparametrische Test, der für paarweise Post-Hoc -Vergleiche geeignet ist , obwohl es auch andere Tests wie den Conover-Iman-Test gibt (der nach Ablehnung strenger ist als der Dunn-Test) des Kruskal-Wallis) und der Dwass-Steele-Crichtlow-Fligner-Test.
Mehrfachvergleichsverfahren (ob familienbezogene Fehlerratensorte oder falsche Entdeckungsratensorte ) haben eigentlich nichts direkt mit Ihren spezifischen Testannahmen (z. B. Normalität von Daten) zu tun, sondern haben mit der Bedeutung von zu tunα (Bereitschaft, eine Nullhypothese falsch abzulehnen), vorausgesetzt, Sie führen mehrere Tests durch.
Die ANOVA basiert auf einem Verhältnis innerhalb der Gruppe und zwischen Gruppenvarianzen. Ich bin mir nicht ganz sicher, was Sie in diesem Zusammenhang unter Heteroskedastizität verstehen, aber wenn Sie ungleiche Varianzen zwischen Gruppen meinen, scheint dies die Logik der Nullhypothese des Tests grundlegend zu durchbrechen.
Eine einfache Google Scholar-Abfrage nach "Dunns Test" sowie ein allgemeiner Begriff aus Ihrem Fachgebiet sollten zahlreiche veröffentlichte Beispiele enthalten.
Verweise
Conover, WJ und Iman, RL (1979). Bei Mehrfachvergleichsverfahren . Technischer Bericht LA-7677-MS, Los Alamos Scientific Laboratory.
Crichtlow, DE und Fligner, MA (1991). Über verteilungsfreie Mehrfachvergleiche in der Einweg-Varianzanalyse . Kommunikationen in der Statistik - Theorie und Methoden , 20 (1): 127.
Dunn, ABl. (1964). Mehrfache Vergleiche mit Rangsummen . Technometrics , 6 (3): 241–252.
quelle
Es klingt für mich so, als würden Sie Fußarbeit leisten und Ihr Bestes geben, aber Sie befürchten, dass Ihre Bemühungen nicht gut genug sind, um Ihre Arbeit an den Gutachtern vorbei zu bringen. Ein echtes Problem. Ich denke, alle Forscher haben Schwierigkeiten mit Analysen, die von Zeit zu Zeit grenzwertig zu sein scheinen oder sogar offen gegen Annahmen verstoßen. Immerhin gibt es Millionen von Artikeln, die z. B. Behandlungseffekte in 3 kleinen Gruppen von Mäusen mit etwa 6 bis 7 Mäusen in jeder Gruppe bewerten. Wie kann man wissen, ob Anova-Annahmen in einem solchen Papier erfüllt sind?
Ich habe eine große Anzahl von Artikeln speziell auf dem Gebiet der kardiovaskulären Pathophysiologie durchgesehen und bin mir eigentlich nie hundertprozentig sicher, ob ich den Daten in einem Artikel, den ich lese, vertrauen kann oder nicht. Aber für mich als Rezensent neige ich eigentlich dazu zu denken, dass Probleme dabei entstehen können vielen wissenschaftlichen Ebenen auftreten können, dass es wahrscheinlich wenig Sinn macht, zu tief in die Statistik einzudringen - schließlich könnte der gesamte Datensatz fabriziert werden, und ich würde es nie tun in einer Million Jahre erzählen zu können. Dementsprechend wird es in diesem Arbeitsbereich immer ein Vertrauenselement geben, das die Forscher niemals missbrauchen dürfen.
Der realistischste Vorschlag, den ich machen möchte, ist, dass Sie alles sorgfältig durchdenken müssen, bevor Sie ihn einreichen, und sicherstellen, dass Sie in der Lage sind, alle Fragen der Prüfer wahrheitsgemäß zu beantworten. Solange Sie Ihr Bestes gegeben haben, sind Ihre Absichten ehrlich und Sie schlafen nachts gut. Ich denke, Sie sollten in Ordnung sein.
quelle