Die Meldung nach der ANOVA-Tabelle nach der K-Mittelwert-Analyse zeigt, dass Signifikanzniveaus nicht als Test gleicher Mittelwerte betrachtet werden sollten, da die Cluster-Lösung basierend auf dem euklidischen Abstand abgeleitet wurde, um den Abstand zu maximieren. Welchen Test sollte ich verwenden, um zu zeigen, ob sich die Mittelwerte der Clustervariablen zwischen den Clustern unterscheiden? Ich habe diese Warnung in der von k-means ausgegebenen ANOVA-Tabelle gesehen, aber in einigen Referenzen sehe ich, dass Post-Hoc-ANOVA-Tests ausgeführt werden. Sollte ich k-mean ANOVA-Ausgaben ignorieren und eine Einweg-ANOVA mit Post-hoc-Tests ausführen und sie auf herkömmliche Weise interpretieren? Oder kann ich nur einen Hinweis auf die Größe des F-Werts geben und welche Variablen haben mehr zum Unterschied beigetragen? Eine weitere Verwirrung ist, dass Cluster-Variablen nicht normal verteilt sind, was gegen die Annahme von ANOVA verstößt. dann könnte ich Kruskal-Wallis nicht-parametrischen Test verwenden, aber es hat die Annahme über die gleichen Verteilungen. Die Inter-Cluster-Verteilungen für die spezifischen Variablen scheinen nicht gleich zu sein, einige sind positiv verzerrt, andere negativ ... Ich habe 1275 große Stichproben, 5 Cluster, 10 Cluster-Variablen, gemessen in PCA-Scores.
14
Antworten:
Nein!
Sie dürfen nicht dieselben Daten verwenden, um 1) Clustering durchzuführen und 2) signifikante Unterschiede zwischen den Punkten in den Clustern zu suchen. Selbst wenn die Daten keine tatsächliche Struktur aufweisen, wird durch die Clusterbildung eine Struktur durch Gruppieren von Punkten in der Nähe festgelegt. Dies verringert die gruppeninterne Varianz und erhöht die gruppenübergreifende Varianz, wodurch Sie zu falsch positiven Ergebnissen neigen.
Dieser Effekt ist überraschend stark. Hier sind die Ergebnisse einer Simulation , die 1000 Datenpunkte aus einer Standardnormalverteilung zeichnet. Wenn wir die Punkte vor dem Ausführen der ANOVA zufällig einer von fünf Gruppen zuordnen, stellen wir fest, dass die p-Werte gleichmäßig verteilt sind: 5% der Läufe sind signifikant auf der (unkorrigierten) 0,05-Ebene, 1% auf der 0,01-Ebene. usw. Mit anderen Worten, es gibt keine Wirkung. Wenn jedoch mean verwendet wird, um die Daten in 5 Gruppen zu gruppieren, stellen wir praktisch jedes Mal einen signifikanten Effekt fest, obwohl die Daten keine tatsächliche Struktur aufweisen .k
Eine ANOVA hat hier nichts Besonderes - Sie würden ähnliche Effekte bei Verwendung nicht parametrischer Tests, logistischer Regression usw. feststellen. Im Allgemeinen ist die Überprüfung der Leistung eines Clustering-Algorithmus schwierig, insbesondere wenn die Daten nicht beschriftet sind. Es gibt jedoch einige Ansätze zur "internen Validierung" oder zur Messung der Clusterqualität ohne Verwendung externer Datenquellen. Sie konzentrieren sich im Allgemeinen auf die Kompaktheit und Trennbarkeit der Cluster. Dieser Aufsatz von Lui et al. (2010) könnte ein guter Anfang sein.
quelle
Ihr eigentliches Problem ist das Aufspüren von Daten. Sie können ANOVA oder KW nicht anwenden, wenn die Beobachtungen anhand des Eingabedatensatzes selbst Gruppen (Clustern) zugeordnet wurden. Was Sie tun können, ist die Verwendung einer Gap-Statistik , um die Anzahl der Cluster zu schätzen.
Auf der anderen Seite sind die abgeschnittenen p-Werte nach unten vorgespannt. Wenn also das ANOVA- oder KW-Testergebnis nicht signifikant ist, ist der "wahre" p-Wert noch größer und Sie können entscheiden, die Cluster zusammenzuführen.
quelle
Ich denke, Sie könnten einen solchen Ansatz anwenden (dh die Statistiken wie F-Statistiken oder t-Statistiken oder was auch immer verwenden), wenn Sie die üblichen Nullverteilungen wegwerfen .
Sie müssen lediglich die Situation simulieren, in der Ihr Nullwert wahr ist, die gesamte Prozedur (Clustering usw.) anwenden und dann jedes Mal die jeweilige Statistik berechnen. Bei vielen Simulationen erhalten Sie eine Verteilung für die Statistik unter der Null, mit der Ihr Stichprobenwert verglichen werden kann. Indem Sie das Daten-Snooping in die Berechnung einbeziehen, berücksichtigen Sie dessen Wirkung.
[Alternativ könnte man vielleicht einen Resampling-basierten Test entwickeln (ob auf Permutation / Randomisierung oder Bootstrapping basierend).]
quelle