Ich habe viele Artikel gelesen, in denen k-means mit vielen Datensätzen getestet wird, die normalerweise nicht wie der Iris-Datensatz verteilt sind, und um gute Ergebnisse zu erzielen. Da ich verstehe, dass k-means für normalverteilte Daten ist, warum wird k-means für nicht normalverteilte Daten verwendet?
In der folgenden Veröffentlichung wurden beispielsweise die Zentroide von k-means basierend auf einer Normalverteilungskurve modifiziert und der Algorithmus mit dem nicht normalverteilten Iris-Datensatz getestet.
Fast alle Lieferanten (genau 99,73%) haben Punkt-zu-Schwerpunkt-Abstände innerhalb von 3 Standardabweichungen (𝜎) vom Bevölkerungsmittelwert.
Gibt es etwas, das ich hier nicht verstehe?
- Olukanmi & Twala (2017). K-means-scharf: Modifiziertes Schwerpunkt-Update für ausreißerstabiles k-means-Clustering
- Iris-Datensatz
quelle
iris
Datensatz tatsächlich innerhalb von 3 SD der Zentroide liegen? Es ist wahrscheinlich immer noch wahr, es folgt einfach nicht automatisch , wenn die Verteilung nicht normal ist. Vermutlich müssen die Autoren nur einen Einzeiler hinzufügen, um dies zu verdeutlichen.Antworten:
Hier ist das vollständige Zitat:
Es erscheint in Abschnitt IV.A.
Die Anwendung auf den Iris-Datensatz, der, wie Sie bemerken, nicht normal verteilt ist, wird in Abschnitt V ("Experimente") angezeigt.
Ich sehe kein logisches Problem darin, zuerst die Eigenschaften eines Algorithmus unter bestimmten Annahmen wie der Normalität zu notieren und sie dann in Fällen zu testen, in denen die Annahme nicht gültig ist.
Und natürlich kann k-means auf jeden Datensatz angewendet werden. Ob es nützliche Ergebnisse liefert, ist eine andere Sache.
quelle
Ich bin mir nicht sicher, was die Frage genau ist, aber die Standardabweichung ist nicht nur für Normalverteilungen definiert. Es ist eine Maßnahme, die für alle Datenverteilungen relevant ist. Je weiter Sie vom Mittelwert entfernt sind (in Bezug auf Standard), desto unwahrscheinlicher ist es, dass dieser Punkt auftritt. Das einzige Besondere an der Normalverteilung in Bezug auf die Standardabweichung ist, dass Sie die Wahrscheinlichkeit kennen, dass ein Punkt innerhalb von 1, 2 oder 3 Standardabweichungen auftritt (z. B. wissen Sie, dass ein Punkt eine Wahrscheinlichkeit von 99,7% hat, innerhalb zu liegen±3 Standardabweichungen vom Mittelwert).
Dies bedeutet jedoch nicht, dass die Standardabweichung für andere (möglicherweise unbekannte) Verteilungen irrelevant ist. Es ist immer noch relevant, aber Sie kennen die damit verbundene Wahrscheinlichkeit nicht.
quelle
The farther away you are from the mean (in terms of std) the more unlikely this point is to occur.
Dies gilt möglicherweise nicht für multimodale Verteilungen.