Kann k-means für nicht normalverteilte Daten verwendet werden?

9

Ich habe viele Artikel gelesen, in denen k-means mit vielen Datensätzen getestet wird, die normalerweise nicht wie der Iris-Datensatz verteilt sind, und um gute Ergebnisse zu erzielen. Da ich verstehe, dass k-means für normalverteilte Daten ist, warum wird k-means für nicht normalverteilte Daten verwendet?

In der folgenden Veröffentlichung wurden beispielsweise die Zentroide von k-means basierend auf einer Normalverteilungskurve modifiziert und der Algorithmus mit dem nicht normalverteilten Iris-Datensatz getestet.

Fast alle Lieferanten (genau 99,73%) haben Punkt-zu-Schwerpunkt-Abstände innerhalb von 3 Standardabweichungen (𝜎) vom Bevölkerungsmittelwert.

Gibt es etwas, das ich hier nicht verstehe?

Benutzer
quelle
1
Was ist, wenn dies einfach ein ziemlich schlechtes Papier ist? Klingt für mich nicht nach einem erstklassigen Veranstaltungsort.
Hat aufgehört - Anony-Mousse
1
Der Behauptung, die Sie aus dem Papier zitieren, geht die Annahme voraus, dass die Daten normal sind. Was in diesem Artikel unnötig einschränkend ist, ist die Behauptung, dass k-means Normalität annimmt, was darauf hindeutet, dass es kein zufriedenstellendes Clustering-Verfahren sein könnte, wenn die Daten nicht gemeinsam normal sind.
CloseToC
Das Papier wird in IEEE
Benutzer
1
Meine Frage bezog sich auf das Experimentieren des Iris-Datensatzes im selben Artikel. Da ich bemerke, dass der Iris-Datensatz nicht normal verteilt ist. kaggle.com/saurabh00007/iriscsv
Benutzer
Haben Sie überprüft, wie viel Prozent der Lieferanten im irisDatensatz tatsächlich innerhalb von 3 SD der Zentroide liegen? Es ist wahrscheinlich immer noch wahr, es folgt einfach nicht automatisch , wenn die Verteilung nicht normal ist. Vermutlich müssen die Autoren nur einen Einzeiler hinzufügen, um dies zu verdeutlichen.
smci

Antworten:

12

Hier ist das vollständige Zitat:

K-means, eine Instanz des Gaußschen Mischungsmodells (GMM), geht von einer Gaußschen Datenverteilung aus [20] [26]. Daraus folgt, dass fast alle Lieferanten (genau 99,73%) innerhalb von 3 Standardabweichungen Punkt-zu-Schwerpunkt-Abstände haben (σ) aus der Bevölkerung bedeuten.

Es erscheint in Abschnitt IV.A.

Die Anwendung auf den Iris-Datensatz, der, wie Sie bemerken, nicht normal verteilt ist, wird in Abschnitt V ("Experimente") angezeigt.

Ich sehe kein logisches Problem darin, zuerst die Eigenschaften eines Algorithmus unter bestimmten Annahmen wie der Normalität zu notieren und sie dann in Fällen zu testen, in denen die Annahme nicht gültig ist.

Und natürlich kann k-means auf jeden Datensatz angewendet werden. Ob es nützliche Ergebnisse liefert, ist eine andere Sache.

Stephan Kolassa
quelle
Vielen Dank, die Annahme, dass der Punkt innerhalb der Standardabweichung bedeutet, kann in einem nicht normalverteilten Datensatz akzeptabel sein.
Benutzer
Dies hängt von der Verteilung ab, die Sie annehmen.
Stephan Kolassa
Kannst du mehr erklären?. Wenn ich einen verzerrten, rechtsverteilten Datensatz habe, kann ich Ausreißerwerte> Mittelwert + 4 Standard hinzufügen und die gleiche Annahme von Papier befolgen, um ihn zu erkennen?
Benutzer
Wenn Sie mit einer Verteilungsannahme beginnen, können Sie nicht einfach "Ausreißer hinzufügen". Die Wahrscheinlichkeit von "Ausreißern" hängt von der von Ihnen angenommenen Verteilung ab. (Was ein "Ausreißer" ist, ist auch oft fraglich.) Wenn etwas über das Papier unklar ist, wäre es wahrscheinlich besser, eine neue Frage zu formulieren.
Stephan Kolassa
In diesem Dokument werden jedem Feature Fehler hinzugefügt (5% bis 20% des Datensatzes). Falls etwas über dieses Papier nicht klar ist, werde ich eine andere Frage stellen. Vielen Dank.
Benutzer
7

Ich bin mir nicht sicher, was die Frage genau ist, aber die Standardabweichung ist nicht nur für Normalverteilungen definiert. Es ist eine Maßnahme, die für alle Datenverteilungen relevant ist. Je weiter Sie vom Mittelwert entfernt sind (in Bezug auf Standard), desto unwahrscheinlicher ist es, dass dieser Punkt auftritt. Das einzige Besondere an der Normalverteilung in Bezug auf die Standardabweichung ist, dass Sie die Wahrscheinlichkeit kennen, dass ein Punkt innerhalb von 1, 2 oder 3 Standardabweichungen auftritt (z. B. wissen Sie, dass ein Punkt eine Wahrscheinlichkeit von 99,7% hat, innerhalb zu liegen±3 Standardabweichungen vom Mittelwert).

Dies bedeutet jedoch nicht, dass die Standardabweichung für andere (möglicherweise unbekannte) Verteilungen irrelevant ist. Es ist immer noch relevant, aber Sie kennen die damit verbundene Wahrscheinlichkeit nicht.

CaucM
quelle
ok das meine ich, aber in diesem Papier ist der Datensatz nicht normal verteilt und nimmt immer noch Daten an (99,7% liegen innerhalb von ± 3 Standardabweichungen vom Mittelwert). Meine Frage bezog sich auf diesen Punkt
Benutzer
Ich denke, du hast recht. Diese Annahme ist meiner Meinung nach falsch.
CaucM
6
The farther away you are from the mean (in terms of std) the more unlikely this point is to occur.Dies gilt möglicherweise nicht für multimodale Verteilungen.
JAD
Sie wissen, wie wahrscheinlich es ist, dass ein Ereignis innerhalb von 1, 2 oder 3 Standardabweichungen auch für andere Distributionen auftritt. Das ist also nichts Besonderes. Eine Besonderheit ist, dass für einen bestimmten Mittelwert und eine bestimmte Varianz die Normalverteilung diejenige mit der höchsten Entropie ist. Wenn Sie also nur Mittelwert und Varianz kennen, wählen Sie sie nach dem Prinzip der maximalen Entropie aus. En.wikipedia.org/wiki / Principle_of_maximum_entropy
etarion
Diese Regel kann für andere Distributionen angewendet werden?
Benutzer