Die selbstorganisierende Karte (SOM) ist ein raumfüllendes Raster, das a diskretisierte Dimensionsreduzierung der Daten ermöglicht.
Sie beginnen mit einem hochdimensionalen Raum von Datenpunkten und einem beliebigen Gitter, das sich in diesem Raum befindet. Das Raster kann eine beliebige Dimension haben, ist jedoch normalerweise kleiner als die Dimension Ihres Datasets und normalerweise 2D, da dies leicht zu visualisieren ist.
Für jedes Datum in Ihrem Datensatz finden Sie den nächsten Gitterpunkt und "ziehen" diesen Gitterpunkt in Richtung des Datensatzes. Sie ziehen auch jeden der benachbarten Gitterpunkte in Richtung der neuen Position des ersten Gitterpunkts. Zu Beginn des Prozesses ziehen Sie viele Nachbarn zum Datenpunkt. Später in diesem Prozess, wenn Ihr Raster beginnt, den Raum zu füllen, bewegen Sie weniger Nachbarn, und dies dient als eine Art Feinabstimmung. Dieser Prozess führt zu einer Reihe von Punkten im Datenraum, die relativ gut zur Form des Raums passen, aber auch als Gitter mit niedrigeren Dimensionen behandelt werden können.
Dieser Prozess wird durch zwei Bilder von Seite 1468 von Kohonens Papier von 1990 gut erklärt :
Dieses Bild zeigt eine eindimensionale Karte in einer gleichmäßigen Verteilung in einem Dreieck. Das Gitter beginnt als Durcheinander in der Mitte und wird allmählich in eine Kurve gezogen, die das Dreieck angesichts der Anzahl der Gitterpunkte ziemlich gut ausfüllt:
Der linke Teil dieses zweiten Bildes zeigt ein 2D-SOM-Gitter, das den durch die Kaktusform links definierten Raum genau ausfüllt:
Es gibt ein Video des SOM-Prozesses unter Verwendung eines 2D-Rasters in einem 2D-Raum und in einem 3D-Raum auf Youtube.
Jetzt hat jeder der ursprünglichen Datenpunkte im Raum einen nächsten Nachbarn, dem er zugewiesen ist. Das Gitter ist somit das Zentrum von Clustern von Datenpunkten. Das Gitter liefert die Dimensionsreduktion.
Hier ist ein Vergleich der Dimensionsreduktion mithilfe der Hauptkomponentenanalyse (PCA) von der SOM-Seite auf Wikipedia :
Es ist sofort ersichtlich, dass das eindimensionale SOM eine viel bessere Anpassung an die Daten bietet und über 93% der Varianz erklärt, verglichen mit 77% für PCA. Soweit mir bekannt ist, gibt es jedoch keine einfache Möglichkeit, die verbleibende Varianz zu erklären, wie dies bei PCA der Fall ist (unter Verwendung zusätzlicher Dimensionen), da es keine saubere Möglichkeit gibt, die Daten um das diskrete SOM-Gitter herum zu entpacken.