Verwendung selbstorganisierender Karten zur Reduzierung der Dimensionalität

8

In den letzten Tagen habe ich einige Untersuchungen zu selbstorganisierenden Karten für ein Projekt in der Schule durchgeführt. Ich habe verstanden, dass selbstorganisierende Karten verwendet werden können, um die Dimensionalität Ihrer Daten zu verringern. Ich verstehe jedoch nicht, wie das funktioniert. Angenommen, Sie haben ein 10x10-Netzwerk von Neuronen in einem SOM und Ihre Eingabe ist 25-dimensional. Nach meinem Verständnis würden Sie also für jedes Neuron, das ebenfalls 25D ist, einen Merkmalsvektor erstellen. Wenn das Training abgeschlossen ist, erhalten Sie 100 25D-Vektoren. Wie reduziert dies genau die Dimensionen der Daten? Soll ich mich mit der Position der Neuronen befassen?

BEARBEITEN: Ich habe die Frage zur Reduzierung der Dimensionalität mithilfe einer selbstorganisierenden Karte bereits gelesen , aber ich glaube nicht, dass sie die Frage beantwortet, die ich habe.

user1231745
quelle

Antworten:

12

Die selbstorganisierende Karte (SOM) ist ein raumfüllendes Raster, das a diskretisierte Dimensionsreduzierung der Daten ermöglicht.

Sie beginnen mit einem hochdimensionalen Raum von Datenpunkten und einem beliebigen Gitter, das sich in diesem Raum befindet. Das Raster kann eine beliebige Dimension haben, ist jedoch normalerweise kleiner als die Dimension Ihres Datasets und normalerweise 2D, da dies leicht zu visualisieren ist.

Für jedes Datum in Ihrem Datensatz finden Sie den nächsten Gitterpunkt und "ziehen" diesen Gitterpunkt in Richtung des Datensatzes. Sie ziehen auch jeden der benachbarten Gitterpunkte in Richtung der neuen Position des ersten Gitterpunkts. Zu Beginn des Prozesses ziehen Sie viele Nachbarn zum Datenpunkt. Später in diesem Prozess, wenn Ihr Raster beginnt, den Raum zu füllen, bewegen Sie weniger Nachbarn, und dies dient als eine Art Feinabstimmung. Dieser Prozess führt zu einer Reihe von Punkten im Datenraum, die relativ gut zur Form des Raums passen, aber auch als Gitter mit niedrigeren Dimensionen behandelt werden können.

Dieser Prozess wird durch zwei Bilder von Seite 1468 von Kohonens Papier von 1990 gut erklärt :

Dieses Bild zeigt eine eindimensionale Karte in einer gleichmäßigen Verteilung in einem Dreieck. Das Gitter beginnt als Durcheinander in der Mitte und wird allmählich in eine Kurve gezogen, die das Dreieck angesichts der Anzahl der Gitterpunkte ziemlich gut ausfüllt:

Eindimensionale SOM

Der linke Teil dieses zweiten Bildes zeigt ein 2D-SOM-Gitter, das den durch die Kaktusform links definierten Raum genau ausfüllt:

2D Kaktus SOM

Es gibt ein Video des SOM-Prozesses unter Verwendung eines 2D-Rasters in einem 2D-Raum und in einem 3D-Raum auf Youtube.

Jetzt hat jeder der ursprünglichen Datenpunkte im Raum einen nächsten Nachbarn, dem er zugewiesen ist. Das Gitter ist somit das Zentrum von Clustern von Datenpunkten. Das Gitter liefert die Dimensionsreduktion.

Hier ist ein Vergleich der Dimensionsreduktion mithilfe der Hauptkomponentenanalyse (PCA) von der SOM-Seite auf Wikipedia :

Reduzierung der SOM-Dimensionalität von en.wikipedia.org/wiki/File:SOMsPCA.PNG

Es ist sofort ersichtlich, dass das eindimensionale SOM eine viel bessere Anpassung an die Daten bietet und über 93% der Varianz erklärt, verglichen mit 77% für PCA. Soweit mir bekannt ist, gibt es jedoch keine einfache Möglichkeit, die verbleibende Varianz zu erklären, wie dies bei PCA der Fall ist (unter Verwendung zusätzlicher Dimensionen), da es keine saubere Möglichkeit gibt, die Daten um das diskrete SOM-Gitter herum zu entpacken.

naught101
quelle
2

Trotz der Tatsache, dass Sie am Ende mehr Knoten als Feature-Dimensionen haben, reduzieren Sie immer noch die Dimensionalität. Denken Sie daran, dass Sie anfangs einen 25-dimensionalen Raum hatten und jetzt diese 25 Dimensionen in nur 2 Dimensionen projiziert haben. Anstatt den gesamten kontinuierlichen 25-dimensionalen Raum darzustellen, bietet Ihnen das SOM die "wichtigsten" Punkte in diesem Raum.

felipeduque
quelle