Ich verstehe aus Hintons Aufsatz, dass T-SNE gute Arbeit bei der Wahrung lokaler Ähnlichkeiten und gute Arbeit bei der Wahrung der globalen Struktur leistet (Clusterbildung).
Es ist mir jedoch nicht klar, ob Punkte, die in einer 2D-t-sne-Visualisierung näher erscheinen, als "ähnlichere" Datenpunkte angenommen werden können. Ich verwende Daten mit 25 Funktionen.
Kann ich als Beispiel annehmen, dass die blauen Datenpunkte den grünen ähnlicher sind, insbesondere dem größten Grünpunkt-Cluster? Oder, anders gefragt, ist es in Ordnung anzunehmen, dass blaue Punkte dem grünen im nächsten Cluster ähnlicher sind als den roten im anderen Cluster? (ohne Berücksichtigung der grünen Punkte im rot-ish Cluster)
Wenn man andere Beispiele betrachtet, wie die, die bei sci-kit learn Manifold learning vorgestellt werden, scheint es richtig, dies anzunehmen, aber ich bin nicht sicher, ob dies statistisch korrekt ist.
BEARBEITEN
Ich habe die Entfernungen vom ursprünglichen Datensatz manuell berechnet (die mittlere paarweise euklidische Entfernung) und die Visualisierung repräsentiert tatsächlich eine proportionale räumliche Entfernung zum Datensatz. Ich möchte jedoch wissen, ob dies von der ursprünglichen mathematischen Formulierung von t-sne und nicht nur von einem Zufall zu erwarten ist.
quelle
Antworten:
Ich würde t-SNE als eine intelligente probabilistische Anpassung der lokal linearen Einbettung präsentieren. In beiden Fällen versuchen wir, Punkte aus einem hochdimensionalen Raum in einen kleinen zu projizieren. Diese Projektion erfolgt durch Optimierung der Einhaltung lokaler Distanzen (direkt mit LLE, Vorproduktion einer Wahrscheinlichkeitsverteilung und Optimierung der KL-Divergenz mit t-SNE). Wenn Ihre Frage dann lautet, ob sie globale Entfernungen einhält, lautet die Antwort nein. Dies hängt von der "Form" Ihrer Daten ab (wenn die Verteilung glatt ist, sollten die Entfernungen irgendwie beibehalten werden).
t-SNE funktioniert auf der Schweizer Rolle (Ihrem "S" 3D-Bild) nicht gut, und Sie können sehen, dass im 2D-Ergebnis die mittleren gelben Punkte im Allgemeinen näher an den roten als an den blauen Punkten liegen perfekt im 3D-Bild zentriert sind).
Ein weiteres gutes Beispiel für die Funktionsweise von t-SNE ist das Clustering handgeschriebener Ziffern. Beispiele finden Sie unter diesem Link: https://lvdmaaten.github.io/tsne/
quelle