Ich lese gerade über die t-SNE-Visualisierungstechnik und es wurde erwähnt, dass einer der Nachteile der Verwendung der Hauptkomponentenanalyse (PCA) zur Visualisierung hochdimensionaler Daten darin besteht, dass nur große paarweise Abstände zwischen den Punkten beibehalten werden. Bedeutungspunkte, die im hochdimensionalen Raum weit voneinander entfernt sind, würden auch im niedrigdimensionalen Unterraum weit voneinander entfernt erscheinen, aber ansonsten würden alle anderen paarweisen Abstände durcheinander geraten.
Könnte mir jemand helfen zu verstehen, warum das so ist und was es grafisch bedeutet?
Antworten:
Betrachten Sie den folgenden Datensatz:
Die PC1-Achse maximiert die Varianz der Projektion. In diesem Fall geht es also offensichtlich diagonal von links unten nach rechts oben:
Der größte paarweise Abstand im Originaldatensatz liegt zwischen diesen beiden Außenpunkten. Beachten Sie, dass es im PC1 fast genau erhalten bleibt. Kleinere, aber immer noch erhebliche paarweise Abstände liegen zwischen jedem der äußeren Punkte und allen anderen Punkten; diese sind auch einigermaßen gut erhalten. Wenn Sie sich jedoch die noch kleineren paarweisen Abstände zwischen den Punkten im zentralen Cluster ansehen, werden Sie feststellen, dass einige von ihnen stark verzerrt sind.
Ich denke, das gibt die richtige Intuition: PCA findet einen niedrigdimensionalen Unterraum mit maximaler Varianz. Maximale Varianz bedeutet, dass der Unterraum tendenziell so ausgerichtet ist, dass er sich den weit vom Zentrum entfernten Punkten nähert. Daher bleiben die größten paarweisen Abstände gut erhalten, die kleineren weniger.
Um es zusammenzufassen:
quelle