Sollten die Daten vor der Anwendung von t-SNE zentriert und skaliert werden?

18

Einige Funktionen meiner Daten haben große Werte, während andere Funktionen viel kleinere Werte haben.

Müssen die Daten vor dem Anwenden von t-SNE zentriert und skaliert werden, um eine Verzerrung in Richtung der größeren Werte zu vermeiden?

Ich verwende die sklearn.manifold.TSNE-Implementierung von Python mit der standardmäßigen euklidischen Distanzmetrik.

stmax
quelle

Antworten:

18

Das Zentrieren sollte keine Rolle spielen, da der Algorithmus nur auf Entfernungen zwischen Punkten angewendet wird. Eine Neuskalierung ist jedoch erforderlich, wenn die verschiedenen Dimensionen mit gleicher Wichtigkeit behandelt werden sollen, da die 2-Norm stärker von Dimensionen mit großer Varianz beeinflusst wird.

jon_simon
quelle