Ich verstehe die Gründe für die Spaltennormalisierung, da dadurch Merkmale gleich gewichtet werden, auch wenn sie nicht auf derselben Skala gemessen werden. In der Literatur zum nächsten Nachbarn werden jedoch häufig sowohl Spalten als auch Zeilen normalisiert. Was ist die Zeilennormalisierung für / warum Zeilen normalisieren? Wie wirkt sich das Ergebnis der Zeilennormalisierung speziell auf die Ähnlichkeit / den Abstand zwischen Zeilenvektoren aus?
normalization
distance
similarities
k-nearest-neighbour
Neugier_Lieferer
quelle
quelle
Antworten:
Dies ist ein relativ alter Thread, aber ich bin kürzlich in meiner Arbeit auf dieses Problem gestoßen und bin auf diese Diskussion gestoßen. Die Frage wurde beantwortet, aber ich bin der Meinung, dass die Gefahr der Normalisierung der Zeilen, wenn es sich nicht um die Analyseeinheit handelt (siehe Antwort von @ DJohnson oben), nicht angesprochen wurde.
Der Hauptpunkt ist, dass das Normalisieren von Zeilen für jede nachfolgende Analyse nachteilig sein kann, wie zum Beispiel für den nächsten Nachbarn oder k-Mittel. Der Einfachheit halber werde ich die Antwort speziell für die mittlere Zentrierung der Zeilen beibehalten.
Zur Veranschaulichung werde ich simulierte Gaußsche Daten an den Ecken eines Hyperwürfels verwenden. Zum Glück
R
gibt es dafür eine praktische Funktion (der Code steht am Ende der Antwort). Im 2D-Fall ist es einfach, dass die Daten mit Zeilenmittelwert auf eine Linie fallen, die bei 135 Grad durch den Ursprung verläuft. Die simulierten Daten werden dann unter Verwendung von k-Mitteln mit der richtigen Anzahl von Clustern geclustert. Die Daten und die Clustering-Ergebnisse (in 2D mit PCA auf den Originaldaten visualisiert) sehen folgendermaßen aus (die Achsen für das Diagramm ganz links sind unterschiedlich). Die verschiedenen Formen der Punkte in den Clusterdiagrammen beziehen sich auf die Zuordnung der Grundwahrheitscluster, und die Farben sind das Ergebnis der k-Mittel-Clusterbildung.Die Cluster oben links und unten rechts werden halbiert, wenn die Daten zeilenmittelzentriert sind. Die Abstände nach der Zeilenmittelwertzentrierung werden also verzerrt und sind nicht sehr aussagekräftig (zumindest basierend auf der Kenntnis der Daten).
Nicht so überraschend in 2D, was ist, wenn wir mehr Dimensionen verwenden? Folgendes passiert mit 3D-Daten. Die Clustering-Lösung nach der Zeilenmittelwertzentrierung ist "schlecht".
Und ähnlich mit 4D-Daten (der Kürze halber jetzt gezeigt).
Warum passiert dies? Durch die Zeilenmittelwertzentrierung werden die Daten in einen Bereich verschoben, in dem einige Funktionen näher kommen als sonst. Dies sollte sich in der Korrelation zwischen den Merkmalen widerspiegeln. Schauen wir uns das an (zuerst die Originaldaten und dann die zeilenmittelzentrierten Daten für 2D- und 3D-Fälle).
[,1] [,2] [1,] 1.000 -0.001 [2,] -0.001 1.000 [,1] [,2] [1,] 1 -1 [2,] -1 1 [,1] [,2] [,3] [1,] 1.000 -0.001 0.002 [2,] -0.001 1.000 0.003 [3,] 0.002 0.003 1.000 [,1] [,2] [,3] [1,] 1.000 -0.504 -0.501 [2,] -0.504 1.000 -0.495 [3,] -0.501 -0.495 1.000
Es sieht also so aus, als würde die Zeilenmittelwertzentrierung Korrelationen zwischen den Merkmalen einführen. Wie wird dies durch die Anzahl der Funktionen beeinflusst? Wir können eine einfache Simulation durchführen, um das herauszufinden. Das Ergebnis der Simulation ist unten dargestellt (wieder der Code am Ende).Mit zunehmender Anzahl von Merkmalen scheint sich der Effekt der Zeilenmittelwertzentrierung zumindest in Bezug auf die eingeführten Korrelationen zu verringern. Wir haben für diese Simulation jedoch nur gleichmäßig verteilte Zufallsdaten verwendet (wie es bei der Untersuchung des Fluches der Dimensionalität üblich ist ).
Was passiert also, wenn wir echte Daten verwenden? Da die intrinsische Dimensionalität der Daten um ein Vielfaches geringer ist, trifft der Fluch möglicherweise nicht zu . In einem solchen Fall würde ich vermuten, dass die Zeilenmittelwertzentrierung eine "schlechte" Wahl sein könnte, wie oben gezeigt. Natürlich ist eine genauere Analyse erforderlich, um endgültige Ansprüche geltend zu machen.
Code für die Clustering-Simulation
Code zur Erhöhung der Funktionssimulation
BEARBEITEN
quelle
Es gibt verschiedene Formen der Zeilennormalisierung, und das OP gibt nicht an, welche es im Sinn hat.
Eine spezielle Form der Zeilennormalisierung (Eukledianische Normnormalisierung), bei der jede Zeile normiert ist (geteilt durch ihre Eukledianische Norm), ist sehr beliebt.
Wenn Ihre Originaldaten beispielsweise zentriert sind (wie die schwarzen Punkte in diesem Bild) und Sie eine Zeilennormalisierung darauf anwenden, erhalten Sie die roten Sterne.
Die grünen Punkte repräsentieren eine kleine Anzahl von Ausreißern in den Originaldaten. Wenn Sie die Zeilennormalisierungstransformation auf sie anwenden, erhalten Sie die blauen Sterne.
Sie können dies am deutlichsten erkennen, indem Sie die Formmatrizen (oder Konturellipsen) vergleichen, die nacheinander an die Daten, ihre kontaminierte Version und deren zeilennormalisierte Transformation angepasst sind:
quelle
Es gibt einige feldspezifische Gründe für die Durchführung der Zeilennormalisierung. In der Textanalyse ist es durchaus üblich, einen Text mit dem Histogramm der darin enthaltenen Wörter darzustellen. Ausgehend von der Anzahl der Wörter für jede Zeile wird sie durch die Standardisierung in ein Histogramm umgewandelt.
Und der rechnerische Grund . Wenn Sie mit einer dünnen Matrix arbeiten, können Sie die Daten nicht einfach spaltenweise zentrieren und skalieren. Wenn Sie es in eine dichte Matrix einbetten, können die Daten zu groß werden, um in den Speicher zu passen. Die zeilenweise Skalierung wirkt sich jedoch nicht auf die insgesamt benötigte Speichermenge aus.
quelle
Die Zeilennormalisierung hat einen Namen - ipsative Skalierung -, bei der normalerweise eine Reihe von Merkmalen neu skaliert wird, indem entweder durch den Maximalwert für die Menge dividiert oder der Mittelwert der Merkmale subtrahiert wird. Es gibt viele Gründe für die Wahl dieses Ansatzes zur Transformation von Daten, aber der wichtigste davon ist, dass er die Merkmale in Bezug auf die einzigartigen Merkmale des Individuums (die Zeile oder Analyseeinheit) konditioniert.
quelle