Ist es wichtig, eine Normalisierung für SVM und Random Forest durchzuführen?

29

Jede Dimension meiner Features hat einen anderen Wertebereich. Ich möchte wissen, ob es wichtig ist, diesen Datensatz zu normalisieren.

user22062
quelle

Antworten:

29

Die Antwort auf Ihre Frage hängt davon ab, welche Ähnlichkeits- / Distanzfunktion Sie verwenden möchten (in SVMs). Wenn es sich um eine einfache (ungewichtete) euklidische Entfernung handelt, geben Sie einigen Funktionen unabsichtlich mehr Bedeutung als anderen, wenn Sie Ihre Daten nicht normalisieren.

Wenn Ihre erste Dimension beispielsweise zwischen 0 und 10 liegt und Ihre zweite Dimension zwischen 0 und 1 liegt, trägt eine Differenz von 1 in der ersten Dimension (nur ein Zehntel des Bereichs) so viel zur Entfernungsberechnung bei wie zwei völlig unterschiedliche Werte in die zweite Dimension (0 und 1). Auf diese Weise übertreiben Sie kleine Unterschiede in der ersten Dimension. Sie können sich natürlich eine benutzerdefinierte Abstandsfunktion ausdenken oder Ihre Abmessungen nach einer Schätzung eines Experten gewichten. Dies führt jedoch zu einer Reihe von einstellbaren Parametern, die von der Dimensionalität Ihrer Daten abhängen. In diesem Fall ist die Normalisierung ein einfacher Weg (obwohl nicht unbedingt ideal), da Sie zumindest loslegen können.

Schließlich können Sie auch für SVMs eine Ähnlichkeitsfunktion anstelle einer Distanzfunktion erstellen und diese als Kernel einbinden (technisch muss diese Funktion positiv definierte Matrizen generieren). Diese Funktion kann beliebig aufgebaut werden und die Unterschiede in den Funktionsbereichen berücksichtigen.

Bei zufälligen Wäldern spielen die Reichweiten dagegen keine Rolle, da ein Merkmal nie in seiner Größe mit anderen Merkmalen verglichen wird. Es ist nur der Bereich eines Features, der in jeder Phase aufgeteilt wird.

Ansari
quelle
12

Random Forest ist gegenüber monotonen Transformationen einzelner Features unveränderlich. Übersetzungen oder Skalierungen nach Merkmalen ändern nichts an der Zufallsgesamtstruktur. SVM funktioniert wahrscheinlich besser, wenn Ihre Features ungefähr dieselbe Größe haben, es sei denn, Sie wissen im Voraus, dass einige Features viel wichtiger sind als andere. In diesem Fall ist es in Ordnung, dass sie eine größere Größe haben.

rrenaud
quelle