Ich arbeite mit vielen Algorithmen: RandomForest, DecisionTrees, NaiveBayes, SVM (Kernel = linear und rbf), KNN, LDA und XGBoost. Alle bis auf SVM waren ziemlich schnell. Dann wurde mir klar, dass die Feature-Skalierung erforderlich ist, um schneller arbeiten zu können. Dann begann ich mich zu fragen, ob ich dasselbe für die anderen Algorithmen tun sollte.
17
Antworten:
Im Allgemeinen reagieren Algorithmen, die Entfernungen oder Ähnlichkeiten (z. B. in Form eines Skalarprodukts) zwischen Datenproben ausnutzen , wie z. B. k-NN und SVM, empfindlich auf Merkmalstransformationen.
Auf grafischen Modellen basierende Klassifikatoren wie Fisher LDA oder Naive Bayes sowie Decision Trees und Tree-based Ensemble-Methoden (RF, XGB) sind für die Skalierung von Features nicht relevant. Es ist jedoch möglicherweise eine gute Idee, Ihre Daten neu zu skalieren / zu standardisieren .
quelle
Hier ist eine Liste, die ich auf http://www.dataschool.io/comparing-supervised-learning-algorithms/ gefunden habe und die angibt, welcher Klassifikator eine Feature-Skalierung benötigt :
Vollständige Tabelle:
Beim k-means Clustering müssen Sie auch Ihre Eingabe normalisieren .
Stochastic Gradient Descent berücksichtigt nicht nur, ob der Klassifikator Entfernungen oder Ähnlichkeiten wie Yell Bond ausnutzt, sondern reagiert auch empfindlich auf die Merkmalsskalierung (da die Lernrate in der Aktualisierungsgleichung von Stochastic Gradient Descent für jeden Parameter {1} gleich ist):
Verweise:
quelle
log transformation / Box-Cox
und dann auch tunnormalise the resultant data to get limits between 0 and 1
? Also werde ich die Log-Werte normalisieren. Berechnen Sie dann die SVM anhand der kontinuierlichen und kategorialen (0-1) Daten zusammen? Prost für jede Hilfe, die Sie leisten können.Und diese Diskussion für den Fall der linearen Regression sagt Ihnen, worauf Sie in anderen Fällen achten sollten: Gibt es eine Invarianz oder nicht? Im Allgemeinen zeigen Methoden, die von Abstandsmaßen zwischen den Prädiktoren abhängen, keine Invarianz , daher ist Standardisierung wichtig. Ein weiteres Beispiel ist das Clustering.
quelle