Ein üblicher Vorverarbeitungsschritt für maschinelle Lernalgorithmen ist das Aufhellen von Daten.
Es scheint, dass es immer gut ist, das Weißmachen durchzuführen, da die Daten dekorreliert werden, was die Modellierung vereinfacht.
Wann wird Bleaching nicht empfohlen?
Hinweis: Ich beziehe mich auf die Dekorrelation der Daten.
Antworten:
Pre-Whitening ist eine Verallgemeinerung der Merkmalsnormalisierung, die die Eingabe unabhängig macht, indem sie gegen eine transformierte Eingabekovarianzmatrix transformiert wird. Ich kann nicht verstehen, warum das eine schlechte Sache sein kann.
Eine schnelle Suche ergab jedoch: "Die Durchführbarkeit der Datenaufhellung zur Verbesserung der Leistung von Wetterradar" ( pdf ).
Ich bin nicht gut genug ausgebildet, um dies zu kommentieren. Vielleicht ist die Antwort auf Ihre Frage, dass das Aufhellen immer gut ist, aber es gibt bestimmte Fallstricke (z. B. bei Zufallsdaten funktioniert es nicht gut, wenn dies über die Gaußsche Autokorrelationsfunktion erfolgt).
quelle
Erstens denke ich, dass Dekorrelation und Aufhellung zwei getrennte Verfahren sind.
Um die Daten zu dekorrelieren, müssen wir sie transformieren, damit die transformierten Daten eine diagonale Kovarianzmatrix haben. Diese Transformation kann durch Lösen des Eigenwertproblems gefunden werden. Wir finden die Eigenvektoren und zugehörigen Eigenwerte der Kovarianzmatrix durch LösenΣ=XX′
Dabei ist eine Diagonalmatrix mit den Eigenwerten als diagonalen Elementen.Λ
Die Matrix somit diagonalisiert die Kovarianzmatrix X . Die Spalten von Φ sind die Eigenvektoren der Kovarianzmatrix.Φ X Φ
Wir können die diagonalisierte Kovarianz auch schreiben als:
Now the covariance ofx†i is not only diagonal, but also uniform (white), since the covariance of x†i , E(x†ix†i′)=I .
Following on from this, I can see two cases where this might not be useful. The first is rather trivial, it could happen that the scaling of data examples is somehow important in the inference problem you are looking at. Of course you could the eigenvalues as an additional set of features to get around this. The second is a computational issue: firstly you have to compute the covariance matrixΣ , which may be too large to fit in memory (if you have thousands of features) or take too long to compute; secondly the eigenvalue decomposition is O(n^3) in practice, which again is pretty horrible with a large number of features.
And finally, there is a common "gotcha" that people should be careful of. One must be careful that you calculate the scaling factors on the training data, and then you use equations (2) and (3) to apply the same scaling factors to the test data, otherwise you are at risk of overfitting (you would be using information from the test set in the training process).
Source: http://courses.media.mit.edu/2010fall/mas622j/whiten.pdf
quelle
From http://cs231n.github.io/neural-networks-2/
Unfortunately I'm not educated enough to comment further on this.
quelle