Ich sehe oft Leute, die eine Dimension / ein Feature eines Datensatzes auf einen Mittelwert von Null setzen, indem sie den Mittelwert aus allen Elementen entfernen. Aber ich habe nie verstanden, warum das so ist? Was bewirkt dies als Vorverarbeitungsschritt? Verbessert es die Klassifizierungsleistung? Hilft es, etwas über den Datensatz zu beantworten? Hilft es bei der Visualisierung, die Daten zu verstehen?
data-mining
dataset
Jack Twain
quelle
quelle
Antworten:
Einige Fälle, in denen "Zentrieren der Daten auf ihren Mittelwert" (im Folgenden nur "Entdeutung") nützlich ist:
1) Visuelle Erkennung, ob eine Verteilung "dieselbe" wie eine andere Verteilung ist, nur dass sie auf der realen Linie verschoben wurde. Wenn beide Verteilungen den Mittelwert Null haben, wird diese visuelle Prüfung erheblich vereinfacht. Wenn sich der Mittelwert stark unterscheidet, ist es manchmal unpraktisch, sie auf demselben Diagramm anzuzeigen. Denken Sie an zwei normale Wohnmobile, sagen Sie aN( 10 , 4 ) und ein N( 100 , 4 ) . Die Formen der Dichtegraphen sind identisch, nur ihre Position auf der realen Linie unterscheidet sich. Stellen Sie sich nun vor, dass Sie die Graphen ihrer Dichtefunktionen haben, aber ihre Varianz nicht kennen. Wenn Sie die Bedeutung aufheben, wird das eine Diagramm dem anderen überlagert.
2) Vereinfachen Sie die Berechnung höherer Momente: Obwohl das Hinzufügen einer Konstanten zu einer Zufallsvariablen weder deren Varianz noch deren Kovarianz mit einer anderen Zufallsvariablen ändert, müssen Sie die detaillierten Berechnungen aufschreiben, wenn Sie einen Mittelwert ungleich Null haben. Sie müssen alle Bedingungen schreiben und zeigen, dass sie aufheben. Wenn die Variablen nicht gemeint sind, sparen Sie viele unnötige Berechnungen.
3) Zufällige Variablen, die auf ihren Mittelwert zentriert sind, sind Gegenstand des zentralen Grenzwertsatzes
4) Abweichungen vom "Durchschnittswert" sind in vielen Fällen von Interesse, und ob sie eher "über- oder unterdurchschnittlich" sind als die tatsächlichen Werte der Zufallsvariablen. "Übersetzen" (visuell und / oder rechnerisch) von Abweichungen unter dem Mittelwert als negative Werte und von Abweichungen über dem Mittelwert als positive Werte macht die Nachricht klarer und stärker.
Weitere Informationen finden Sie auch unter
Wann sollten Sie bei der Durchführung einer multiplen Regression Ihre Prädiktorvariablen zentrieren und wann sollten Sie sie standardisieren?
Daten in mehrfacher Regression zentrieren
Wenn Sie im Lebenslauf nach "zentrierten Daten" suchen, finden Sie auch andere interessante Beiträge.
quelle
Aus praktischen Gründen ist es auch vorteilhaft, die Daten zu zentrieren, wenn beispielsweise neuronale Netze trainiert werden.
Die Idee ist, dass zum Trainieren eines neuronalen Netzwerks ein nicht-konvexes Optimierungsproblem unter Verwendung eines gradientenbasierten Ansatzes gelöst werden muss. Die Gradienten werden mittels Backpropagation berechnet. Diese Verläufe hängen nun von den Eingaben ab, und durch Zentrieren der Daten werden mögliche Verzerrungen in den Verläufen beseitigt.
Konkret wird ein Mittelwert ungleich Null in einem großen Eigenwert widergespiegelt, was bedeutet, dass die Gradienten in einer Richtung tendenziell größer sind als in anderen (Bias), wodurch der Konvergenzprozess verlangsamt wird, was schließlich zu schlechteren Lösungen führt.
quelle
Um das, was Alecos gesagt hat, zu ergänzen, was sehr gut ist, ist es äußerst wichtig, Ihre Daten auf Null zu zentrieren, wenn Sie Bayes'sche Statistiken oder Regularisierung verwenden, da die Daten andernfalls mit dem Achsenabschnitt korreliert werden können, wodurch Regularisierung nicht das macht, was Sie normalerweise wollen.
Indem Sie den Datenmittelwert auf Null setzen, können viele nicht diagonale Terme der Kovarianzmatrix verkleinert werden, sodass die Daten leichter interpretierbar und die Koeffizienten direkter aussagekräftiger werden, da jeder Koeffizient in erster Linie auf diesen Faktor angewendet wird und weniger durch Korrelation mit wirkt andere Faktoren.
quelle