Meine Daten bestehen aus mehreren kontinuierlichen Messungen und einigen Dummy-Variablen, die die Jahre darstellen, in denen die Messungen durchgeführt wurden. Jetzt möchte ich ein neuronales Netzwerk mit den Daten lernen. Daher normalisiere ich zScore alle Variablen, einschließlich der Dummy-Variablen. Ich frage mich jedoch, ob dies ein vernünftiger Ansatz ist, da die Normalisierung der Dummy-Variablen ihre Bereiche verändert, was sie vermutlich weniger vergleichbar macht, wenn sich ihre Verteilungen unterscheiden. Andererseits kann es auch fraglich sein, die Dummy-Variablen nicht zu normalisieren, da ihr Einfluss auf die Netzwerkausgabe ohne Normalisierung möglicherweise nicht optimal ist.
Was ist der beste Ansatz, um mit Dummy-Variablen umzugehen, sie zu normalisieren (zScore) oder sie einfach so zu lassen, wie sie sind?
quelle
Antworten:
Eine Normalisierung wäre erforderlich, wenn Sie eine Ähnlichkeitsmessung durchführen.
Dummy-Variablen fungieren von Natur aus als binärer Schalter. Das Codieren als (0,1) oder (-.5, .5) sollte keinen Einfluss auf die Beziehungen haben, die es zu einer abhängigen Variablen aufweist, wenn Sie versuchen, eine Form oder Regression oder Klassifizierung vorzunehmen.
Es wäre wichtig, wenn Sie Clustering durchführen, da es skalierungsabhängig wäre.
quelle
Das Normalisieren von Dummy-Variablen macht keinen Sinn. Normalerweise wird die Normalisierung verwendet, wenn die Variablen auf verschiedenen Skalen gemessen werden, so dass ein ordnungsgemäßer Vergleich nicht möglich ist. Bei Dummy-Variablen wird jedoch nur eine binäre Information in das Modell eingefügt, und wenn diese normalisiert ist, geht die Information über die Auswirkungen von z. B. einem Jahr verloren.
quelle