Nehmen wir an, ich möchte einen logistischen Klassifikator für einen Film M erstellen. Meine Merkmale wären etwa das Alter der Person, das Geschlecht, der Beruf oder der Ort. Das Trainingsset würde also ungefähr so aussehen:
- Alter Geschlecht Beruf Standort Gefällt mir (1) / Gefällt mir nicht (0)
- 23 M Software US 1
- 24 F Doctor UK 0
und so weiter .... Nun ist meine Frage, wie ich meine Funktionen skalieren und darstellen soll. Ein Weg, den ich dachte: Teilen Sie das Alter in Altersgruppen ein, also 18-25, 25-35, 35-über, Geschlecht als M, F, Ort als US, UK, Andere. Erstellen Sie nun für alle diese Werte ein Binär-Feature. Daher verfügt age über 3 Binär-Features, die jeweils einer Altersgruppe entsprechen, und so weiter. Ein 28-jähriger Mann aus den USA würde also als 010 10 100 (010-> Altersgruppe 25-35, 10 -> Mann, 100 -> USA) dargestellt.
Was könnte der beste Weg sein, um Features hier darzustellen? Auch ist mir in einigen e.gs aufgefallen. B. Geschlecht wird durch zwei Werte dargestellt, 0,0045 und -0,0045 für männlich und weiblich. Ich habe keine Ahnung, wie man so eine Skalierung / Normalisierung durchführt.
quelle
Antworten:
Binärer Fall
Wenn Sie möchten, dass Ihre Features binär sind, sind die guten Darstellungen für kategoriale (bzw. reale ) Werte die One-Hot- (bzw. Thermometer- ) Codierung. Sie müssen sie nicht normalisieren.
Für die One-Hot- Codierung eines Kategoriefeatures reservieren Sie einfach ein Bit für jede Klasse. Die Länge dieser Codierung entspricht daher der Anzahl der Klassen Ihres Features. Nehmen wir Ihr Beispiel für Land,
Für die Thermometercodierung eines Real / Integer- Merkmals müssen Sie eine Länge und die Schwellenwerte auswählen. Für Ihr Altersbeispiel haben Sie sich dafür entschieden, das Alter gemäß den Schwellenwerten 18,25 und 35 aufzuteilen. Die Codierung lautet
Fortlaufender Fall
Wie BGreene sagte, sollten Sie diesen Wert dann normalisieren, um einen Mittelwert von 0 und eine Standardabweichung von 1 beizubehalten, was die Stabilität vieler Regressionsmodelle sicherstellt. Dazu subtrahieren Sie einfach den empirischen Mittelwert und dividieren durch die empirische Standardabweichung.
quelle