Ich habe über die Lösung für diese OTTO Kaggle-Herausforderung gelesen und die erste Lösung scheint mehrere Transformationen für die Eingabedaten X zu verwenden, z. B. Log (X + 1), sqrt (X + 3/8) usw. Gibt es eine allgemeine Richtlinie, wann welche Art von Transformationen auf verschiedene Klassifikatoren anzuwenden ist?
Ich verstehe die Konzepte der Mean-Var- und Min-Max-Normalisierung. Ich vermute jedoch, dass für die obigen Transformationen Log und Sqrt verwendet werden, um den dynamischen Bereich der Daten zu komprimieren. Und die Verschiebung der x-Achse dient nur dazu, die Daten neu zu zentrieren. Der Autor wählt jedoch verschiedene Normalisierungsmethoden für dieselbe Eingabe X aus, wenn er in verschiedene Klassifizierer eingibt. Irgendwelche Ideen?
quelle
Antworten:
Wir lieben die normale Form
In den meisten Fällen versuchen wir, sie wie normal zu verhalten. Es ist keine Sichtweise der Klassifikatoren, sondern eine Sicht der Feature-Extraktion!
Welche Transformation ?
Das Hauptkriterium bei der Auswahl einer Transformation ist: Was funktioniert mit den Daten? Wie die obigen Beispiele zeigen, ist es wichtig, auch zwei Fragen zu berücksichtigen.
Was macht physikalisch (biologisch, ökonomisch, was auch immer) Sinn, zum Beispiel in Bezug auf die Begrenzung des Verhaltens, wenn Werte sehr klein oder sehr groß werden? Diese Frage führt oft zur Verwendung von Logarithmen.
Können wir Maße und Einheiten einfach und bequem halten? Nach Möglichkeit bevorzugen wir einfach zu überlegende Maßstäbe.
Die Kubikwurzel eines Volumens und die Quadratwurzel einer Fläche haben beide die Längenmaße, so weit es die Dinge nicht kompliziert, können solche Transformationen sie vereinfachen. Reziprozale haben normalerweise einfache Einheiten, wie bereits erwähnt. Oft sind jedoch etwas komplizierte Einheiten ein Opfer, das gemacht werden muss.
Wann was verwenden ?
Die nützlichsten Transformationen in der einführenden Datenanalyse sind der Kehrwert, der Logarithmus, die Kubikwurzel, die Quadratwurzel und das Quadrat. Im Folgenden wird angenommen, dass Transformationen, auch wenn sie nicht hervorgehoben werden, nur in Bereichen verwendet werden, in denen sie (endliche) reelle Zahlen als Ergebnisse liefern.
(In der Praxis möchten wir die Ergebnisse der Kehrwertbildung möglicherweise mit einer Konstanten wie 1000 oder 10000 multiplizieren oder dividieren, um Zahlen zu erhalten, die einfach zu verwalten sind, die sich jedoch selbst nicht auf die Schiefe oder Linearität auswirken.)
Der Kehrwert kehrt die Reihenfolge zwischen Werten desselben Vorzeichens um: Größter wird kleinster usw. Der negative Kehrwert behält die Reihenfolge zwischen Werten desselben Vorzeichens bei.
Logarithmus : Der Logarithmus x log 10 x oder x log ex oder ln x oder x log 2 x ist eine starke Transformation, die einen großen Einfluss auf die Verteilungsform hat. Es wird üblicherweise zur Reduzierung der rechten Schräglage verwendet und ist häufig für Messgrößen geeignet. Es kann nicht auf Null oder negative Werte angewendet werden. Eine Einheit auf einer logarithmischen Skala bedeutet eine Multiplikation mit der Basis der verwendeten Logarithmen. Exponentielles Wachstum oder Rückgang.
Beispiele sind:
Dann liegt y irgendwo zwischen 0 und unendlich, oder im letzten Fall zwischen 1 und unendlich. Wenn p = q, dann ist y = 1. Solche Definitionen führen oft zu verzerrten Daten, da es eine klare Untergrenze und keine klare Obergrenze gibt. Der Logarithmus ist jedoch nämlich
log y = log p / q = log p - log q, liegt irgendwo zwischen -infinity und infinity und p = q bedeutet log y = 0. Daher ist der Logarithmus eines solchen Verhältnisses wahrscheinlich symmetrischer verteilt.
Kubikwurzel : Die Kubikwurzel, x 1/3 . Dies ist eine ziemlich starke Transformation mit erheblichem Einfluss auf die Verteilungsform: Sie ist schwächer als der Logarithmus. Es wird auch zur Reduzierung der rechten Schräglage verwendet und hat den Vorteil, dass es auf Null und negative Werte angewendet werden kann. Beachten Sie, dass die Kubikwurzel eines Volumes die Einheiten einer Länge hat. Es wird häufig auf Niederschlagsdaten angewendet.
Die Anwendbarkeit auf negative Werte erfordert einen besonderen Hinweis. Man betrachte
(2) (2) (2) = 8 und (-2) (-2) (-2) = -8. Diese Beispiele zeigen, dass die
Kubikwurzel einer negativen Zahl ein negatives Vorzeichen und denselben
absoluten Wert wie die Kubikwurzel der entsprechenden positiven Zahl hat. Eine ähnliche Eigenschaft besitzt jede andere Wurzel, deren Potenz der
Kehrwert einer ungeraden positiven ganzen Zahl ist (Potenzen 1/3, 1/5, 1/7 usw.).
Diese Eigenschaft ist ein wenig empfindlich. Ändern Sie zum Beispiel die Potenz nur um ein kleines Drittel, und wir können das Ergebnis nicht mehr als ein Produkt aus genau drei Begriffen definieren. Die Eigenschaft ist jedoch dazu da, genutzt zu werden, wenn sie nützlich ist.
Quadratische Elemente werden normalerweise nur verwendet, weil sie eine
Beziehung innerhalb des Datenbereichs nachahmen können . Außerhalb dieses Bereichs können sie
sich sehr schlecht verhalten, da sie für Extremwerte von x willkürlich große Werte annehmen, und wenn der Achsenabschnitt a nicht auf 0 beschränkt ist, können sie sich unrealistisch nahe am Ursprung verhalten.
quelle
Diese spezifischen können rein heuristisch sein. Bei Bildern ist dies jedoch ein Standard: Ändern Sie RGB in BGR und subtrahieren Sie den Mittelwert von jedem Pixel. Dies wird in allen Wettbewerben / Datensätzen wie Imagenet, Pascal VOC, MS COCO verwendet. Der Grund ist, dass das Netzwerk mit einem standardisierten Datensatz dargestellt wird, da alle Bilder sehr unterschiedlich sein können.
quelle
Gleich hier - keine Ahnung, habe das noch nie gesehen. Ich denke, sie haben verschiedene Transformationen versucht und die ausgewählt, die am besten funktioniert hat. Da in dem Bericht gesagt wird, dass einige andere Transformationen auch in Ordnung wären.
quelle