Hat das Normalisieren von Daten (um einen Mittelwert von Null und eine Standardabweichung von Eins zu haben) vor dem Durchführen einer wiederholten Kreuzvalidierung eine negative Konsequenz, wie beispielsweise eine Überanpassung?
Hinweis: Dies gilt für eine Situation, in der #cases> total #features ist
Ich transformiere einige meiner Daten mithilfe einer Protokolltransformation und normalisiere dann alle Daten wie oben beschrieben. Ich führe dann eine Merkmalsauswahl durch. Als Nächstes wende ich die ausgewählten Features und normalisierten Daten auf eine wiederholte 10-fache Kreuzvalidierung an, um zu versuchen, die Leistung des generalisierten Klassifikators abzuschätzen, und befürchte, dass die Verwendung aller Daten zur Normalisierung möglicherweise nicht angemessen ist. Sollte ich die Testdaten für jede Falte mit den aus den Trainingsdaten für diese Falte erhaltenen Normalisierungsdaten normalisieren?
Alle Meinungen dankbar erhalten! Entschuldigung, wenn diese Frage offensichtlich erscheint.
Bearbeiten: Beim Testen (in Übereinstimmung mit den nachstehenden Vorschlägen) stellte ich fest, dass die Normalisierung vor dem Lebenslauf im Vergleich zur Normalisierung innerhalb des Lebenslaufs keinen großen Leistungsunterschied darstellt.
quelle
Die Kreuzvalidierung wird am besten als Methode zur Schätzung der Leistung eines statistischen Verfahrens und nicht als statistisches Modell angesehen. Um eine unvoreingenommene Leistungsschätzung zu erhalten, müssen Sie daher jedes Element dieses Vorgangs in jeder Falte der Kreuzvalidierung, einschließlich der Normalisierung, separat wiederholen . Also würde ich sagen in jeder Falte normalisieren.
Dies wäre nur dann nicht erforderlich, wenn das statistische Verfahren völlig unempfindlich gegenüber der Skalierung und dem Mittelwert der Daten wäre.
quelle
Ich denke, wenn die Normalisierung nur zwei Parameter umfasst und Sie eine gute Stichprobe haben, ist das kein Problem. Ich würde mich mehr um die Transformation und den Variablenauswahlprozess kümmern. 10-fache Kreuzvalidierung scheint heute der letzte Schrei zu sein. Verwendet niemand Bootstrap 632 oder 632+ für die Schätzung der Klassifikatorfehlerrate, wie zuerst von Efron (1983) in JASA und später in einem Artikel von Efron und Tibshirani mit dem 632+ vorgeschlagen?
quelle
Ich persönlich mag die .632-Methode. Welches ist im Grunde Boostrapping mit Ersatz. Wenn Sie das tun und Duplikate entfernen, erhalten Sie 632 Einträge aus einem Eingabesatz von 1000. Art von ordentlich.
quelle