[bearbeitet 21.7.15 08:31 MESZ]
Ich nehme an, Sie haben RF für die Klassifizierung verwendet. Denn in diesem Fall erzeugt der Algorithmus ausgewachsene Bäume mit reinen Endknoten nur einer Zielklasse.
predict(model, data=X_train)
Diese Codierungslinie ist wie ein Hund, der [~ 66%] seines eigenen Schwanzes jagt. Die Vorhersage eines Trainingsmusters ist die Klasse des Trainingsmusters. Bei Regression stoppt RF, wenn der Knoten 5 oder weniger Samples enthält oder wenn der Knoten rein ist. Hier ist der Vorhersagefehler klein, aber nicht 0%.
Beim maschinellen Lernen arbeiten wir oft mit großen Hypothesenräumen. Dies bedeutet, dass es immer noch viele nicht verfälschte Hypothesen / Erklärungen / Modelle zur Datenstruktur unseres Trainingssatzes geben wird. In der klassischen Statistik ist der Hypothesenraum oft klein und daher ist die direkte Modellanpassung entsprechend einer angenommenen Wahrscheinlichkeitstheorie aussagekräftig. Beim maschinellen Lernen hängt der direkte Mangel an Passung mit der Tendenz des Modells zusammen. Bias ist die "Inflexibilität" des Modells. Es tut nichtin jedem Fall eine Annäherung an die Generalisierungskraft (die Fähigkeit, neue Ereignisse vorherzusagen). Für algorithmische Modelle ist die Kreuzvalidierung das beste Werkzeug zur Approximation der Generalisierungsleistung, da keine Theorie formuliert ist. Wenn jedoch die Modellannahmen einer unabhängigen Stichprobe fehlschlagen, ist das Modell möglicherweise ohnehin unbrauchbar, selbst wenn eine gut durchgeführte Kreuzvalidierung etwas anderes nahelegt. Der stärkste Beweis besteht letztendlich darin, eine Reihe externer Testsätze unterschiedlicher Herkunft zufriedenstellend vorherzusagen.
Zurück zum Lebenslauf: Out-of-Bag wird häufig als Lebenslauf akzeptiert. Ich persönlich würde sagen, dass OOB-CV ähnliche Ergebnisse liefert wie 5-fach-CV, aber dies ist ein sehr kleines Ärgernis. Wenn man RF mit SVM vergleicht, ist OOB-CV nicht nützlich, da wir normalerweise vermeiden würden, SVM zu packen. Stattdessen würden dann sowohl SVM als auch RF in genau dasselbe Kreuzvalidierungsschema eingebettet, z. B. 10-fache 10-Wiederholungen mit übereinstimmenden Partitionen für jede Wiederholung. Oft müssen auch alle Schritte des Feature-Engineerings überprüft werden, um eine Kreuzvalidierung durchzuführen. Wenn die Dinge sauber bleiben sollen, kann die gesamte Daten-Pipeline in den Lebenslauf eingebettet werden.
Wenn Sie Ihr Modell mit Ihrem Test-Set (oder Kreuzvalidierung) optimieren, erhöhen Sie erneut Ihren Hypothesenraum und die validierte Vorhersage-Performance ist wahrscheinlich zu optimistisch. Stattdessen benötigen Sie ein Kalibrierungsset (oder eine Kalibrierungs-CV-Schleife) zur Abstimmung und ein Testvalidierungsset (oder eine Validierungs-CV-Schleife) zur Beurteilung Ihres endgültigen optimalen Modells.
Im äußersten Sinne ist Ihre Validierungsbewertung nur dann objektiv, wenn Sie auf dieses Ergebnis nie einwirken, wenn Sie es sehen. Dies ist das Paradox der Validierung, denn warum sollten wir ein Wissen erlangen, das nur dann wahr ist, wenn Sie nicht danach handeln? In der Praxis akzeptiert die Community bereitwillig einen gewissen Publikationsbias, bei dem Forscher, die eine zu optimistische Validierung nach dem Zufallsprinzip erhalten haben, eher publizieren als solche, die eine zu pessimistische Validierung unglücklicherweise gut finden. Deshalb kann manchmal warum nicht andere Modelle reproduzieren.