In einigen Quellen, einschließlich dieser , habe ich gelesen , dass Random Forests unempfindlich gegenüber Ausreißern sind (wie es beispielsweise bei Logistic Regression und anderen ML-Methoden der Fall ist).
Zwei Teile der Intuition sagen mir jedoch etwas anderes:
Bei jeder Erstellung eines Entscheidungsbaums müssen alle Punkte klassifiziert werden. Dies bedeutet, dass auch Ausreißer klassifiziert werden und sich somit auf die Entscheidungsbäume auswirken, in denen sie beim Boosten ausgewählt wurden.
Bootstrapping ist ein Teil dessen, wie ein RandomForest Subsampling durchführt. Bootstrapping ist anfällig für Ausreißer.
Gibt es eine Möglichkeit, meine Intuition über die Empfindlichkeit gegenüber Ausreißern mit Quellen in Einklang zu bringen, die nicht übereinstimmen?
quelle
min_samples_leaf_node
ist1
, dann könnte es anfällig für Ausreißer sein.Antworten:
Ihre Intuition ist richtig. Diese Antwort zeigt sie nur an einem Beispiel.
Es ist in der Tat ein weit verbreitetes Missverständnis, dass CART / RF Ausreißern gegenüber robust sind.
Um die mangelnde Robustheit von HF gegenüber einzelnen Ausreißern zu veranschaulichen, können wir den in der obigen Antwort von Soren Havelund Welling verwendeten Code (leicht) modifizieren, um zu zeigen, dass ein einzelner y-Ausreißer ausreicht, um das angepasste HF-Modell vollständig zu beeinflussen. Wenn wir zum Beispiel den mittleren Vorhersagefehler der nicht kontaminierten Beobachtungen als Funktion der Entfernung zwischen dem Ausreißer und dem Rest der Daten berechnen, können wir sehen (Bild unten), dass ein einzelner Ausreißer eingeführt wird (indem eine der ursprünglichen Beobachtungen ersetzt wird durch einen beliebigen Wert im 'y'-Raum) genügt, um die Vorhersagen des RF-Modells beliebig weit von den Werten zu entfernen, die sie hätten, wenn sie mit den ursprünglichen (nicht kontaminierten) Daten berechnet worden wären:
Wie weit? Im obigen Beispiel hat der einzelne Ausreißer die Anpassung so stark geändert, dass der mittlere Vorhersagefehler (bei nicht kontaminierten Beobachtungen) jetzt 1-2 Größenordnungen größer ist als er gewesen wäre, wenn das Modell an die nicht kontaminierten Daten angepasst worden wäre.
Es ist also nicht wahr, dass ein einzelner Ausreißer die HF-Anpassung nicht beeinflussen kann.
Wie ich an anderer Stelle erwähne, ist es außerdem viel schwieriger, mit Ausreißern umzugehen, wenn möglicherweise mehrere von ihnen vorhanden sind (obwohl sie nicht unbedingt einen großen Teil der Daten enthalten müssen, damit ihre Auswirkungen sichtbar werden). Kontaminierte Daten können natürlich mehrere Ausreißer enthalten. Um die Auswirkung mehrerer Ausreißer auf die RF-Anpassung zu messen, vergleichen Sie die Darstellung auf der linken Seite, die von der RF auf den nicht kontaminierten Daten erhalten wurde, mit der Darstellung auf der rechten Seite, die durch willkürliche Verschiebung von 5% der Antwortwerte erhalten wurde (der Code befindet sich unter der Antwort). .
Schließlich muss im Zusammenhang mit der Regression darauf hingewiesen werden, dass sich Ausreißer sowohl im Entwurfs- als auch im Antwortbereich von der Masse der Daten abheben können (1). Im spezifischen RF-Kontext beeinflussen Ausreißer beim Design die Schätzung der Hyperparameter. Dieser zweite Effekt ist jedoch deutlicher, wenn die Anzahl der Dimensionen groß ist.
Was wir hier beobachten, ist ein besonderer Fall eines allgemeineren Ergebnisses. Die extreme Empfindlichkeit multivariater Datenanpassungsmethoden, die auf konvexen Verlustfunktionen basieren, gegenüber Ausreißern wurde viele Male wiederentdeckt. Siehe (2) für eine Illustration im spezifischen Kontext von ML-Methoden.
Bearbeiten.
quelle
p
unds
in der Formel?Ausreißer 1a: Dieser Ausreißer weist einen oder mehrere extreme Merkmalswerte auf und ist von jeder anderen Stichprobe entfernt. Der Ausreißer beeinflusst die anfänglichen Teilungen der Bäume wie jede andere Stichprobe, also keinen starken Einfluss. Es hat eine geringe Nähe zu anderen Stichproben und definiert die Modellstruktur nur in einem entfernten Teil des Merkmalsbereichs. Während der Vorhersage sind die meisten neuen Stichproben wahrscheinlich nicht mit diesem Ausreißer vergleichbar und landen selten im selben Endknoten. Außerdem betrachten Entscheidungsbäume Merkmale als ordinal (Rangfolge). Der Wert ist entweder kleiner / gleich oder größer als der Unterbrechungspunkt, daher spielt es keine Rolle, ob ein Merkmalswert ein extremer Ausreißer ist.
Ausreißer 1b: Für die Klassifizierung kann eine einzelne Stichprobe als Ausreißer angesehen werden, wenn sie in die Mitte vieler Stichproben einer anderen Klasse eingebettet ist. Ich habe bereits beschrieben, wie ein Standard-HF-Modell von dieser einen Stichprobe einer ungeraden Klasse beeinflusst wird, jedoch nur sehr nahe an der Stichprobe.
Ausreißer 2: Dieser Ausreißer hat einen extremen Zielwert, der möglicherweise um ein Vielfaches höher ist als alle anderen Werte, aber die Merkmalswerte sind normal. Ein 0,631-Bruchteil der Bäume wird mit dieser Stichprobe einen Endknoten haben. Die Modellstruktur wird lokal in der Nähe des Ausreißers beeinflusst. Beachten Sie, dass die Modellstruktur hauptsächlich parallel zur Feature-Achse beeinflusst wird, da Knoten einheitlich aufgeteilt werden.
BEARBEITEN: Kommentar an User603
Ja, bei extremen Ausreißern auf der Zielskala sollte eine Transformation der Zielskala in Betracht gezogen werden, bevor RF ausgeführt wird. Ich habe unten eine robustModel () -Funktion hinzugefügt, die randomForest optimiert. Eine andere Lösung wäre, die Transformation vor dem Training zu protokollieren.
quelle
y[1]=200
Sie sehen, dass er allein den Vorhersagefehler auf den nicht kontaminierten Beobachtungen veranlasst , um einen Faktor 20 zu springen!Es ist nicht der Random Forest-Algorithmus selbst, der für Ausreißer robust ist, sondern der grundlegende Lernstoff, auf dem er basiert: der Entscheidungsbaum . Entscheidungsbäume isolieren atypische Beobachtungen in kleine Blätter (dh kleine Teilräume des ursprünglichen Raums). Darüber hinaus sind Entscheidungsbäume lokale Modelle. Im Gegensatz zur linearen Regression, bei der die gleiche Gleichung für den gesamten Raum gilt, wird jedem Unterraum (dh jedem Blatt) lokal ein sehr einfaches Modell angepasst.
Aus diesem Grund wirken sich Extremwerte beispielsweise für die Regression nicht auf das gesamte Modell aus, da sie lokal gemittelt werden. Die Anpassung an die anderen Werte ist also nicht betroffen.
Tatsächlich überträgt sich diese wünschenswerte Eigenschaft auf andere baumartige Strukturen wie Dendogramme. Hierarchisches Clustering wird beispielsweise seit langem für die Datenbereinigung verwendet, da es abweichende Beobachtungen automatisch in kleine Cluster aufteilt. Siehe zum Beispiel Loureiro et al. (2004). Ausreißererkennung mithilfe von Clustering-Methoden: eine Datenbereinigungsanwendung .
Kurz gesagt, RF erbt seine Unempfindlichkeit gegenüber Ausreißern durch rekursive Partitionierung und lokale Modellanpassung .
Beachten Sie, dass Entscheidungsbäume eine geringe Verzerrung aufweisen, aber Modelle mit hoher Varianz: Ihre Struktur kann sich bei einer kleinen Änderung des Trainingssatzes ändern (Entfernen oder Hinzufügen einiger Beobachtungen). Dies sollte jedoch nicht mit der Empfindlichkeit gegenüber Ausreißern verwechselt werden, dies ist eine andere Sache.
quelle
labeled
oderunlabeled
Daten angewendet werden? Und wie könnte diese Clusterbildung für heterogene Daten erreicht werden, die sowohl kategoriale als auch numerische Merkmale enthalten?