Warum können verschiedene Modelltypen fast identische Ergebnisse liefern?

10

Ich habe einen Datensatz mit ~ 400.000 Datensätzen und 9 Variablen analysiert. Die abhängige Variable ist binär. Ich habe eine logistische Regression, einen Regressionsbaum, einen zufälligen Wald und einen Baum mit Gradientenverstärkung angepasst. Alle von ihnen geben praktisch identische Anpassungsgütezahlen an, wenn ich sie in einem anderen Datensatz validiere.

Warum ist das so? Ich vermute, das liegt daran, dass mein Verhältnis von Beobachtungen zu Variablen so hoch ist. Wenn dies richtig ist, bei welchem ​​Verhältnis von Beobachtung zu variablem Verhältnis werden verschiedene Modelle unterschiedliche Ergebnisse liefern?

JenSCDC
quelle

Antworten:

7

Dieses Ergebnis bedeutet, dass Sie unabhängig von der von Ihnen verwendeten Methode der optimalen Entscheidungsregel (auch bekannt als Bayes-Regel ) einigermaßen nahe kommen können . Die zugrunde liegenden Gründe wurden in Hastie, Tibshirani und Friedmans "Elements of Statistical Learning" erläutert . Sie demonstrierten, wie die verschiedenen Methoden funktionieren, indem sie die Fig. 1 und 2 verglichen. 2.1, 2.2, 2.3, 5.11 (in meiner ersten Ausgabe - im Abschnitt über mehrdimensionale Splines), 12.2, 12.3 (Support Vector Machines) und wahrscheinlich einige andere. Wenn Sie dieses Buch nicht gelesen haben, müssen Sie JETZT alles fallen lassen und es nachlesen. (Ich meine, es lohnt sich nicht, Ihren Job zu verlieren, aber es lohnt sich, ein oder zwei Hausaufgaben zu verpassen, wenn Sie Student sind.)

Ich denke nicht, dass das Verhältnis von Beobachtungen zu Variablen die Erklärung ist. In Anbetracht meiner oben dargelegten Überlegungen ist es die relativ einfache Form der Grenze, die Ihre Klassen im mehrdimensionalen Raum trennt, die alle von Ihnen versuchten Methoden identifizieren konnten.

StasK
quelle
Ich werde meinen Chef fragen, ob ich die Firma dazu bringen kann, dafür zu bezahlen.
JenSCDC
1
ESL ist 'kostenlos' als PDF von ihrer Homepage ... es lohnt sich auch, ISL (von vielen der gleichen Autoren) herunterzuladen
seanv507
4

Es lohnt sich auch, die Trainingsfehler zu betrachten.

Grundsätzlich stimme ich Ihrer Analyse nicht zu. Wenn logistische Regressionen usw. alle die gleichen Ergebnisse liefern, würde dies darauf hindeuten, dass das „beste Modell“ sehr einfach ist (dass alle Modelle gleich gut passen können - z. B. im Grunde genommen linear).

Die Frage könnte also sein, warum das beste Modell ein einfaches Modell ist: Es könnte darauf hindeuten, dass Ihre Variablen nicht sehr prädiktiv sind. Es ist natürlich schwer zu analysieren, ohne die Daten zu kennen.

seanv507
quelle
1

Wie @ seanv507 vorgeschlagen hat, kann die ähnliche Leistung einfach darauf zurückzuführen sein, dass die Daten am besten durch ein lineares Modell getrennt sind. Aber im Allgemeinen ist die Aussage, dass das Verhältnis von Beobachtungen zu Variablen so hoch ist, falsch. Selbst wenn Ihr Verhältnis von Stichprobengröße zu Anzahl der Variablen unendlich ist, sollten Sie nicht erwarten, dass verschiedene Modelle nahezu identisch funktionieren, es sei denn, sie bieten alle die gleiche prädiktive Tendenz.

Bogatron
quelle
Ich habe gerade meine Frage bearbeitet, um hinzuzufügen, dass die abhängige Variable binär ist. Daher ist ein lineares Modell nicht geeignet.
JenSCDC
"Sie sollten nicht erwarten, dass verschiedene Modelle nahezu identisch funktionieren, es sei denn, sie bieten alle die gleiche prädiktive Tendenz." Ich habe MAE und das Verhältnis von tatsächlichen zu vorhergesagten Ergebnissen als Validierungsmaßnahmen verwendet, und die Verhältnisse waren sehr eng.
JenSCDC
1
Andy, ich würde die logistische Regression (und die lineare SVM) als "lineares" Modell einbeziehen. Sie alle trennen die Daten nur durch eine gewichtete Summe der Eingaben.
Seanv507
1
@ seanv507 Genau - die Entscheidungsgrenze ist immer noch linear. Die Tatsache, dass eine binäre Klassifizierung durchgeführt wird, ändert daran nichts.
Bogatron
Was ist mit Bäumen? Sie scheinen mir wirklich nicht linear zu sein.
JenSCDC
0

Ich vermute, das liegt daran, dass mein Verhältnis von Beobachtungen zu Variablen so hoch ist.

Ich denke, diese Erklärung macht vollkommen Sinn.

Wenn dies richtig ist, bei welchem ​​Verhältnis von Beobachtung zu variablem Verhältnis werden verschiedene Modelle unterschiedliche Ergebnisse liefern?

Dies hängt wahrscheinlich sehr stark von Ihren spezifischen Daten ab (zum Beispiel, ob Ihre neun Variablen stetig sind, Faktoren, normal oder binär) sowie von allen Optimierungsentscheidungen, die Sie bei der Anpassung Ihres Modells getroffen haben.

Sie können jedoch mit dem Verhältnis von Beobachtung zu Variablen herumspielen - nicht indem Sie die Anzahl der Variablen erhöhen, sondern indem Sie die Anzahl der Beobachtungen verringern. Zeichnen Sie nach dem Zufallsprinzip 100 Beobachtungen, passen Sie Modelle an und prüfen Sie, ob unterschiedliche Modelle unterschiedliche Ergebnisse liefern. (Ich denke, das werden sie.) Tun Sie dies mehrmals mit verschiedenen Stichproben, die aus Ihrer Gesamtzahl der Beobachtungen gezogen wurden. Schauen Sie sich dann Teilproben von 1.000 Beobachtungen an ... 10.000 Beobachtungen ... und so weiter.

Stephan Kolassa
quelle
1
Hm warum ist das so? Weitere Beobachtungen scheinen die Wahrscheinlichkeit zu erhöhen, dass die Entscheidungsgrenze komplexer ist - dh definitiv nicht linear. Und diese Modelle machen in komplexen Fällen verschiedene Dinge und neigen dazu, in einfachen Fällen dasselbe zu tun.
Sean Owen
@ SeanOwen: Ich glaube, ich verstehe deinen Kommentar nicht. Auf welchen Teil meiner Antwort bezieht sich "Warum ist das so?" Das OP sagte nichts über die Verwendung linearer Entscheidungsgrenzen aus - schließlich könnte er Prädiktoren auf irgendeine Weise transformieren.
Stephan Kolassa
Warum würden mehr Beobachtungen dazu führen, dass verschiedene Klassifikatoren ähnlichere Entscheidungen treffen? Meine Intuition ist das Gegenteil. Ja, ich denke nicht nur an lineare Entscheidungsgrenzen. Je komplexer die optimale Grenze ist, desto unwahrscheinlicher ist es, dass sie alle zu etwas ähnlichem wie dieser Grenze passen. Und die Grenze ist tendenziell komplexer mit mehr Beobachtungen.
Sean Owen