Ich habe einen Datensatz mit ~ 400.000 Datensätzen und 9 Variablen analysiert. Die abhängige Variable ist binär. Ich habe eine logistische Regression, einen Regressionsbaum, einen zufälligen Wald und einen Baum mit Gradientenverstärkung angepasst. Alle von ihnen geben praktisch identische Anpassungsgütezahlen an, wenn ich sie in einem anderen Datensatz validiere.
Warum ist das so? Ich vermute, das liegt daran, dass mein Verhältnis von Beobachtungen zu Variablen so hoch ist. Wenn dies richtig ist, bei welchem Verhältnis von Beobachtung zu variablem Verhältnis werden verschiedene Modelle unterschiedliche Ergebnisse liefern?
quelle
Es lohnt sich auch, die Trainingsfehler zu betrachten.
Grundsätzlich stimme ich Ihrer Analyse nicht zu. Wenn logistische Regressionen usw. alle die gleichen Ergebnisse liefern, würde dies darauf hindeuten, dass das „beste Modell“ sehr einfach ist (dass alle Modelle gleich gut passen können - z. B. im Grunde genommen linear).
Die Frage könnte also sein, warum das beste Modell ein einfaches Modell ist: Es könnte darauf hindeuten, dass Ihre Variablen nicht sehr prädiktiv sind. Es ist natürlich schwer zu analysieren, ohne die Daten zu kennen.
quelle
Wie @ seanv507 vorgeschlagen hat, kann die ähnliche Leistung einfach darauf zurückzuführen sein, dass die Daten am besten durch ein lineares Modell getrennt sind. Aber im Allgemeinen ist die Aussage, dass das Verhältnis von Beobachtungen zu Variablen so hoch ist, falsch. Selbst wenn Ihr Verhältnis von Stichprobengröße zu Anzahl der Variablen unendlich ist, sollten Sie nicht erwarten, dass verschiedene Modelle nahezu identisch funktionieren, es sei denn, sie bieten alle die gleiche prädiktive Tendenz.
quelle
Ich denke, diese Erklärung macht vollkommen Sinn.
Dies hängt wahrscheinlich sehr stark von Ihren spezifischen Daten ab (zum Beispiel, ob Ihre neun Variablen stetig sind, Faktoren, normal oder binär) sowie von allen Optimierungsentscheidungen, die Sie bei der Anpassung Ihres Modells getroffen haben.
Sie können jedoch mit dem Verhältnis von Beobachtung zu Variablen herumspielen - nicht indem Sie die Anzahl der Variablen erhöhen, sondern indem Sie die Anzahl der Beobachtungen verringern. Zeichnen Sie nach dem Zufallsprinzip 100 Beobachtungen, passen Sie Modelle an und prüfen Sie, ob unterschiedliche Modelle unterschiedliche Ergebnisse liefern. (Ich denke, das werden sie.) Tun Sie dies mehrmals mit verschiedenen Stichproben, die aus Ihrer Gesamtzahl der Beobachtungen gezogen wurden. Schauen Sie sich dann Teilproben von 1.000 Beobachtungen an ... 10.000 Beobachtungen ... und so weiter.
quelle