Absichtliche Überanpassung

8

Wäre es sinnvoll, ein Modell absichtlich zu überpassen?

Angenommen, ich habe einen Anwendungsfall, bei dem ich weiß, dass die Daten in Bezug auf die Trainingsdaten nicht wesentlich variieren.

Ich denke hier an die Verkehrsvorhersage, bei der der Verkehrsstatus einem festen Satz von Mustern folgt

  • Morgen pendeln
  • Nachtaktivität
  • und so weiter.

Diese Muster werden sich nicht wesentlich ändern, es sei denn, es gibt eine plötzliche Zunahme der Autonutzer oder größere Änderungen in der Straßeninfrastruktur. In diesem Fall möchte ich, dass das Modell so voreingenommen wie möglich gegenüber den Mustern ist, die es in aktuellen Daten gelernt hat, vorausgesetzt, dass das Muster und die Daten in Zukunft sehr ähnlich sein werden.

Brandon
quelle
Dies scheint sehr faul zu sein. Wenn Sie die Garantie haben, dass sich die Daten nicht ändern, können Sie das Modell überanpassen und eine bessere Leistung erzielen. Dies klingt jedoch nach einer schlechten Idee.
user2974951
1
Es ist. Andererseits denke ich, dass es keine schlechte Idee ist, wenn ich weiß, dass sich die Daten nicht viel ändern werden. Ich schreibe hier meine Gedanken, damit jemand beweisen kann, dass ich mich irre.
Brandon
5
Wenn die Vorhersageleistung Ihres Modells außerhalb der Stichprobe (dh für zukünftige Daten) nicht schlechter ist als die Leistung für Ihre aktuellen Daten, würde ich sagen, dass Sie technisch nicht wirklich überanpassen. Sie passen zu viel an, wenn Sie das Rauschen in Ihre aktuellen Daten einpassen, und das sollte immer zu schlechteren Vorhersagen für neue Daten führen. Sie sollten in der Lage sein, Ihr Modell mithilfe der Kreuzvalidierung auf den richtigen Komplexitätsgrad einzustellen.
Matto
2
In einer Studie wurde ein Proband gebeten, einige Daten zu überarbeiten, und dann gewannen sie die Lotterie. Die Studie kam zu dem Schluss, dass eine Überanpassung von Daten immer eine gute Sache ist.
Nat

Antworten:

4

Im Allgemeinen ist es nicht sinnvoll, Ihre Daten absichtlich zu überanpassen. Das Problem ist, dass es schwierig ist sicherzustellen, dass die Muster auch in dem Teil erscheinen, der nicht in Ihren Daten enthalten ist. Sie müssen bestätigen, dass die Daten Muster enthalten. Eine Möglichkeit hierfür ist das Konzept der Stationarität.


Was Sie beschreiben, erinnert mich an Stationarität und Ergodizität. Von einer kontextuellen Seite / Geschäftsseite aus nehmen Sie an, dass Ihre Zeitreihen bestimmten Mustern folgen. Diese Muster werden als Stationarität oder Ergodizität bezeichnet.

Definition Stationarität:

Ein stationärer Prozess ist ein stochastischer Prozess, dessen bedingungslose gemeinsame Wahrscheinlichkeitsverteilung sich bei zeitlicher Verschiebung nicht ändert. Daher ändern sich auch Parameter wie Mittelwert und Varianz im Laufe der Zeit nicht.

Definition Ergodizität:

Ein ergodischer Prozess ist ein Prozess, der sich auf Systeme oder Prozesse mit der Eigenschaft bezieht oder diese bezeichnet, dass sie bei ausreichender Zeit alle Punkte in einem bestimmten Raum einschließen oder auf diese einwirken und statistisch durch eine relativ große Auswahl von Punkten dargestellt werden können.


Jetzt möchten Sie sicherstellen, dass es diesen bestimmten Mustern wirklich folgt. Sie können dies tun, z. B. mit dem Unit-Root-Test (wie Dickey-Fuller) oder dem Stationarity-Test (wie KPSS).

Definition Einheitswurzeltest:

H0: Es gibt eine Einheitswurzel.

H1: Es gibt keine Einheitswurzel. Dies impliziert in den meisten Fällen Stationarität.

Definition Stationaritätstest:

H0: Es gibt Stationarität.

H1: Es gibt keine Stationarität.

Weiterführende Literatur:

Was ist der Unterschied zwischen einem stationären Test und einem Einheitswurzeltest?


Wenn die Zeitreihen diesen Mustern wirklich folgen, wird die Vorhersage und Vorhersage "aus statistischer Sicht einfacher" sein. Beispielsweise können Sie ökonometrische Modelle für Prognosen wie ARIMA oder TBATS anwenden. Meine Antwort bezieht sich auf univariate und auch multivariate Zeitreihen, wenn Sie Querschnittsdaten stationär haben und Einheitswurzeln keine gängigen Konzepte sind.

Ferdi
quelle
8

Nein, es ist nicht sinnvoll, Ihre Daten zu überanpassen.

Der Begriff Überanpassung bezieht sich tatsächlich auf einen Vergleich zwischen Modellen: Wenn die Leistung von model_a bei den angegebenen Trainingsdaten besser ist, aber außerhalb der Stichprobe schlechter als model_b , ist model_a überangepasst . Oder mit anderen Worten: " Es gibt eine bessere Alternative ".

Wenn der Verkehrsstatus "in Bezug auf die Trainingsdaten überhaupt nicht variiert ", erzielen Sie die bestmöglichen Ergebnisse, indem Sie sich einfach die Trainingsdaten merken (auch dies ist keine "Überanpassung").

"Daten variieren jedoch nicht stark in Bezug auf die Trainingsdaten" bedeutet lediglich eine angemessene Darstellung des zugrunde liegenden Musters. Hier funktioniert maschinelles Lernen am besten ( stationäre Umgebung, wie Ferdi erklärte ).

Laksan Nathan
quelle
Okey. Vielleicht ist es besser zu sagen, dass wir die Tendenz absichtlich erhöhen. Ich sagte dies, weil ich über Bias vs. Varianz-Kompromiss las und es für mich sinnvoll war, eine höhere Bias für den Verkehrsanwendungsfall zu haben.
Brandon
Algorithmus + Tuning liefert Ihnen die bestmöglichen Ergebnisse (optimieren Sie den Kompromiss).
Laksan Nathan
+1, aber ich glaube nicht, dass "es gibt eine bessere Alternative" aus Überanpassung folgt.
Kbrose
4

Ich würde sagen, dass es sinnvoll ist, Ihre Daten zu überpassen, aber nur zu Forschungszwecken. (Verwenden Sie kein überpassendes Modell in der Produktion!)

In Fällen, in denen Daten komplex und Aufgaben nicht trivial sein können, kann der Versuch, ein Modell zu überpassen, ein wichtiger Schritt sein!

Wenn Sie ein Modell überanpassen können, bedeutet dies, dass die Daten vom Modell beschrieben werden können.

Wenn Sie nicht einmal überanpassen können, kann dies Ihnen einen Hinweis für eine Untersuchung geben:

  • Ihre Daten sind nicht bereit, modelliert zu werden, daher müssten Sie mehr Datenvorbereitung / Feature-Engineering durchführen
  • Ihr Modell ist zu einfach und kann nicht alle Datenabhängigkeiten erfassen
Vadym B.
quelle