Wäre es sinnvoll, ein Modell absichtlich zu überpassen?
Angenommen, ich habe einen Anwendungsfall, bei dem ich weiß, dass die Daten in Bezug auf die Trainingsdaten nicht wesentlich variieren.
Ich denke hier an die Verkehrsvorhersage, bei der der Verkehrsstatus einem festen Satz von Mustern folgt
- Morgen pendeln
- Nachtaktivität
- und so weiter.
Diese Muster werden sich nicht wesentlich ändern, es sei denn, es gibt eine plötzliche Zunahme der Autonutzer oder größere Änderungen in der Straßeninfrastruktur. In diesem Fall möchte ich, dass das Modell so voreingenommen wie möglich gegenüber den Mustern ist, die es in aktuellen Daten gelernt hat, vorausgesetzt, dass das Muster und die Daten in Zukunft sehr ähnlich sein werden.
Antworten:
Im Allgemeinen ist es nicht sinnvoll, Ihre Daten absichtlich zu überanpassen. Das Problem ist, dass es schwierig ist sicherzustellen, dass die Muster auch in dem Teil erscheinen, der nicht in Ihren Daten enthalten ist. Sie müssen bestätigen, dass die Daten Muster enthalten. Eine Möglichkeit hierfür ist das Konzept der Stationarität.
Was Sie beschreiben, erinnert mich an Stationarität und Ergodizität. Von einer kontextuellen Seite / Geschäftsseite aus nehmen Sie an, dass Ihre Zeitreihen bestimmten Mustern folgen. Diese Muster werden als Stationarität oder Ergodizität bezeichnet.
Definition Stationarität:
Ein stationärer Prozess ist ein stochastischer Prozess, dessen bedingungslose gemeinsame Wahrscheinlichkeitsverteilung sich bei zeitlicher Verschiebung nicht ändert. Daher ändern sich auch Parameter wie Mittelwert und Varianz im Laufe der Zeit nicht.
Definition Ergodizität:
Ein ergodischer Prozess ist ein Prozess, der sich auf Systeme oder Prozesse mit der Eigenschaft bezieht oder diese bezeichnet, dass sie bei ausreichender Zeit alle Punkte in einem bestimmten Raum einschließen oder auf diese einwirken und statistisch durch eine relativ große Auswahl von Punkten dargestellt werden können.
Jetzt möchten Sie sicherstellen, dass es diesen bestimmten Mustern wirklich folgt. Sie können dies tun, z. B. mit dem Unit-Root-Test (wie Dickey-Fuller) oder dem Stationarity-Test (wie KPSS).
Definition Einheitswurzeltest:
Definition Stationaritätstest:
Weiterführende Literatur:
Was ist der Unterschied zwischen einem stationären Test und einem Einheitswurzeltest?
Wenn die Zeitreihen diesen Mustern wirklich folgen, wird die Vorhersage und Vorhersage "aus statistischer Sicht einfacher" sein. Beispielsweise können Sie ökonometrische Modelle für Prognosen wie ARIMA oder TBATS anwenden. Meine Antwort bezieht sich auf univariate und auch multivariate Zeitreihen, wenn Sie Querschnittsdaten stationär haben und Einheitswurzeln keine gängigen Konzepte sind.
quelle
Nein, es ist nicht sinnvoll, Ihre Daten zu überanpassen.
Der Begriff Überanpassung bezieht sich tatsächlich auf einen Vergleich zwischen Modellen: Wenn die Leistung von model_a bei den angegebenen Trainingsdaten besser ist, aber außerhalb der Stichprobe schlechter als model_b , ist model_a überangepasst . Oder mit anderen Worten: " Es gibt eine bessere Alternative ".
Wenn der Verkehrsstatus "in Bezug auf die Trainingsdaten überhaupt nicht variiert ", erzielen Sie die bestmöglichen Ergebnisse, indem Sie sich einfach die Trainingsdaten merken (auch dies ist keine "Überanpassung").
"Daten variieren jedoch nicht stark in Bezug auf die Trainingsdaten" bedeutet lediglich eine angemessene Darstellung des zugrunde liegenden Musters. Hier funktioniert maschinelles Lernen am besten ( stationäre Umgebung, wie Ferdi erklärte ).
quelle
Ich würde sagen, dass es sinnvoll ist, Ihre Daten zu überpassen, aber nur zu Forschungszwecken. (Verwenden Sie kein überpassendes Modell in der Produktion!)
In Fällen, in denen Daten komplex und Aufgaben nicht trivial sein können, kann der Versuch, ein Modell zu überpassen, ein wichtiger Schritt sein!
Wenn Sie ein Modell überanpassen können, bedeutet dies, dass die Daten vom Modell beschrieben werden können.
Wenn Sie nicht einmal überanpassen können, kann dies Ihnen einen Hinweis für eine Untersuchung geben:
quelle