Ist dies die neueste Regressionsmethode?

33

Ich verfolge schon seit langer Zeit Kaggle-Wettbewerbe und stelle fest, dass viele Gewinnstrategien mindestens einen der "großen Dreier" beinhalten: Absacken, Boosten und Stapeln.

Bei Regressionen scheint es nicht sinnvoll zu sein, ein bestmögliches Regressionsmodell zu erstellen, sondern mehrere Regressionsmodelle wie (verallgemeinerte) lineare Regression, Zufallswald-, KNN-, NN- und SVM-Regressionsmodelle zu erstellen und die Ergebnisse auf vernünftige Weise zu einem zu verschmelzen -Übe jede einzelne Methode oft aus.

Natürlich ist ein solides Verständnis jeder Methode der Schlüssel und eine intuitive Geschichte kann auf der Grundlage eines linearen Regressionsmodells erzählt werden, aber ich frage mich, ob dies zum Stand der Technik geworden ist, um die bestmöglichen Ergebnisse zu erzielen.

Maxareo
quelle
In einigen Fällen kann Neural Network die "klassische" Art der Regression eindeutig übertreffen. Für exemple, in Wie viel hat es II regnen . Aber es ist definitiv eine Blackbox.
YCR
@YCR Ich stimme zu, es ist eine Blackbox. Während meiner Arbeit habe ich ein fantastisches Modell für maschinelles Lernen erstellt und versucht, Geschäftsleuten oder jemandem, der mit dem Modell nicht vertraut ist, etwas zu erklären. Die Konversation endet normalerweise so: Ich habe ein fantastisches Modell für maschinelles Lernen erstellt. Es funktioniert wie Magie, aber Ich kann dir keine interessante Geschichte erzählen.
Maxareo

Antworten:

41

Es ist bekannt, zumindest aus den späten 1960er Jahren, dass , wenn Sie mehrere Prognosen nehmen und durchschnittlich sie, dann wird die resultierende Aggregat Prognose in vielen Fällen die einzelnen Prognosen übertreffen. Bagging, Boosten und Stapeln basieren genau auf dieser Idee. Also ja, wenn Ihr Ziel reine Vorhersage ist, dann ist dies in den meisten Fällen das Beste, was Sie tun können. Problematisch an dieser Methode ist, dass es sich um einen Black-Box-Ansatz handelt, der das Ergebnis zurückgibt, Ihnen jedoch nicht hilft, es zu verstehen und zu interpretieren. Offensichtlich ist es auch rechenintensiver als jede andere Methode, da Sie nur wenige Vorhersagen anstelle einer einzigen berechnen müssen.

† Dies betrifft alle Vorhersagen im Allgemeinen, wird jedoch häufig in der Prognoseliteratur beschrieben.


Winkler, RL. und Makridakis, S. (1983). Die Kombination von Prognosen. JR Statis. Soc. A. 146 (2), 150 & ndash; 157.

Makridakis, S. und Winkler, RL (1983). Durchschnitte von Vorhersagen: Einige empirische Ergebnisse. Management Science, 29 (9) 987-996.

Clemen, RT (1989). Kombinieren von Vorhersagen: Eine Übersicht und eine kommentierte Bibliographie. International Journal of Forecasting, 5, 559-583.

Bates, JM und Granger, CW (1969). Die Kombination von Prognosen. Oder 451-468.

Makridakis, S. und Hibon, M. (2000). Der M3-Wettbewerb: Ergebnisse, Schlussfolgerungen und Implikationen. Internationale Zeitschrift für Prognosen, 16 (4), 451-476.

Reid, DJ (1968). Kombination von drei Schätzungen des Bruttoinlandsprodukts. Economica, 431 & ndash ; 444.

Makridakis, S., Spiliotis, E. und Assimakopoulos, V. (2018). Der M4-Wettbewerb: Ergebnisse, Erkenntnisse, Fazit und Weg in die Zukunft. Internationale Zeitschrift für Prognosen.

Tim
quelle
1
Der Link in der gedolchten Fußnote scheint bei mir nicht zu funktionieren?
Silverfish
@ Silverfish danke, behoben. Der Link war von untergeordneter Bedeutung, aber wenn er nicht funktioniert, ist er nutzlos.
Tim
0

Arthur (1994) hat ein schönes kurzes Papier- / Gedankenexperiment, das in der Komplexitätsliteratur bekannt ist.

Eine der Schlussfolgerungen ist, dass Agenten unter Nichtgleichgewichtsbedingungen keine besseren Vorhersagemodelle auswählen können (selbst wenn sie einen "Wald" von diesen haben). Wenn die Frage beispielsweise auf die Wertentwicklung an den Aktienmärkten angewendet wird, könnte die Einstellung von Arthur (1994) zutreffen.

Glenn Magerman
quelle