Dies ist eine ziemlich allgemeine Frage:
Ich habe in der Regel festgestellt, dass die Verwendung mehrerer verschiedener Modelle ein Modell übertrifft, wenn versucht wird, eine Zeitreihe anhand einer Stichprobe vorherzusagen. Gibt es gute Papiere, die belegen, dass die Kombination von Modellen ein einzelnes Modell übertrifft? Gibt es Best Practices für die Kombination mehrerer Modelle?
Einige Referenzen:
- Hui Zoua, Yuhong Yang "Kombination von Zeitreihenmodellen für die Vorhersage" International Journal of Forecasting 20 (2004) 69–84
Antworten:
Manchmal werden solche Modelle als Ensemble bezeichnet. Zum Beispiel gibt diese Seite einen schönen Überblick darüber, wie es funktioniert. Auch die dort genannten Referenzen sind sehr nützlich.
quelle
Das letzte Jahr des NetFlix-Preises (2009) schien mir die allgemeine, gemeinschaftsweite Vermutung, mehrere Lernalgorithmen zu kombinieren, stark verändert zu haben.
Zum Beispiel lehrten mich meine formellen Schulungen (Universitätskurse) und meine spätere Aufsicht / Betreuung am Arbeitsplatz, die Kombination von Algorithmen zu vermeiden, es sei denn, wir hatten einen ausdrücklichen Grund dafür - und "um die Auflösung meines aktuellen Algorithmus zu verbessern", wasn ' Es ist wirklich ein guter Grund. (Andere haben möglicherweise eine andere Erfahrung - natürlich schließe ich eine Community-weite Sichtweise, die ausschließlich auf meiner eigenen Erfahrung basiert, obwohl meine Erfahrung im Codieren von ML-Algorithmen mit schlechter Leistung erheblich ist.)
Dennoch gab es einige "Muster", in denen das Kombinieren von Algorithmen auf die eine oder andere Weise akzeptiert und die Leistung tatsächlich verbessert wurde. Für mich war das häufigste Beispiel ein ML-Algorithmus, der im Maschinenmodus konfiguriert wurde (wobei jedem Datenpunkt eine Klassenbezeichnung zugewiesen wurde) und in dem es mehr als zwei Klassen gab (normalerweise viel mehr). Wenn Sie zum Beispiel einen überwachten Lernalgorithmus verwenden, um vier Klassen aufzulösen, sehen Sie eine hervorragende Trennung, mit Ausnahme von Klasse III gegenüber Klasse IV. Von diesen sechs Entscheidungsgrenzen wurde also nur eine unterhalb des erforderlichen Schwellenwerts aufgelöst. Insbesondere wenn die Klassen III und IV zusammen einen kleinen Prozentsatz der Daten ausmachten, wurde ein zusätzlicher Algorithmus hinzugefügt, der nur für die Auflösung dieser beiden Klassen optimiert wurdewar eine ziemlich verbreitete Lösung für diesen analytischen Problemtyp. (Normalerweise war dieser "tote Winkel" eine inhärente Einschränkung des primären Algorithmus - z. B. war er ein linearer Klassifikator und die III / IV-Entscheidungsgrenze war nicht linear.
Mit anderen Worten, als wir einen zuverlässigen Algorithmus hatten, der für die Verarbeitungsumgebung (die normalerweise Daten strömt) geeignet war und der innerhalb der Spezifikation ausgeführt wurde, mit Ausnahme eines einzigen blinden Flecks, der dazu führte, dass zwei (oder mehr) Klassen, die berücksichtigt wurden, nicht aufgelöst wurden Ein kleiner Teil der Daten, dann war es immer besser, einen anderen spezialisierten Algorithmus anzuschrauben, um herauszufinden, was dem Hauptalgorithmus systematisch fehlte.
Schließlich zu diesem Thema würde Ich mag sehr Kapitel 17, empfehlen Kombinieren mehrere Lernende , in Einführung in Maschinelles Lernen , 2d, von Ethem Alpaydin, MIT Press, 2010. Beachten Sie, dass dies ist die zweite Ausgabe vor einigen Monaten veröffentlicht; Die erste Ausgabe wurde im Jahr 2004 veröffentlicht und ich bezweifle, dass es die gleiche Berichterstattung über dieses Thema gibt. (Eigentlich empfehle ich den gesamten Text, aber insbesondere das Kapitel, da es sich auf Shane's Frage bezieht.)
Auf 25 Seiten fasst der Autor wahrscheinlich jedes ML-Algorithmus-Kombinationsschema zusammen, dessen Nützlichkeit in der akademischen Literatur oder Praxis demonstriert wurde - z. ..
quelle
Follow-up auf Peters Antwort auf Ensemble-Methoden:
quelle
Das spektakulärste Beispiel ist die Netflix-Herausforderung , die die Blending-Popularität wirklich gesteigert hat.
quelle
Im Folgenden finden Sie eine etwas vom linken Feld abweichende Antwort, die nur die "Best Practices zum Kombinieren mehrerer Modelle" in Ihrer Frage behandelt. Dies ist im Grunde genau meine Honours-These, außer dass ich mich mit komplexen, stark nichtlinearen Modellen beschäftige, die Chaos und Rauschen aufweisen - Klimamodelle. Dies ist wahrscheinlich nicht allgemein auf viele Bereiche anwendbar, könnte aber in der Ökologie oder Ökonometrie nützlich sein.
Bis vor kurzem wurden in der Community der Klimamodelle die Modelle im ungewichteten Durchschnitt größtenteils nur zusammengeschlagen (in der Regel nach einer Bias-Korrektur, bei der der Modellmittelwert für einen Teil des Stichprobenzeitraums oder den gesamten Stichprobenzeitraum entfernt wurde). Dies ist im Grunde das, was das IPCC für den 4. Bewertungsbericht (4AR) und frühere Berichte getan hat.
Dies ist mehr oder weniger ein Beispiel für die " Wahrheit plus Fehler " -Schule einer Ensemblekombination, bei der stillschweigend oder ausdrücklich davon ausgegangen wird, dass Beobachtungsserien (z. B. globale Temperatur, lokaler Niederschlag usw.) wahr sind und wenn Sie genügend Proben entnehmen (zB Modellläufe), das Geräusch in den Modellläufen wird aufgehoben (siehe (1)).
In jüngerer Zeit wurden Methoden zum Kombinieren von Modellen basierend auf der Leistungsgewichtung verwendet. Da Klimamodelle so verrauscht sind und so viele Variablen und Parameter aufweisen, können Sie die Leistung (die mir bekannt ist) nur anhand der Kovarianz oder anhand der MSE zwischen der Modellausgabe und den beobachteten Zeitreihen bewerten. Modelle können dann kombiniert werden, indem der Mittelwert basierend auf diesem Maß gewichtet wird. Einen guten Überblick dazu gibt es in (2).
Eine Annahme hinter dieser Methode zur Kombination von Simulationen ist die Annahme, dass die Modelle alle einigermaßen unabhängig sind - wenn einige stark abhängig wären, würden sie den Mittelwert verzerren. Diese Annahme war für das für 4AR ( CMIP3) verwendete Dataset angemessen , da dieses Dataset aus wenigen Modellläufen von vielen Modellierungsgruppen bestand (andererseits wird Code in der Modellierungscommunity geteilt, sodass möglicherweise noch eine gewisse Interdependenz besteht Für einen interessanten Blick darauf siehe (3)). Der Datensatz für den nächsten Bewertungsbericht, CMIP5hat dieses etwas zufällige Attribut nicht - einige Modellierungsteams werden einige Läufe einreichen, während andere Hunderte einreichen werden. Ensembles, die aus verschiedenen Teams stammen, können durch eine Erstprüfung oder durch Änderungen der Modellphysik und -parametrisierung entstehen. Auch dieses Super-Ensemble wird nicht systematisch gesampelt - es ist nur derjenige, der Daten bringt, wird akzeptiert (im Rahmen der Vernunft). Dies ist auf dem Gebiet als " Ensemble of Opportunity " bekannt. Die Verwendung eines ungewichteten Mittelwerts in einem solchen Ensemble kann durchaus zu einer gewissen Neigung zu Modellen mit mehr Läufen führen (da es zwar Hunderte von Läufen gibt, aber wahrscheinlich eine viel geringere Anzahl von wirklich unabhängigen Läufen).
Mein Vorgesetzter hat zur Zeit ein Papier in Bearbeitung, in dem ein Prozess der Modellkombination beschrieben wird, bei dem Leistung UND Unabhängigkeit gewichtet werden . Es ist eine Zusammenfassung des Konferenzpapiers verfügbar (4). Ich werde den Link zu dem Papier veröffentlichen, wenn es veröffentlicht wird (langsamer Prozess, halten Sie nicht den Atem an). Grundsätzlich wird in diesem Artikel ein Prozess beschrieben, bei dem die Kovarianz von Modellfehlern (model-obs) herangezogen und Modelle, die eine hohe Kovarianz mit allen anderen Modellen aufweisen (dh Modelle mit stark abhängigen Fehlern), gewichtet werden. Die Modellfehlervarianz wird ebenfalls berechnet und als Leistungsgewichtungskomponente verwendet.
Es ist auch erwähnenswert, dass die Klimamodellierung offensichtlich stark von den Launen der numerischen Modellierung im Allgemeinen beeinflusst wird. Es gibt einen so genannten "Lachtest" - wenn Sie am Ende einen Modelllauf haben, der impliziert, dass die globalen Durchschnittstemperaturen bis 2050 + 20 ° C betragen, werfen Sie ihn einfach raus, weil er eindeutig physikalisch nicht relevant ist. Offensichtlich ist diese Art von Test ziemlich subjektiv. Ich habe es noch nicht benötigt, aber ich erwarte es in naher Zukunft.
So verstehe ich derzeit die Zustandsmodellkombination in meinem Bereich. Offensichtlich lerne ich noch. Wenn ich also auf etwas Besonderes stoße, komme ich zurück und aktualisiere diese Antwort.
(1) Tebaldi, C. & Knutti, R., 2007. Die Verwendung des Multi-Modell-Ensembles in probabilistischen Klimaprojektionen. Philosophische Transaktionen der Royal Society A: Mathematik, Physik und Ingenieurwissenschaften, 365 (1857), S. 2053–2075.
(2) Knutti, R. et al., 2010. IPCC-Expertentreffen zur Bewertung und Kombination von Multi-Modell-Klimaprojektionen.
(3) Masson, D. & Knutti, R., 2011. Klimamodell-Genealogie. Geophys. Res. Lett, 38 (8), S. L08703.
(4) Abramowitz, G. & Bishop, C., 2010. Definition und Gewichtung der Modellabhängigkeit in der Ensemble-Vorhersage. In AGU Fall Meeting Abstracts. p. 07.
quelle