Es scheint selbstverständlich geworden zu sein, dass ein Ensemble von Lernenden zu den bestmöglichen Modellergebnissen führt - und es wird zum Beispiel immer seltener, dass einzelne Modelle Wettbewerbe wie Kaggle gewinnen. Gibt es eine theoretische Erklärung dafür, warum Ensembles so verdammt effektiv sind?
machine-learning
data-mining
predictive-modeling
Robert de Graaf
quelle
quelle
Antworten:
Wählen Sie für ein bestimmtes Modell, das Sie mit Daten versorgen, die Merkmale, Hyperparameter usw. aus. Im Vergleich zur Realität macht es drei Arten von Fehlern:
Ensembles mitteln eine Reihe dieser Modelle aus. Die Abweichung aufgrund der Abtastabweichung wird aus offensichtlichen Gründen nicht behoben. Sie kann einen Teil der Modellkomplexitätsabweichung beheben. Die Abweichungsfehler, die bei den verschiedenen Modellen auftreten, sind jedoch sehr unterschiedlich. Besonders Modelle mit geringer Korrelation machen in diesem Bereich sehr unterschiedliche Fehler. Bestimmte Modelle weisen in bestimmten Bereichen Ihres Funktionsbereichs eine gute Leistung auf. Indem Sie diese Modelle ausmitteln, reduzieren Sie diese Varianz um einiges. Deshalb glänzen Ensembles.
quelle
Die ausgewählte Antwort ist fantastisch, aber ich möchte zwei Dinge hinzufügen:
quelle
Ensembles gewinnen bei der Vorhersage aus theoretischen und praktischen Gründen.
Es gibt eine grundlegende Theorie der optimalen Vorhersage, wenn wir das nächste Ereignis in einer Sequenz vorhersagen wollen, die auf der Kenntnis vorheriger Ereignisse basiert. Solomonoff-Vorhersage (Solomonoff 1964) ist in mehrfacher Hinsicht nachweislich optimal, einschließlich der Tatsache, dass es "lernen wird, jede berechenbare Sequenz nur mit der absoluten Mindestmenge an Daten korrekt vorherzusagen". (Hutter, Legg & Vitanyi 2007) Ein Solomonoff-Prädiktor gewichtet alle kompatiblen Programme Mit den vorhandenen Daten werden gemäß der Kolmogorov-Komplexität des Programms und der Wahrscheinlichkeit, mit der das Programm die Daten bisher zuordnet, epikureische ("behalte alle Theorien") und Ockham-Philosophien ("bevorzuge einfache Theorien") in einem Bayes'schen Rahmen kombiniert.
Die Optimalitätseigenschaften der Solomonoff-Vorhersage erklären das robuste Ergebnis, auf das Sie sich beziehen: Die Mittelung über Modelle, Quellen oder Experten verbessert die Vorhersagen, und die gemittelten Vorhersagen übertreffen sogar die besten Einzelvorhersagen. Die verschiedenen Ensemble-Methoden in der Praxis können als berechenbare Annäherungen an die Solomonoff-Vorhersage angesehen werden - und einige wie MML (Wallace 2005) untersuchen die Zusammenhänge explizit, die meisten jedoch nicht.
Wallace (2005) stellt fest, dass ein Solomonoff-Prädiktor nicht sparsam ist - er behält einen unendlichen Pool von Modellen bei -, aber der größte Teil der Vorhersagekraft fällt unweigerlich auf eine relativ kleine Menge von Modellen. In einigen Bereichen kann das beste Einzelmodell (oder eine Familie von nahezu nicht unterscheidbaren Modellen) einen großen Teil der Vorhersagekraft ausmachen und generische Ensembles übertreffen, in komplexen Bereichen mit geringer Theorie erfasst jedoch wahrscheinlich keine einzelne Familie den Großteil der hinteren Wahrscheinlichkeit. und daher sollte die Mittelung über die plausiblen Kandidaten die Vorhersagen verbessern. Um den Netflix-Preis zu gewinnen, mischte das Bellkor-Team über 450 Modelle (Koren 2009).
Menschen suchen normalerweise nach einer einzigen guten Erklärung: In "hochtheoretischen" Bereichen wie der Physik funktionieren diese gut. In der Tat sollten sie nahezu unschlagbar sein, wenn sie die zugrunde liegende Kausaldynamik erfassen. Wo jedoch die verfügbaren Theorien nicht genau zu den Phänomenen passen (z. B. Filmempfehlung oder Geopolitik), werden einzelne Modelle schlechter abschneiden: Alle sind unvollständig, daher sollte keines der Modelle dominieren. So der jüngste Schwerpunkt auf Ensembles (für maschinelles Lernen) und Wisdom of the Crowds (für Experten) sowie der Erfolg von Programmen wie IARPA ACE und speziell dem Good Judgement Project (Tetlock & Gardiner 2015).
Verweise
quelle