Sind Random Forest und Boosting parametrisch oder nicht parametrisch?

13

Durch Lesen der hervorragenden statistischen Modellierung: Die beiden Kulturen (Breiman 2001) können wir den Unterschied zwischen traditionellen statistischen Modellen (z. B. lineare Regression) und Algorithmen für maschinelles Lernen (z. B. Bagging, Random Forest, Boosted trees ...) erfassen.

Breiman kritisiert Datenmodelle (parametrisch), weil sie auf der Annahme beruhen, dass die Beobachtungen von einem bekannten, vom Statistiker vorgeschriebenen formalen Modell erzeugt werden, das die Natur möglicherweise schlecht nachahmt. Auf der anderen Seite nehmen ML-Algos kein formales Modell an und lernen die Assoziationen zwischen Eingabe- und Ausgabevariablen direkt aus den Daten.

Ich erkennen , dass Absackung / RF und Boosting, ist auch eine Art parametrischer: zum Beispiel ntree , mtry in RF, Lernrate , Tasche Fraktion , Baum Komplexität in Stochastic Gradient Boosted Bäume sind alle Tuning - Parameter . Wir schätzen diese Parameter auch aus den Daten, da wir die Daten verwenden, um die optimalen Werte dieser Parameter zu finden.

Was ist der Unterschied? Sind RF- und Boosted-Trees-Modelle parametrisch?

Antoine
quelle

Antworten:

12

Parametrische Modelle haben Parameter (die sie herleiten) oder Annahmen bezüglich der Datenverteilung, wohingegen RF, neuronale Netze oder Boosting-Bäume Parameter haben, die sich auf den Algorithmus selbst beziehen, aber sie brauchen keine Annahmen über Ihre Datenverteilung oder Klassifizierung Ihrer Daten in eine theoretische Verteilung . Tatsächlich haben fast alle Algorithmen Parameter wie Iterationen oder Randwerte, die mit der Optimierung zusammenhängen.

D. Castro
quelle
5
Um zusammenzufassen: 1) Sowohl ML- als auch parametrische Modellparameter werden basierend auf den Daten abgestimmt / geschätzt, ABER 2) in ML steuern die Parameter, wie die Algorithmen aus den Daten lernen (ohne Annahmen über die Daten zu treffen) und nachgelagert die Datenerzeugung), während die Parameter parametrischer Modelle (Modelle, die von vornherein angenommen werden) den Mechanismus steuern, von dem angenommen wird, dass er die Daten erzeugt hat (mit vielen unrealistischen Annahmen, die in der Praxis selten zutreffen). Denken Sie, dass dies eine angemessene Zusammenfassung ist? Würden Sie etwas hinzufügen / ändern?
Antoine
4
Ich denke, ein Satz aus Breimans Aufsatz, der alles zusammenfasst, lautet "Algorithmische Modellierung verlagert den Fokus von Datenmodellen auf die Eigenschaften von Algorithmen".
Antoine
1
Sie können es so zusammenfassen, aber ... unterschätzen Sie parametrische Modelle nicht. Es gibt Situationen, in denen sie notwendig und optimal sind, um viele Probleme zu lösen. Auch ihre Annahmen sind nicht so unrealistisch. Viele theoretische Verteilungen sind gültig, um eine Menge Dinge zu erklären, von normal über binomial bis lognormal, geometrisch usw. Es geht nicht um das eine oder andere, es geht darum, den richtigen Weg zu finden, um ein Problem zu lösen.
D. Castro
4
Genau. Wenn der zugrunde liegende physikalische Prozess bekannt ist, sind parametrische Modelle geeignet. Breiman kritisiert die Verwendung parametrischer Modelle für die Entdeckung und Vorhersage von Wissen, wenn die zugrunde liegenden Prozesse unbekannt sind
Antoine
1

Ich denke, das Kriterium für parametrisch und nicht parametrisch ist folgendes: ob die Anzahl der Parameter mit der Anzahl der Trainingsmuster wächst. Bei logistischer Regression und SVM erhalten Sie bei Auswahl der Features nicht mehr Parameter, wenn Sie mehr Trainingsdaten hinzufügen. Aber für RF und so weiter ändern sich die Details des Modells (wie die Tiefe des Baums), obwohl sich die Anzahl der Bäume nicht ändert.

Yu Zhang
quelle
Bei RF oder Boosting werden durch Erhöhen der Tiefe des Baums jedoch keine Parameter hinzugefügt. Sie haben noch Ihren tree.complexityParameter, Sie ändern nur seinen Wert. Außerdem ändert sich in RF und Boosting die Anzahl der Bäume im Wald / in der Sequenz abhängig von Ihrer Stichprobengröße
Antoine,
Wenn sich die Tiefe des Baums ändert, gibt es in meinen Optionen einige weitere Teilungen im Baum, sodass Sie mehr Parameter haben. Wenn sich die Anzahl der Bäume in RF und Boosting ändert, wenn sich die Daten ändern, geschieht dies jedoch nicht, wenn das Modell ein lineares Modell ist.
Yu Zhang
1

Im statistischen Sinne ist das Modell parametrisch, wenn Parameter basierend auf den Daten gelernt oder abgeleitet werden. Ein Baum in diesem Sinne ist nicht parametrisch. Natürlich ist die Baumtiefe ein Parameter des Algorithmus, sie wird jedoch nicht inhärent von den Daten abgeleitet, sondern ist ein Eingabeparameter, der vom Benutzer bereitgestellt werden muss.

PeterPancake
quelle
Angenommen, Sie müssen OLS- und baumbasierte Modelle einem nicht-technischen Publikum vorstellen. Können Sie also sagen, dass die ersteren parametrisch sind, während die letzteren nicht-parametrisch sind?
Tanguy