Durch Lesen der hervorragenden statistischen Modellierung: Die beiden Kulturen (Breiman 2001) können wir den Unterschied zwischen traditionellen statistischen Modellen (z. B. lineare Regression) und Algorithmen für maschinelles Lernen (z. B. Bagging, Random Forest, Boosted trees ...) erfassen.
Breiman kritisiert Datenmodelle (parametrisch), weil sie auf der Annahme beruhen, dass die Beobachtungen von einem bekannten, vom Statistiker vorgeschriebenen formalen Modell erzeugt werden, das die Natur möglicherweise schlecht nachahmt. Auf der anderen Seite nehmen ML-Algos kein formales Modell an und lernen die Assoziationen zwischen Eingabe- und Ausgabevariablen direkt aus den Daten.
Ich erkennen , dass Absackung / RF und Boosting, ist auch eine Art parametrischer: zum Beispiel ntree , mtry in RF, Lernrate , Tasche Fraktion , Baum Komplexität in Stochastic Gradient Boosted Bäume sind alle Tuning - Parameter . Wir schätzen diese Parameter auch aus den Daten, da wir die Daten verwenden, um die optimalen Werte dieser Parameter zu finden.
Was ist der Unterschied? Sind RF- und Boosted-Trees-Modelle parametrisch?
Ich denke, das Kriterium für parametrisch und nicht parametrisch ist folgendes: ob die Anzahl der Parameter mit der Anzahl der Trainingsmuster wächst. Bei logistischer Regression und SVM erhalten Sie bei Auswahl der Features nicht mehr Parameter, wenn Sie mehr Trainingsdaten hinzufügen. Aber für RF und so weiter ändern sich die Details des Modells (wie die Tiefe des Baums), obwohl sich die Anzahl der Bäume nicht ändert.
quelle
tree.complexity
Parameter, Sie ändern nur seinen Wert. Außerdem ändert sich in RF und Boosting die Anzahl der Bäume im Wald / in der Sequenz abhängig von Ihrer StichprobengrößeIm statistischen Sinne ist das Modell parametrisch, wenn Parameter basierend auf den Daten gelernt oder abgeleitet werden. Ein Baum in diesem Sinne ist nicht parametrisch. Natürlich ist die Baumtiefe ein Parameter des Algorithmus, sie wird jedoch nicht inhärent von den Daten abgeleitet, sondern ist ein Eingabeparameter, der vom Benutzer bereitgestellt werden muss.
quelle