Was bedeutet "Baseline" im Kontext von maschinellem Lernen und Datenwissenschaft?
Jemand hat mir geschrieben:
Hinweis: Eine geeignete Basislinie ergibt einen RMSE von ungefähr 200.
Ich verstehe das nicht. Bedeutet er, dass es gut ist, wenn mein Vorhersagemodell für die Trainingsdaten einen RMSE unter 500 aufweist?
Und was könnte ein "Baseline-Ansatz" sein?
Eine Baseline ist eine Methode, die Heuristiken, einfache zusammenfassende Statistiken, Zufälligkeit oder maschinelles Lernen verwendet, um Vorhersagen für einen Datensatz zu erstellen. Sie können diese Vorhersagen verwenden, um die Leistung der Basislinie (z. B. Genauigkeit) zu messen. Diese Metrik wird dann zu dem, mit dem Sie jeden anderen Algorithmus für maschinelles Lernen vergleichen.
Ausführlicher:
Ein Algorithmus für maschinelles Lernen versucht, eine Funktion zu lernen, die die Beziehung zwischen den Eingabedaten (Merkmaldaten) und der Zielvariablen (oder Bezeichnung) modelliert. Wenn Sie es testen, messen Sie die Leistung normalerweise auf die eine oder andere Weise. Beispielsweise kann Ihr Algorithmus zu 75% genau sein. Aber was bedeutet das? Sie können auf diese Bedeutung schließen, indem Sie sie mit der Leistung einer Baseline vergleichen.
Typische Baselines sind diejenigen, die von den "Dummy" -Schätzern von scikit-learn unterstützt werden :
Klassifizierungsgrundlagen :
Dies ist nützlich für Metriken, die eine Nicht-Mehrheitsklasse bewerten.
Regressionsbasislinien :
Im Allgemeinen möchten Sie, dass Ihr Ansatz die von Ihnen ausgewählten Baselines übertrifft. Im obigen Beispiel möchten Sie, dass Ihre Genauigkeit von 75% höher ist als jede Basislinie, die Sie mit denselben Daten ausgeführt haben.
Wenn Sie sich schließlich mit einem bestimmten Bereich des maschinellen Lernens befassen (z. B. mit Empfehlungssystemen), wählen Sie in der Regel Baselines aus, die den aktuellen Stand der Technik (SoTA) entsprechen - da Sie in der Regel nachweisen möchten, dass Ihre Ansatz macht besser als diese. Wenn Sie beispielsweise einen neuen kollaborativen Filteralgorithmus evaluieren, möchten Sie ihn möglicherweise mit der Matrixfaktorisierung vergleichen - die selbst ein Lernalgorithmus ist, aber jetzt eine beliebte Basis ist, da sie in der Systemforschung für Empfehlungsgeber so erfolgreich war.
quelle
Da wir viele Algorithmen für maschinelles Lernen haben, müssen wir wissen, welcher ML-Algorithmus für unser Problem am besten geeignet ist. Dies wird durch den Baseline Prediction-Algorithmus identifiziert.
Ein Basislinien-Vorhersagealgorithmus bietet eine Reihe von Vorhersagen, die Sie wie Vorhersagen für Ihr Problem auswerten können, z. B. Klassifizierungsgenauigkeit oder RMSE.
Die Ergebnisse dieser Algorithmen bieten den erforderlichen Vergleichspunkt bei der Bewertung aller anderen Algorithmen für maschinelles Lernen zu Ihrem Problem.
Für weitere Informationen haben wir einen sehr guten Blog über ML: Was bedeutet "Baseline" im Kontext des maschinellen Lernens?
quelle