Die Bayes-Fehlerrate ist eine theoretische Grenze, die anhand einiger Daten die niedrigstmögliche Fehlerrate für ein Klassifizierungsproblem bestimmt. Ich habe mich gefragt, ob es für den Fall von Regressionsalgorithmen ein äquivalentes Konzept gibt. Mein Ziel ist es zu bestimmen, wie weit der Fehler meines Regressionsalgorithmus von dieser theoretischen Grenze entfernt ist, um zu beurteilen, wie weit ich von der bestmöglichen Lösung entfernt bin. Gibt es eine Möglichkeit, eine Grenze des niedrigsten Regressionsfehlers für einen bestimmten Datensatz zu erhalten?
regression
linear-regression
Pablo Suau
quelle
quelle
Antworten:
Mir ist klar, dass diese Frage vor mehr als einem Jahr gestellt wurde, aber ich denke, eine Möglichkeit besteht darin, die Bias-Varianz-Zerlegung zu verwenden, um eine Untergrenze für die Fehlerrate zu berechnen.
Im Wesentlichen wird die Fehlerrate als die Summe von drei Termen, der Vorspannung, der Varianz und dem irreduziblen Fehler geschrieben. Eine gute Quelle zum Erlernen dieser Begriffe ist eine Einführung in das statistische Lernen .
Nehmen Sie an, dass die wahre Funktion ( ) innerhalb der Funktionsfamilie liegt, die unser Modell für maschinelles Lernen anpassen kann, und nehmen Sie die Grenze, wenn die Menge der Trainingsdaten, die wir haben, bis ins Unendliche geht. Wenn unser maschinelles Lernmodell eine endliche Anzahl von Parametern hat, sind sowohl die Vorspannung als auch die Varianz Null. Der tatsächliche Fehler ist also einfach gleich dem irreduziblen Fehler.f(x)
Nehmen wir als Beispiel an, unsere wahren Daten sind linear mit dem Gaußschen Rauschen: . Einer der optimalen Schätzer ist offensichtlich die lineare Regression, , und, wenn wir weitere Trainingsbeispiele hinzufügen, die geschätzten Koeffizienten und nähert sich bzw. . Der beste Fehler (unter der Annahme eines quadratischen Verlusts), den wir erhoffen könnten, wäre also gleich , der inhärente Fehler / das irreduzible Rauschen, der mit der Datengenerierung selbst verbunden isty∼N(a+bx,σ2) y^=a^+b^x a^ b^ a b σ2
In der Praxis ist die Berechnung des irreduziblen Fehlers schwierig (unmöglich?), Da die Kenntnis des tatsächlichen Prozesses zur Erzeugung der Daten erforderlich ist. Diese Kritik gilt jedoch auch für den Bayes-Fehler, da dies die Kenntnis der wahren Klassenwahrscheinlichkeiten erfordert.
quelle
Ja, das wäre die Summe der Quadrate der Abstände der Antwortvariablen von der wahren oder der tatsächlichen Regressionslinie (vorausgesetzt, Sie wissen es).
quelle