Theoretische Grenze - Regressionsfehler

7

Die Bayes-Fehlerrate ist eine theoretische Grenze, die anhand einiger Daten die niedrigstmögliche Fehlerrate für ein Klassifizierungsproblem bestimmt. Ich habe mich gefragt, ob es für den Fall von Regressionsalgorithmen ein äquivalentes Konzept gibt. Mein Ziel ist es zu bestimmen, wie weit der Fehler meines Regressionsalgorithmus von dieser theoretischen Grenze entfernt ist, um zu beurteilen, wie weit ich von der bestmöglichen Lösung entfernt bin. Gibt es eine Möglichkeit, eine Grenze des niedrigsten Regressionsfehlers für einen bestimmten Datensatz zu erhalten?

Pablo Suau
quelle
1
Das ist eine gute Frage. Mein erster Gedanke war das R-Quadrat, das Ihnen sagt, wie viel von der Variation durch die Regression für einen bestimmten Satz von Merkmalen erklärt wird. Da die Bayes-Fehlerrate eine statistische Untergrenze für den Fehler ergibt, der für ein gegebenes Klassifizierungsproblem UND die damit verbundene Auswahl von Merkmalen erreichbar ist. Obwohl die Bayes-Fehlerrate schwer zu berechnen (zu schätzen) ist, hat sie, wie Sie hervorheben, einen großen universellen Nutzen für jeden Klassifikator. Also begann ich über die Bayes'sche Regression nachzudenken und es scheint fast so, als ob Sie nach dem Bayes-Verlust suchen.
AN6U5
1
Vielen Dank für Ihre Antwort. Die Berechnung des R-Quadrats erfordert Vorhersagen, daher frage ich mich, ob eine theoretische Grenze des R-Quadrats geschätzt werden kann. Ich las einen Artikel über die Schätzung der Bayes-Fehlerrate anhand eines Ensembles von Klassifikatoren. Vielleicht kann etwas Ähnliches auf das R-Quadrat angewendet werden (hier nur ein zufälliger Gedanke). Ich bin mit der Bayes'schen Regression nicht vertraut. Ich werde das überprüfen.
Pablo Suau

Antworten:

2

Mir ist klar, dass diese Frage vor mehr als einem Jahr gestellt wurde, aber ich denke, eine Möglichkeit besteht darin, die Bias-Varianz-Zerlegung zu verwenden, um eine Untergrenze für die Fehlerrate zu berechnen.

Im Wesentlichen wird die Fehlerrate als die Summe von drei Termen, der Vorspannung, der Varianz und dem irreduziblen Fehler geschrieben. Eine gute Quelle zum Erlernen dieser Begriffe ist eine Einführung in das statistische Lernen .

Nehmen Sie an, dass die wahre Funktion ( ) innerhalb der Funktionsfamilie liegt, die unser Modell für maschinelles Lernen anpassen kann, und nehmen Sie die Grenze, wenn die Menge der Trainingsdaten, die wir haben, bis ins Unendliche geht. Wenn unser maschinelles Lernmodell eine endliche Anzahl von Parametern hat, sind sowohl die Vorspannung als auch die Varianz Null. Der tatsächliche Fehler ist also einfach gleich dem irreduziblen Fehler.f(x)

Nehmen wir als Beispiel an, unsere wahren Daten sind linear mit dem Gaußschen Rauschen: . Einer der optimalen Schätzer ist offensichtlich die lineare Regression, , und, wenn wir weitere Trainingsbeispiele hinzufügen, die geschätzten Koeffizienten und nähert sich bzw. . Der beste Fehler (unter der Annahme eines quadratischen Verlusts), den wir erhoffen könnten, wäre also gleich , der inhärente Fehler / das irreduzible Rauschen, der mit der Datengenerierung selbst verbunden istyN(a+bx,σ2)y^=a^+b^xa^b^abσ2

In der Praxis ist die Berechnung des irreduziblen Fehlers schwierig (unmöglich?), Da die Kenntnis des tatsächlichen Prozesses zur Erzeugung der Daten erforderlich ist. Diese Kritik gilt jedoch auch für den Bayes-Fehler, da dies die Kenntnis der wahren Klassenwahrscheinlichkeiten erfordert.

vbox
quelle
Danke für die Antwort. Ich denke, dass es viel Sinn macht.
Pablo Suau
0

Ja, das wäre die Summe der Quadrate der Abstände der Antwortvariablen von der wahren oder der tatsächlichen Regressionslinie (vorausgesetzt, Sie wissen es).

GeneX
quelle