Parallele Rechtecke der PAC-Lernachse

7

Ich versuche den Beweis zu verstehen, dass die achsparallelen Rechtecke im realisierbaren Fall PAC-lernbar sind. Dies bedeutet, dass gegebenϵ,δ Mit genügend Daten können wir eine Funktion finden h so dass

P[error>ϵ]δ
Hier kann Fehler als die Wahrscheinlichkeit angesehen werden, mit unserer gewählten Funktion einen Fehler zu machen h.

Für achsparallele Rechtecke (in binärer Klassifikation) lautet das übliche Argument wie folgt: R sei das wahre Rechteck und lass R sei eindeutig das kleinste Rechteck mit den positiven Beispielen RRbetrachten wir die vier rechteckigen Streifen dazwischen R und R. Klar, wenn alle eine Wahrscheinlichkeit habenϵ/4 dann ist die Wahrscheinlichkeit, einen Fehler zu machen, geringer als ϵWir können also davon ausgehen, dass mindestens einer die Wahrscheinlichkeit hat, einen Fehler zu machen ϵ/4.

Für einen solchen Streifen die Wahrscheinlichkeit, alle korrekt zu klassifizieren m Trainingsbeispiele gibt es höchstens (1ϵ/4)mWenn wir also eine über alle Streifen gebundene Vereinigung nehmen, erhalten wir, dass die Wahrscheinlichkeit, alles richtig zu klassifizieren, geringer ist als 4(1ϵ/4)m4em/4und mit ein bisschen Algebra ergibt sich, dass die Komplexität der Stichprobe gleich ist m(4/ϵ)ln(4/δ).

Hier ist ein PDF , das etwas ausführlicher erklärt. Mit einigen Bildern musste ich das Argument nur so weit wie möglich zusammenfassen, um es hier einzufügen.

Meine Frage ist, warum müssen wir die vier rechteckigen Streifen getrennt betrachten, warum können wir nicht einfach sagen, dass die Wahrscheinlichkeit der Region dazwischen liegt R und R muss größer sein als ϵ (weil wir sonst fertig sind) und somit mit demselben Argument zur besseren Grenze gelangen würden m(1/ϵ)ln(1/δ)?

Entschuldigung für die lange Frage und vielen Dank im Voraus.

Alejopelaez
quelle
Die Mathematik ist viel einfacher. Wie würden Sie den Proof ändern, um mit Rechtecken zu arbeiten?
Randomsurfer_123
@ randomsurfer_123 Das ist die Sache. Ich sehe nicht, wie der Beweis im PDF, den ich im Beitrag erwähne, sie als achsparallele Rechtecke verwendet. Ich sehe sie nur über die Wahrscheinlichkeit streiten, dass ein Punkt in den Bereich zwischen dem kleinen und dem großen Rechteck fällt. Mir muss etwas fehlen, denn sonst kann dies auf andere Formen angewendet werden.
Alejopelaez

Antworten:

1

Die Frage ist ein wenig vage, aber es scheint, als ob das, was Sie argumentieren möchten, in etwa so lautet: Lassen Sie R sei das Konzept zu lernen und nimm jedes RR ein beliebiges Rechteck sein, das a (1ϵ)-ein Bruchteil von R. Dann mit einiger WahrscheinlichkeitR wird beinhalten R.

Das Problem dabei ist, dass die besondere Wahrscheinlichkeit von der spezifischen Wahl von abhängt R. Ich denke, was Sie verwirrt ist, ist dieser WunschRan unsichtbaren Beispielen gut abschneiden . Durch den BauRklassifiziert alle Trainingsdaten korrekt. Das schlechte Ereignis ist tatsächlich, dass alle Trainingsdaten in einem zu kleinen Rechteck konzentriert sind. Dies geschieht höchstens mit der Wahrscheinlichkeit, dass einer der Streifen von allen Trainingsbeispielen übersehen wird.

Louis
quelle
0

hmm ... nun, in dem Beweis, den Sie erwähnen, ziehen wir Punkte (x, y) aus einer Verteilung D und prüfen, ob sie wirklich in ein Quadrat fallen. Dh wir wählen das gleicheδfür jede Grenze (max x, min x, max y, min y). Wenn Sie einen Kreis hatten, können Sie das nicht einfach tun - Sie müssen ein Delta für einen Radius auswählen, und der Radius ist eine Funktion der Koordinaten. Das macht den Beweis also komplizierter.

Wenn Sie sich für nicht konkave Polygone entscheiden, sollte dies viel schwieriger werden.

randomsurfer_123
quelle