Konsistenz des Lernprozesses

9

Ich habe zwei Fragen zum Konzept der "Lernkonsistenz" für diejenigen, die mit der statistischen Lerntheorie a la Vapnik vertraut sind.

Frage 1.
Der Lernprozess heißt konsistent (für die Funktionsklasse und die Wahrscheinlichkeitsverteilung ), wennFP

Remp(fl)PinffFR(f),l
und
R(fl)PinffFR(f),l

Diese beiden Bedingungen sind unabhängig. Auf P. 83 von Vapniks "Statistical Learning Theory" gibt es ein Beispiel für eine Reihe von Klassifikatoren F so dass die zweite Konvergenz stattfindet, die erste jedoch nicht. Ich habe über ein Beispiel für eine Reihe von Klassifikatoren nachgedacht, bei denen die erste Konvergenz stattfindet, die zweite jedoch nicht und mir nichts einfallen lässt. Kann mir hier jemand helfen?

Frage 2.
Der Lernprozess wird als nichttrivial konsistent (oder streng konsistent) (für die Funktionsklasse F und die Wahrscheinlichkeitsverteilung P ) bezeichnet, wenn für eine reelle Zahl cR so gilt, dass Λ(c)={f|R(f)c} ist nicht leer.

infflΛ(c)Remp(fl)=Remp(fl)PinffΛ(c)R(f),l

S. 81 von Vapniks "Statistical Learning Theory" veranschaulicht, warum wir strikte Konsistenz anstelle der in Frage 1 definierten Konsistenz betrachten wollen, dh warum wir einführen und für jedes . Alle anderen Texte, die strenge Konsistenz berücksichtigen, duplizieren im Wesentlichen Vapniks Darstellung, wenn sie die Gründe für das Konzept der strengen Konsistenz erläutern möchten. Ich bin jedoch aus zwei Gründen nicht wirklich zufrieden mit Vapniks Darstellung: Erstens erfolgt dies in Bezug auf die VerlustfunktionenΛ(c)inffΛ(c)cQ(z,α)und nicht die Klassifikatoren, und zweitens Abb. 3.2. aus dem Buch macht nicht wirklich Sinn, wenn wir die allgemeine Verlustfunktion für Klassifizierungsprobleme betrachten, dh die Funktion, die gleich 0 ist, wenn die vorhergesagte Klassenbezeichnung gleich der wahren Klassenbezeichnung ist, und ansonsten 1.

Ist es also möglich, die Gründe für das Konzept der strengen Konsistenz noch einmal vernünftiger zu veranschaulichen? Im Wesentlichen benötigen wir ein Beispiel für eine Reihe von Klassifizierern, sodass diese Klassifizierer nicht konsistent sind (im Sinne der Definition aus Frage 1) und einige neue Klassifizierer eine bessere Leistung als alle Klassifizierer aus der Gruppe aufweisen, sodass wir diese Klassifizierer hinzufügen Zum Set führen wir zum Fall der "trivialen Konsistenz". Irgendwelche Ideen?

Löwe
quelle

Antworten:

1

Für Ihre Frage 1 habe ich ein Beispiel, aber es erfordert die Verlustfunktion, um den Wert . Ich bin mir ziemlich sicher, dass wir ein Beispiel geben können, das nur eine unbegrenzte Verlustfunktion erfordert, aber das wäre etwas mehr Arbeit zu konstruieren. Eine offene Frage ist, ob es ein Beispiel mit einer begrenzten Verlustfunktion gibt.

Betrachten Sie die Klassifizierungseinstellung, bei der sich die Wahrscheinlichkeitsverteilung auf einem Leerzeichen . Wir bezeichnen ein Beispiel mit mit und . Sei der Raum aller Klassifizierungsfunktionen auf . Definieren Sie die VerlustfunktionPZ=X×{0,1}z=(x,y)xXy{0,1}F=X{0,1}X

Q(z,f)=Q((x,y),f)={0for f(x)=yotherwise,
für jedes . Mit anderen Worten, ob Sie ein Beispiel falsch oder alle von ihnen bekommen falsch, ist Ihr Risiko .fF

Nehmen wir nun an, ist eine zählbar unendliche Menge, und sei eine beliebige Wahrscheinlichkeitsverteilung, für die für alle . Außerdem nehmen wir an , dass es eine deterministische Klassifizierungsfunktion, dh es existiert für die für . Dies impliziert, dass .X={x1,x2,}PP({xi})>0i=1,2,cFyi=c(xi)i=1,2,...inffFR(f)=0

Dann für jedes , , aber (es sei denn , es ist ein großes Glück Wahl der unter all jenen , die empirischen Fehler haben). Somit ist , aber konvergiert nicht zu dieser Wert.lRemp(fl)=0R(fl)=flfF0Remp(fl)inffFR(f)R(fl)

Bei Frage 2 stimme ich zu, dass sein Beispiel nicht auf den Klassifizierungsfall zuzutreffen scheint, und ich sehe keinen offensichtlichen Weg, um ein solches Beispiel zu erstellen.

DavidR
quelle
Vielen Dank, @DavidR. Dies ist ein interessantes Beispiel, wenn tatsächlich für jedes und , aber wenn und wenn . Dies zeigt, dass die Definition der Konsistenz "für jeden " Teil enthalten sollte. Remp(fl)=0lflR(fl)=flcR(fl)=0fl=cfl
Leo