Es wurde kein Satz über freies Mittagessen in der Pattern Classification von Duda et al

12

Ich habe einige Fragen zu den in Abschnitt 9.2 verwendeten Notationen. Mangelnde inhärente Überlegenheit eines Klassifikators in der Duda, Hart und Stork's Pattern Classification . Lassen Sie mich zuerst einen relevanten Text aus dem Buch zitieren:

  • Der Einfachheit halber sei ein Problem mit zwei Kategorien betrachtet, bei dem der Trainingssatz D aus Mustern xi und zugeordneten Kategoriebeschriftungen yi=±1 für i=1,...,n erzeugt durch die zu lernende unbekannte Zielfunktion F(x) , wobei yi=F(xi) .
  • Es sei H die (diskrete) Menge von Hypothesen oder mögliche Mengen von zu lernenden Parametern. Eine bestimmte Hypothese h(x)H könnte durch quantisierte Gewichte in einem neuronalen Netzwerk oder Parameter 0 in einem Funktionsmodell oder Mengen von Entscheidungen in einem Baum usw. beschrieben werden.
  • Weiterhin ist P(h) die vorherige Wahrscheinlichkeit, dass der Algorithmus nach dem Training die Hypothese h ; Beachten Sie, dass dies nicht die Wahrscheinlichkeit ist, dass h korrekt ist.
  • Als nächstes bezeichnet P(h|D) die Wahrscheinlichkeit, dass der Algorithmus die Hypothese liefert, hwenn er auf die Daten trainiert D. In deterministischen Lernalgorithmen wie dem nächsten Nachbarn und Entscheidungsbäumen ist P(h|D) überall Null, mit Ausnahme einer einzelnen Hypothese h . Für stochastische Methoden (wie neuronale Netze, die aus zufälligen Anfangsgewichten trainiert wurden) oder für stochastisches Boltzmann-Lernen kann P(h|D) eine breite Verteilung sein.
  • Sei E der Fehler für eine Null-Eins-Funktion oder eine andere Verlustfunktion.

Der erwartete Klassifizierungsfehler außerhalb des Trainingssatzes, wenn die wahre Funktion F(x) und die Wahrscheinlichkeit für den k ten Kandidaten-Lernalgorithmus Pk(h(x)|D) ist, ist durch

Ek(E|F,n)=xDP(x)[1δ(F(x),h(x))]Pk(h(x)|D)

Satz 9.1. (Kein freies Mittagessen) Für zwei beliebige Lernalgorithmen P1(h|D) und P2(h|D) gilt unabhängig von der Stichprobenverteilung P(x) und der Anzahl n der Trainingspunkte Folgendes :

  1. Einheitlich gemittelt über alle Zielfunktionen F , E1(E|F,n)E2(E|F,n)=0

  2. Für jeden festen Trainingssatz D , der gleichmäßig über gemittelt wird F, gilt E1(E|F,D)E2(E|F,D)=0

Teil 1 ist eigentlich sagen

FDP(D|F)[E1(E|F,n)E2(E|F,n)]=0

Teil 2 sagt eigentlich

F[E1(E|F,D)E2(E|F,D)]=0

Meine Fragen sind

  1. In der Formel von , das heißt E k ( E | F , n ) = Σ x D P ( x ) [ 1 - δ ( F ( x ) , h ( x ) ) ] P k ( h ( x ) | D ) , kann ich P ersetzenEk(E|F,n)
    Ek(E|F,n)=xDP(x)[1δ(F(x),h(x))]Pk(h(x)|D),
    mit P k ( h | D ) und außerhalb der Summe bewegen Σ x D , weil es wirklich eine Verteilung ist h über H gegeben D für die k - ten stochastischen Lernalgorithmus?Pk(h(x)|D)Pk(h|D)xDhHDk
  2. Da der te Kandidaten-Lernalgorithmus eine stochastische Methode ist, warum in der Formel von E kk , gibt es keine Summe über h , dh Σ h H ?Ek(E|F,n)hhH
  3. Wie geht es und E i ( E | F , n ) voneinander?Ei(E|F,D)Ei(E|F,n)

    Bedeutet die Fehlerrate außerhalb des Trainings bei einem Trainingssatz D ?Ei(E|F,D)D

    Bedeutet die durchschnittliche Fehlerrate außerhalb des Trainings über alle Trainingssätze bei einer Trainingsgröße n ? Wenn ja, warum setzt Teil 1 des NFL-Theorems E i ( E | F , n ) erneut über Trainingsmengen, indem er by schreibt ?Ei(E|F,n)nEi(E|F,n) , und warum in der Formel für E k ( E | F , n ) , gibt es keine Mittel über alle Trainingssätze haben eine Trainingsgröße n ?DEk(E|F,n)n

  4. in Teil 1 des NFL-Theorems das Summieren aller Trainingssätze mit einer festen Trainingsgröße n ?Dn
  5. Wenn man alle möglichen Werte in der Trainingsgröße n in Teil 1 weiter summiert , ist das Ergebnis immer noch 0, oder?Nn
  6. In der Formel von Ek(E|F,n) , ändern , wenn ich zu Σ x , dh x ist nicht notwendigerweise beschränkt außerhalb des Trainingssatzes sein, werden beiden Teile in NFL Satz noch wahr sein?xDxx
  7. Wenn die wahre Beziehung zwischen und y nicht als deterministische Funktion F wie y = F ( x ) angenommen wird , sondern als bedingte Verteilung P ( y | x ) oder als gleichwertige gemeinsame Verteilung P ( x , y ) zu wissen , P ( y | x ) und P ( x ) (siehe auch meine andere Frage ), dann kann ich ändern E k (xyFy=F(x)P(y|x)P(x,y)P(y|x)P(x) zu E k ( E | P ( x , y ) , n ) = E x , y [ 1 - δ ( y , h ( x ) ) ] P k ( h ( x ) | D ) (mit das seltsame P k ( h ( x ) | DEk(E|F,n)
    Ek(E|P(x,y),n)=Ex,y[1δ(y,h(x))]Pk(h(x)|D)
    auf die in Teil 1 und 2 hingewiesen wurde. Stimmen die beiden Teile des NFL-Theorems noch?Pk(h(x)|D)

Danke und Grüße!

Tim
quelle
δ
Ek(E|F,n)=xDP(x)[1δ(F(x),h(x))]Pk(h(x)|D)
Ist dieses No-Free-Lunch-Theorem dasselbe wie das Halting-Problem? Sind sie verbunden?

Antworten:

6

Ich werde die Fragen beantworten, auf die ich die Antworten zu kennen glaube.

  1. xDhx
  2. hxHx
  3. Ei(E|F,D)FD . AberEich(E|F,n) Ich denke, das ist anders, weil Sie nur von der Anzahl der Trainingspunkte abhängig sind n und nicht die tatsächliche xWerte. Dies ist jedoch angesichts der nachfolgenden Aussagen verwirrend.
  4. Dist der Satz von Trainingsvektoren. Es gibtn Trainingsvektoren in D. Du summierst also über das Festen Trainingsvektoren in D. Es gibt nur einen SatzD.
  5. Ich denke die Antwort auf 5 ist nein. Die Notation scheint etwas verwirrend zu sein.

Ich kann zu 6 und 7 keinen Kommentar abgeben.

Michael R. Chernick
quelle
2
+1. Willkommen auf der Website, ich bin ein großer Fan Ihrer Bewertungen bei Amazon. Entschuldigen Sie meine Vermutung bei der Bearbeitung. Die mathematische Notation erfolgt meistens, indem Sie $ auf beide Seiten von etwas setzen. Wenn Sie auf den gelben Kreis klicken? Während des Schreibens sehen Sie oben rechts einen Link für "Erweiterte Hilfe", der weitere Informationen enthält. Sie können auch mit der rechten Maustaste auf ein vorhandenes Mathjax klicken (z. B. eines der oben genannten) und "Math anzeigen als -> TeX-Befehle" auswählen, um zu sehen, wie es ausgeführt wurde.
gung - Wiedereinsetzung von Monica
2
Mit anderen Worten, @gung sagt: Diese Site unterstützt LEINTEXin (fast) genau der Weise, wie Sie es erwarten würden, einschließlich Display-Mathematik. Willkommen auf der Seite.
Kardinal
@Michael Bitte erlauben Sie mir, Sie diesen anderen willkommen zu heißen: Ich freue mich, Sie hier zu sehen. (Michael hat außergewöhnlich sachkundige Beiträge zu Diskussionslisten der American Statistical Association
geleistet