Der No-Free-Lunch-Satz und die K-NN-Konsistenz

10

Beim rechnerischen Lernen besagt das NFL-Theorem, dass es keinen universellen Lernenden gibt. Für jeden Lernalgorithmus gibt es eine Verteilung, die bewirkt, dass der Lernende mit hoher Wahrscheinlichkeit eine Hypotese mit einem großen Fehler ausgibt (obwohl es eine Hypotese mit geringem Fehler gibt). Die Schlussfolgerung ist, dass zum Lernen die Hypotese-Klasse oder die Verteilungen eingeschränkt werden müssen. In ihrem Buch "Eine probabilistische Theorie der Mustererkennung" beweisen Devroye et al. Den folgenden Satz für den Lernenden der K-nächsten Nachbarn:

Assume μ has a density. if k and k/n0 then for every ϵ>0, there's N, s.t. for all n>N:P(RnR>ϵ)<2exp(Cdnϵ2)
WobeiR der Fehler der Bayes-optimalen Regel ist, ist Rn der wahre Fehler des K-NN-Ausgangs (der Die Wahrscheinlichkeit liegt über dem Trainingssatz der Größen ),μ ist das Wahrscheinlichkeitsmaß für den InstanzraumRd undCdDiese Konstante hängt nur von der euklidischen Dimension ab. Daher können wir der besten Hypothese, die es gibt, so nahe kommen, wie wir wollen (nicht die beste in einer eingeschränkten Klasse), ohne eine Annahme über die Verteilung zu treffen. Also versuche ich zu verstehen, wie dieses Ergebnis dem NFL-Theroem nicht widerspricht? Vielen Dank!

Michael J.
quelle

Antworten:

6

Ich verstehe das NFL-Theorem so, dass es keinen Lernalgorithmus gibt, der in jeder Aufgabe besser ist als der Rest. Dies ist jedoch kein Satz im klaren mathematischen Sinne, dass er einen Beweis hat, sondern eine empirische Beobachtung.

Ähnlich wie Sie es für das kNN gesagt haben, gibt es auch den universellen Approximationssatz für neuronale Netze, der besagt, dass wir bei einem zweischichtigen neuronalen Netz jede Funktion mit einem beliebigen Fehler approximieren können.

Wie bricht das die NFL nicht? Grundsätzlich heißt es, dass Sie jedes denkbare Problem mit einem einfachen 2-Schicht-NN lösen können . Der Grund dafür ist, dass NNs theoretisch alles approximieren können, in der Praxis ist es jedoch sehr schwierig, ihnen das Approximieren beizubringen. Aus diesem Grund sind für einige Aufgaben andere Algorithmen vorzuziehen.

Eine praktischere Art, NFL zu interpretieren, ist die folgende:

Es gibt keine Möglichkeit, a priori zu bestimmen, welcher Algorithmus für eine bestimmte Aufgabe am besten geeignet ist.

CaucM
quelle
3
Vielen Dank für die Antwort, aber es gibt einige Ungenauigkeiten. Erstens hat der NFL-Satz einen Beweis (zum Beispiel shalev-shwartz & ben-david, Verständnis für maschinelles Lernen, Kapitel 5). Für den universellen Approximationssatz - dieser Satz befasst sich mit Ausdruckskraft, während sich der NFL-Satz mit Verallgemeinerung befasst.
Michael J