Was genau ist ein Hypothesenraum beim maschinellen Lernen?

10

Während ich den Begriff konzeptionell verstehe, habe ich Schwierigkeiten, ihn operativ zu verstehen. Könnte mir jemand mit einem Beispiel helfen?

Fünf σ
quelle
Ein Raum, in dem wir die Ausgabe durch eine Reihe von rechtlichen Hypothesen (oder Funktionen) und Funktionen vorhersagen können, wird in Form von Merkmalen dargestellt.
Abhishek Kumar

Antworten:

-4

Nehmen wir an, Sie haben eine unbekannte Zielfunktion , die Sie durch Lernen erfassen möchten . Um die Zielfunktion zu erfassen Sie mit einigen Hypothesen zu kommen haben wo . Hier ist Ihr Hypothesenraum oder Ihre Menge.f:XYh1,...,hnhHH

Weitere Informationen finden Sie in den Präsentationsfolien von Abu-Mostafa: https://work.caltech.edu/textbook.html

JimBoy
quelle
7
Diese Antwort vermittelt absolut keine Informationen! Was ist die beabsichtigte Beziehung zwischen , und ? Was ist mit "Hypothesensatz" gemeint? fhH
whuber
4
Bitte nehmen Sie sich ein paar Minuten Zeit mit unserer Hilfe , um mehr über diese Website und ihre Standards, JimBoy, zu erfahren.
whuber
Die Antwort sagt sehr klar, hlernt, Zielfunktion zu erfassen f. Hist der Raum, in dem h1, h2, .. hn definiert wurde.
Logan
19

Angenommen, ein Beispiel mit vier binären Merkmalen und einer binären Ausgangsvariablen. Nachfolgend finden Sie eine Reihe von Beobachtungen:

x1 x2 x3 x4 | y
---------------
 0  0  0  1 | 0
 0  1  0  1 | 0
 1  1  0  0 | 1
 0  0  1  0 | 1

Dieser Satz von Beobachtungen kann von einem Algorithmus für maschinelles Lernen (ML) verwendet werden , um eine Funktion zu lernen f, die einen Wert yfür jede Eingabe aus dem Eingaberaum vorhersagen kann .

Wir suchen nach der Grundwahrheit f(x) = y, die die Beziehung zwischen xund yfür alle möglichen Eingaben auf die richtige Weise erklärt.

Die Funktion fmuss aus dem Hypothesenraum ausgewählt werden .

Um eine bessere Vorstellung zu bekommen: Der Eingaberaum ist im oben angegebenen Beispiel die Anzahl der möglichen Eingaben. Der Hypothesenraum ist24224=65536denn für jeden Satz von Merkmalen des Eingaberaums sind zwei Ergebnisse ( 0und 1) möglich.

Der ML-Algorithmus hilft uns, eine Funktion , manchmal auch als Hypothese bezeichnet, aus dem relativ großen Hypothesenraum zu finden.

Verweise

Also S.
quelle
1
Nur eine kleine Anmerkung zu Ihrer Antwort: Die Größe des Hypothesenraums beträgt zwar 65.536, aber der leichter zu erklärende Ausdruck dafür wäre 2(24), weil dort sind 24 mögliche einzigartige Proben und damit 2(24)mögliche Beschriftungszuweisungen für den gesamten Eingabebereich.
Engelen
1
@engelen Danke für deinen Rat, ich habe die Antwort bearbeitet.
Also S
@SoS Diese eine Funktion heißt Klassifikator?
1
@Arjun Hedge: Nicht die eine, sondern eine Funktion, die Sie gelernt haben, ist der Klassifikator. Der Klassifikator könnte (und das ist Ihr Ziel) die eine Funktion sein.
Also S
4

Der Hypothesenraum ist für das Thema des sogenannten Bias-Varianz-Kompromisses mit maximaler Wahrscheinlichkeit sehr relevant. Wenn die Anzahl der Parameter im Modell (Hypothesenfunktion) zu klein ist, als dass das Modell zu den Daten passen könnte (was auf eine Unteranpassung hinweist und der Hypothesenraum zu begrenzt ist), ist die Verzerrung hoch. Wenn das von Ihnen ausgewählte Modell zu viele Parameter enthält, als für die Anpassung der Daten erforderlich sind, ist die Varianz hoch (was auf eine Überanpassung hinweist und der Hypothesenraum zu aussagekräftig ist).

Wie in der Antwort von So S angegeben , können wir, wenn die Parameter diskret sind, leicht und konkret berechnen, wie viele Möglichkeiten sich im Hypothesenraum befinden (oder wie groß er ist), aber normalerweise sind die Parameter unter realen Lebensumständen kontinuierlich. Daher ist der Hypothesenraum im Allgemeinen unzählig.

Hier ist ein Beispiel, das ich aus dem verwandten Teil des klassischen Lehrbuchs für maschinelles Lernen ausgeliehen und modifiziert habe: Mustererkennung und maschinelles Lernen , um dieser Frage gerecht zu werden:

Wir wählen eine Hypothesenfunktion für eine unbekannte Funktion aus, die sich in den Trainingsdaten einer dritten Person namens CoolGuy verbirgt, die auf einem extragalaktischen Planeten lebt. Angenommen, CoolGuy weiß, was die Funktion ist, da die Datenfälle von ihm bereitgestellt werden und er die Daten nur mithilfe der Funktion generiert hat. Nennen wir es (wir haben nur die begrenzten Daten und CoolGuy hat sowohl die unbegrenzten Daten als auch die Funktion, die sie erzeugt) die Grundwahrheitsfunktion und bezeichnen sie mity(x,w).

Geben Sie hier die Bildbeschreibung ein

Die grüne Kurve ist die y(x,w)und die kleinen blauen Kreise sind die Fälle, die wir haben (sie sind eigentlich nicht die wahren Datenfälle, die von CoolGuy übertragen werden, da sie durch Übertragungsgeräusche, beispielsweise durch Makula oder andere Dinge, kontaminiert wären).

Wir dachten, dass diese versteckte Funktion sehr einfach wäre, dann versuchen wir ein lineares Modell (stellen Sie eine Hypothese mit einem sehr begrenzten Raum auf): g1(x,w)=w0+w1x mit nur zwei Parametern: w0 und w1und wir trainieren das Modell unter Verwendung unserer Daten und erhalten diese:

Geben Sie hier die Bildbeschreibung ein

Wir können sehen, dass unabhängig davon, wie viele Daten wir für die Hypothese verwenden, diese einfach nicht funktionieren, weil sie nicht aussagekräftig genug sind.

Wir versuchen also eine viel aussagekräftigere Hypothese: g9=j9wjxj mit zehn adaptiven Parametern w0,w1,w9und wir trainieren auch das Modell und dann bekommen wir:

Geben Sie hier die Bildbeschreibung ein

Wir können sehen, dass es einfach zu aussagekräftig ist und für alle Datenfälle geeignet ist. Wir sehen, dass ein viel größerer Hypothesenraum ( seitg2 kann ausgedrückt werden durch g9 indem man es einstellt w2,w3,,w9wie alle 0 ) ist mächtiger als eine einfache Hypothese. Die Verallgemeinerung ist aber auch schlecht. Das heißt, wenn wir mehr Daten von CoolGuy erhalten und als Referenz dienen, versagt das trainierte Modell höchstwahrscheinlich in diesen unsichtbaren Fällen.

Wie groß ist dann der Hypothesenraum für den Trainingsdatensatz? Wir können eine Antwort aus dem oben genannten Lehrbuch finden:

Eine grobe Heuristik, die manchmal befürwortet wird, ist, dass die Anzahl der Datenpunkte nicht weniger als ein Vielfaches (z. B. 5 oder 10) der Anzahl der adaptiven Parameter im Modell betragen sollte.

Und Sie werden aus dem Lehrbuch sehen, dass, wenn wir versuchen, 4 Parameter zu verwenden, g3=w0+w1x+w2x2+w3x3ist die trainierte Funktion für die zugrunde liegende Funktion ausdrucksstark genug y=sin(2πx). Es ist eine Art schwarze Kunst, in diesem Fall die Nummer 3 (den geeigneten Hypothesenraum) zu finden.

Dann können wir grob sagen, dass der Hypothesenraum das Maß dafür ist, wie aussagekräftig Ihr Modell ist, um zu den Trainingsdaten zu passen. Die Hypothese, die für die Trainingsdaten aussagekräftig genug ist, ist die gute Hypothese mit einem Ausdruckshypothesenraum. Um zu testen, ob die Hypothese gut oder schlecht ist, führen wir die Kreuzvalidierung durch, um festzustellen, ob sie im Validierungsdatensatz gut funktioniert. Wenn es weder unter- (zu begrenzt) noch überanpasst (zu ausdrucksstark) ist, reicht der Platz aus (laut Occam Razor ist ein einfacherer vorzuziehen, aber ich schweife ab).

Lerner Zhang
quelle
Dieser Ansatz sieht relevant aus, aber Ihre Erklärung stimmt nicht mit der auf S. 22 überein. 5 Ihrer ersten Referenz: "Eine Funktionh:X{0,1}heißt [eine] Hypothese. Ein SetH von Hypothesen, unter denen die Approximationsfunktion y wird gesucht heißt [der] Hypothesenraum. "(Ich würde zustimmen, dass die Folie verwirrend ist, weil ihre Erklärung dies implizit erfordert C={0,1}, während dies im Diagramm allgemein als "Klassen" bezeichnet wird. Aber lassen Sie uns diese Verwirrung nicht weitergeben: Lassen Sie uns sie korrigieren.)
whuber
1
@whuber Ich habe meine Antwort erst jetzt mehr als zwei Jahre später aktualisiert, nachdem ich mehr Wissen über das Thema gelernt habe. Bitte helfen Sie zu überprüfen, ob ich es besser korrigieren kann. Vielen Dank.
Lerner Zhang