Ich studiere derzeit "Gaußsche Prozesse für maschinelles Lernen" und in Kapitel 3 heißt es, dass das hintere (Gleichung 3.10) und das latente Die Variable posterior (Gleichung 3.9) kann aufgrund der Sigmoidwahrscheinlichkeiten in (3.9) und der Sigmoidfunktion in (3.10) im Allgemeinen nicht analytisch gelöst werden ). Um zu verhindern, dass Personen die Gleichungen nachschlagen müssen, lauten sie wie folgt:
Meine Hauptfrage lautet: Für die binäre Klassifikation mit als Gaußscher Prozess modelliert wurde, warum überhaupt Sigmoidfunktionen (in beiden Gleichungen) anstelle der Gaußschen Funktion Dies würde zu geschlossenen Lösungen für beide Integrale führen. Die Gaußsche Funktion ist nicht wie Sigmoidfunktionen monoton, aber Allgemeinmediziner können Funktionen mit mehreren Wendepunkten erzeugen, sodass Monotonie unnötig erscheint. Um sicherzustellen, dass (3.10) zu \ frac {1} {2} konvergiert, wenn \ mathbf {x_ *} weit von den Trainingsdaten entfernt ist, würde es vermutlich ausreichen, dem vorherigen p (\ mathbf {f} | X) einen Mittelwert zu geben ::
Im Gegensatz zum Verhalten von Sigmoid-Wahrscheinlichkeiten würden Gaußsche Wahrscheinlichkeiten große (positive oder negative) Einträge in für negativ markierte Eingabepunkte und kleine Einträge in für positiv markierte Punkte bevorzugen .
Würden Gaußsche Funktionen zu Problemen führen, die bei Sigmoiden nicht auftreten? Gibt es Arbeiten, in denen Gaußsche Funktionen in der binären GP-Klassifikation anstelle von Sigmoiden verwendet wurden?
Update, 25. Mai 2017
Bei weiterer Überlegung hilft der oben vorgeschlagene Mittelwert ungleich Null, die Unklarheit darüber aufzulösen, was das Vorzeichen von sein soll ( bevorzugt keines der Vorzeichen; ). Das Auflösen dieser Mehrdeutigkeit scheint wichtig zu sein, denn wenn der Mittelwert des Prior Null war, dann ist der Mittelwert von wäre auch Null unter einer durch definierten Wahrscheinlichkeit , da sowohl der Prior als auch die Wahrscheinlichkeit gerade Funktionen von wären . Dh:
Wenn der Mittelwert von Null wäre, würden die Trainingssatzbezeichnungen keine Informationen über die Abfragepunktbezeichnung liefern , also dürfen wir dies eindeutig nicht erlaube das. Zusätzlich zur Definition von sollten wir vielleicht in Richtung positiv durch Angabe der vorherigen relativ kleinen Standardabweichungen, z. B. , wobei ist die Kovarianzfunktion und . Wenn wir dies tun, sollten wir wahrscheinlich auch's Argument, damit nicht unwahrscheinlich weit vom vorherigen Mittelwert entfernt sein muss, um kleine Werte von zu erzeugen : wobei .
Wäre dies ein vernünftiger Weg, um das Problem der Mehrdeutigkeit von Zeichen zu beheben?
Das Problem bei diesem Ansatz ist, dass die Anzahl der Terme in exponentiell mit der Anzahl der negativ markierten Punkte im Trainingssatz zunehmen würde, so dass die geschlossene Lösung für (3.9) hätte exponentielle zeitliche Komplexität. Genauer gesagt, wenn wir ohne Verlust der Allgemeinheit annehmen, dass dann Um eine geschlossene Lösung für (3.9) zu erhalten, müssen wir das erste Produkt in eine Summe von (nicht normalisierten) Gaußschen Funktionen erweitern, damit wir jede einzeln integrieren können:p(y|f) y1=…=ya=−1,ya+1=…=yn=+1, p(y|f)=(∏i=1a(1−g(fi)))∏i=a+1ng(fi). ∏i=1a(1−g(fi))=∑I∈P{1,…,a}(−1)|I|exp{−12∑i∈If2i}.
Es gibt Mengen in der Potenzmenge der negativ markierten Punktindizes , so dass das Lösen (3.9) das Rechnen beinhalten würde Gaußsche Integrale.2a P{1,…,a} {1,…,a} 2a
quelle