Für eine Weile schien es, als ob Fisher Kernels populär werden könnten, da sie eine Möglichkeit zu sein schienen, Kernel aus probabilistischen Modellen zu konstruieren. Ich habe sie jedoch selten in der Praxis gesehen, und ich bin der festen Überzeugung, dass sie in der Regel nicht sehr gut funktionieren. Sie stützen sich auf die Berechnung der Fisher Information - unter Angabe von Wikipedia:
Die Fisher-Information ist das Negative der Erwartung der zweiten Ableitung in Bezug auf θ des natürlichen Logarithmus von f. Informationen können als Maß für die "Krümmung" der Stützkurve nahe der Maximum-Likelihood-Schätzung (MLE) von θ angesehen werden.
Soweit ich das beurteilen kann, bedeutet dies, dass die Kernelfunktion zwischen zwei Punkten dann der Abstand entlang dieser gekrümmten Oberfläche ist - habe ich Recht?
Dies könnte jedoch für die Verwendung in Kernel-Methoden problematisch sein, wie z
- Die MLE ist möglicherweise eine sehr schlechte Schätzung für ein bestimmtes Modell
- Die Krümmung der Stützkurve um den MLE kann möglicherweise nicht zur Unterscheidung zwischen Instanzen verwendet werden, beispielsweise wenn die Likelihood-Oberfläche sehr spitz war
- Dies scheint viele Informationen über das Modell wegzuwerfen
Wenn dies der Fall ist, gibt es modernere Möglichkeiten, Kernel aus probabilistischen Methoden zu konstruieren? Könnten wir beispielsweise einen Hold-Out-Satz verwenden, um MAP-Schätzungen auf dieselbe Weise zu verwenden? Welche anderen Vorstellungen von Distanz oder Ähnlichkeit von probabilistischen Methoden könnten funktionieren, um eine (gültige) Kernelfunktion zu konstruieren?