Jenseits der Fischerkerne

10

Für eine Weile schien es, als ob Fisher Kernels populär werden könnten, da sie eine Möglichkeit zu sein schienen, Kernel aus probabilistischen Modellen zu konstruieren. Ich habe sie jedoch selten in der Praxis gesehen, und ich bin der festen Überzeugung, dass sie in der Regel nicht sehr gut funktionieren. Sie stützen sich auf die Berechnung der Fisher Information - unter Angabe von Wikipedia:

Die Fisher-Information ist das Negative der Erwartung der zweiten Ableitung in Bezug auf θ des natürlichen Logarithmus von f. Informationen können als Maß für die "Krümmung" der Stützkurve nahe der Maximum-Likelihood-Schätzung (MLE) von θ angesehen werden.

Soweit ich das beurteilen kann, bedeutet dies, dass die Kernelfunktion zwischen zwei Punkten dann der Abstand entlang dieser gekrümmten Oberfläche ist - habe ich Recht?

Dies könnte jedoch für die Verwendung in Kernel-Methoden problematisch sein, wie z

  1. Die MLE ist möglicherweise eine sehr schlechte Schätzung für ein bestimmtes Modell
  2. Die Krümmung der Stützkurve um den MLE kann möglicherweise nicht zur Unterscheidung zwischen Instanzen verwendet werden, beispielsweise wenn die Likelihood-Oberfläche sehr spitz war
  3. Dies scheint viele Informationen über das Modell wegzuwerfen

Wenn dies der Fall ist, gibt es modernere Möglichkeiten, Kernel aus probabilistischen Methoden zu konstruieren? Könnten wir beispielsweise einen Hold-Out-Satz verwenden, um MAP-Schätzungen auf dieselbe Weise zu verwenden? Welche anderen Vorstellungen von Distanz oder Ähnlichkeit von probabilistischen Methoden könnten funktionieren, um eine (gültige) Kernelfunktion zu konstruieren?

tdc
quelle

Antworten:

9

Sie haben Recht mit den drei Themen, die Sie ansprechen, und Ihre Interpretation ist genau richtig.

Die Leute haben nach anderen Richtungen gesucht, um Kernel aus probabilistischen Modellen zu erstellen:

  • Moreno et al. Schlagen Sie Kullback-Leibler vor, obwohl, wenn dies Mercers Bedingungen erfüllt, nicht gut verstanden wurde, als ich dieses Problem beim Lesen betrachtete.

  • Jebara et al. schlagen inneres Produkt im Raum der Verteilungen vor. Dieses Papier klingt sehr nach dem, wonach Sie suchen: Sie können es hier herunterladen .

Ich habe sie vor einiger Zeit (2008) gelesen und bin mir nicht sicher, wie sich dieser Bereich in den letzten Jahren entwickelt hat.

Es gibt auch nicht-probabilistische Möglichkeiten, dies zu tun. Menschen in der Bioinformatik haben sich mit dynamischen Programmiertypen im Bereich von Strings usw. befasst. Diese Dinge sind nicht immer PSD und haben ihre eigenen Probleme.

carlosdc
quelle
1
jmlr.org/papers/volume10/martins09a/martins09a.pdf entwickelt eine Theorie von Kerneln im Zusammenhang mit der KL-Divergenz, die positiv-definitiv sind und nicht.
Dougal