Was sind die Vorteile von MKL-Methoden (Multiple Kernel Learning)?

8

Mehrere Kernel-Lernmethoden zielen darauf ab, ein Kernelmodell zu erstellen, bei dem der Kernel eine lineare Kombination von Kerneln mit fester Basis ist. Das Erlernen des Kernels besteht dann darin, die Gewichtungskoeffizienten für jeden Basiskern zu lernen, anstatt die Kernelparameter eines einzelnen Kernels zu optimieren.

Die Nachteile des Lernens mehrerer Kernel scheinen darin zu liegen, dass sie weniger interpretierbar und rechenintensiv sind (um die Modellausgabe zu bewerten, müssen Sie alle Basiskerne bewerten). Wenn also eine ähnliche Leistung durch einfaches Optimieren eines einzelnen Kernels erzielt werden kann, welche Vorteile bietet MKL?

Dikran Beuteltier
quelle
Was bedeutet "Parameter eines einzelnen Kernels optimieren"? wir parametrisieren die Grammmatrix von k (x, y)? oder der Feature-Zuordnung Phi (x)? Gibt es überhaupt einen systematischen Weg, dies zu tun? Oder ist es so, als würde man eine Kreuzvalidierung für eine Reihe von Kerneln ausführen und dann die beste auswählen?
Geralt von Rivia
@GeraltofRivia Ich meine nur das Optimieren der Hyperparameter einer grundlegenden Kernelfunktion (z. B. des Skalierungsparameters eines RBF-Kernels). Ein RBF-Kernel ist in Bezug auf die Generalisierungsleistung überraschend schwer zu übertreffen, und eine gewichtete Summe von Kerneln (einschließlich des RBF) scheint zumindest für mich weniger interpretierbar zu sein.
Dikran Beuteltier

Antworten:

14

Es gibt zwei Vorteile (oder vielmehr zwei Anwendungsfälle):

  1. Für jede Anwendung von SVMs muss ein Benutzer auswählen, welcher Kernel verwendet werden soll, und manchmal sogar seine eigenen Kernelmatrizen entwerfen. Ist es möglich, die Auswahl von Kerneln oder speziellen Kernel-Designs zu vereinfachen? MKL war ein Schritt in diese Richtung.

  2. Der zweite Fall ist meiner Meinung nach ein weitaus überzeugenderer Fall. Beachten Sie, dass Ihre Dateneingabe Videodaten + cc ist. Die Funktionsdarstellung jedes Videos besteht aus Videofunktionen, Audiofunktionen und Textfunktionen. Solche Daten sind als multimodale Daten bekannt. Jeder Satz dieser Funktionen erfordert möglicherweise einen anderen Ähnlichkeitsbegriff (einen anderen Kernel). Ist es möglich, einen Kernel für jeden dieser Modi zu definieren und linear zu kombinieren, anstatt einen speziellen Kernel für solche Anwendungen zu erstellen?

TenaliRaman
quelle
1
+1 Ich bin jedoch nicht davon überzeugt, dass [1] mit MKL einfacher ist, als nur eine lineare Kombination von Kerneln zu haben und die Gewichtungsfaktoren beispielsweise über eine Kreuzvalidierung auszuwählen. Dies erhöht auch die Wahrscheinlichkeit einer Überanpassung, da jetzt mehr Parameter zu schätzen sind. Wie Sie sagen, ist [2] viel überzeugender.
Dikran Beuteltier
2
Ihr werdet an diesem Artikel von McFee und Lanckriet in JMLR 2011 interessiert sein
jmlr.csail.mit.edu/papers/v12/mcfee11a.html