Sollten wir den Intercept-Term bei der Kernelisierung von Algorithmen berücksichtigen?

Wenn ein Lernalgorithmus (z. B. Klassifizierung, Regression, Clustering oder Dimensionsreduktion) nur das Punktprodukt zwischen Datenpunkten verwendet $\mathbf {x x^T}$ Wir können implizit eine höherdimensionale Abbildung verwenden $\phi(\mathbf x)$ Durch den Kernel-Trick wird jede Instanz ausgetauscht, in der das Punktprodukt vom Kernel auftritt $\mathbf K = \phi(\mathbf x) \phi(\mathbf x) ^ \mathbf T$ .

In linearen Modellen, beispielsweise SVMs, kann ein Achsenabschnitt berücksichtigt werden, der Datenpunkten eine konstante Spalte hinzufügt. Wenn wir den linearen Kernel verwenden $\mathbf K = \mathbf {x x^T}$ Es macht für mich sehr viel Sinn, diese Spalte konstant zu halten: Sie können die Spaltenkoeffizienten abrufen $\mathbf w$ aus den Kernel-Produktkoeffizienten $\mathbf u$ durch $\mathbf{w=x^T u}$ und die Lösungen sollten identisch sein, mit dem Kernel oder nicht.

Was aber, wenn der Kernel nicht linear ist, was ist, wenn die Abbildung unendlich dimensioniert ist, sodass die Spaltenkoeffizienten nicht dargestellt werden können? $\mathbf{w=\phi(\mathbf x)^T u}$ Ist es immer noch sinnvoll, einen Intercept-Begriff aufzunehmen?

regression machine-learning classification kernel-trick Firebug
quelle

Wenn der Kernel stationär ist, macht der Achsenabschnitt per Definition keinen Unterschied.

Sycorax sagt Reinstate Monica

Antworten:

Teilantwort:

Ich konzentrierte mich eine Weile auf SVMs und kam zu dieser Referenz (von @DikranMarsupial im Bias-Begriff in Support Vector Machine gezeigt ):

T. Poggio, S. Mukherjee, R. Rifkin & A. Rakhlin (2001). Verri, A. b . In Proceedings der Konferenz über Unsicherheit in geometrischen Berechnungen .

Auszug:

Dieses Papier widmet sich der Beantwortung der folgenden Fragen: Wann sollte b verwendet werden? Gibt es eine Wahl, ob Sie b verwenden oder nicht ? Was bedeutet die Wahl? Unterscheiden sich die Antworten für RNs (Regularization Networks) und SVMs? [...]

In ihrer Schlussfolgerung erwähnen sie, dass die Verwendung eines Bias-Terms damit zusammenhängt, dass bestimmte Werte für Klassifizierungsschwellen in SVMs nicht privilegiert werden. Ebenfalls:

Für unendlich bedingt positive bestimmte Kernel ist de facto der b- Term erforderlich, um eine natürliche Interpretation des Optimierers zu ermöglichen.
Für positiv definierte Kernel ist die natürliche Wahl ohne den b- Begriff, es ist jedoch möglich, einen zu verwenden, was tatsächlich zu einer anderen Kernel-Interpretation führt, die sich von der ohne unterscheidet.

Stellen Sie sicher, dass der Minimierer mit einem expliziten Parameter b geschrieben ist , der optimiert werden soll.

Firebug
quelle