Wenn ein Lernalgorithmus (z. B. Klassifizierung, Regression, Clustering oder Dimensionsreduktion) nur das Punktprodukt zwischen Datenpunkten verwendet Wir können implizit eine höherdimensionale Abbildung verwenden Durch den Kernel-Trick wird jede Instanz ausgetauscht, in der das Punktprodukt vom Kernel auftritt .
In linearen Modellen, beispielsweise SVMs, kann ein Achsenabschnitt berücksichtigt werden, der Datenpunkten eine konstante Spalte hinzufügt. Wenn wir den linearen Kernel verwenden Es macht für mich sehr viel Sinn, diese Spalte konstant zu halten: Sie können die Spaltenkoeffizienten abrufen aus den Kernel-Produktkoeffizienten durch und die Lösungen sollten identisch sein, mit dem Kernel oder nicht.
Was aber, wenn der Kernel nicht linear ist, was ist, wenn die Abbildung unendlich dimensioniert ist, sodass die Spaltenkoeffizienten nicht dargestellt werden können? Ist es immer noch sinnvoll, einen Intercept-Begriff aufzunehmen?
Antworten:
Teilantwort:
Ich konzentrierte mich eine Weile auf SVMs und kam zu dieser Referenz (von @DikranMarsupial im Bias-Begriff in Support Vector Machine gezeigt ):
Auszug:
In ihrer Schlussfolgerung erwähnen sie, dass die Verwendung eines Bias-Terms damit zusammenhängt, dass bestimmte Werte für Klassifizierungsschwellen in SVMs nicht privilegiert werden. Ebenfalls:
Für unendlich bedingt positive bestimmte Kernel ist de facto der b- Term erforderlich, um eine natürliche Interpretation des Optimierers zu ermöglichen.
Für positiv definierte Kernel ist die natürliche Wahl ohne den b- Begriff, es ist jedoch möglich, einen zu verwenden, was tatsächlich zu einer anderen Kernel-Interpretation führt, die sich von der ohne unterscheidet.
Stellen Sie sicher, dass der Minimierer mit einem expliziten Parameter b geschrieben ist , der optimiert werden soll.
quelle