Ich werde versuchen, diese Frage durch logistische Regression zu beantworten , einen der einfachsten linearen Klassifikatoren.
Der einfachste Fall einer logistischen Regression besteht darin, dass wir eine binäre Klassifizierungsaufgabe ( und nur ein Eingabemerkmal ( x ∈ R ) haben. In diesem Fall wäre die Ausgabe der logistischen Regression:y∈{0,1})x∈R
y^= σ ( w ⋅ x + b )
wobei und beide
Skalare sind . Die Ausgabe des Modells entspricht der Wahrscheinlichkeit, dass der Klasse .
bwbx1y^∈ [ 0 , 1 ]x1
Wir werden versuchen, den Ausdruck "Lineare Klassifizierer teilen keine Parameter zwischen Features und Klassen" in zwei Teile aufzuteilen. Wir werden die Fälle mehrerer Features und mehrerer Klassen separat untersuchen, um festzustellen, ob die logistische Regression Parameter für diese Aufgaben gemeinsam hat:
Teilen sich lineare Klassifikatoren Parameter zwischen Features?
In diesem Fall ist für jedes Beispiel ein Skalar, der (wie zuvor) Binärwerte annimmt, während ein Vektor der Länge (wobei die Anzahl der Merkmale ist). Hier ist die Ausgabe eine lineare Kombination der Eingabemerkmale (dh eine gewichtete Summe dieser Merkmale plus der Verzerrungen).xyxNNN
x w N x ⋅ w w i x i
y^=σ(∑iN(wi⋅xi)+b)orσ(w⋅x+b)
wobei und Vektoren der Länge . Das Produkt erzeugt einen Skalar. Wie Sie oben sehen können, gibt es für jedes Eingabemerkmal ein
separates Gewicht und diese Gewichte sind auf alle
unabhängig . Daraus können wir schließen, dass es
keine gemeinsame Nutzung von Parametern zwischen den Features gibt .
xwNx⋅w wixi
Teilen lineare Klassifikatoren Parameter zwischen Klassen?
In diesem Fall ist ein Skalar, jedoch ist ein Vektor der Länge (wobei die Anzahl der Klassen ist). Um dies in Angriff zu nehmen, erzeugt die logistische Regression im Wesentlichen eine separate Ausgabe für jede der Klassen. Jeder Ausgang ist ein Skalar und entspricht der Wahrscheinlichkeit, dass zur Klasse .y M M y j M y j ∈ [ 0 , 1 ] x jxyMMyjMyj∈[0,1]xj
y^=w⋅x+b,wherey^=y^1,y^2,...,yM
Dies lässt sich am einfachsten als einfache unabhängige logistische Regressionen mit einer Ausgabe von jeweils:M
y^j=σ(wj⋅x+bj)
Aus dem Obigen ist ersichtlich, dass keine Gewichte zwischen den verschiedenen Klassen geteilt werden .
Multi-Feature und Multi-Class :
Durch die Kombination der beiden oben genannten Fälle können wir endlich den allgemeinsten Fall mehrerer Features und mehrerer Klassen erreichen:
y MxNBMW(N×M)
y^=σ(W⋅x+b)
wobei ein Vektor mit einer Größe von , ein Vektor mit einer Größe von , ist ein Vektor mit einer Größe von und ist eine Matrix mit einer Größe von .
y^MxNbMW(N×M)
In jedem Fall teilen lineare Klassifizierer keine Parameter zwischen Features oder Klassen .
Zur Beantwortung Ihrer zweiten Frage gehen lineare Klassifikatoren von der Annahme aus, dass Features unabhängig sein müssen. Dies ist jedoch nicht die Absicht des Autors des Artikels.