Diese Frage wird unter stats.stackexchange.com/q/233658 beantwortet
Das logistische Regressionsmodell für die Klassen {0, 1} lautet
Diese Wahrscheinlichkeiten summieren sich eindeutig zu 1. Durch Setzen von wir auch die logistische Regression als definieren
Die zweite Definition wird jedoch selten verwendet, da die Koeffizienten und nicht eindeutig sind. Mit anderen Worten, das Modell ist nicht identifizierbar, genau wie die lineare Regression mit zwei Variablen, die Vielfache voneinander sind.
Frage
Warum wird beim maschinellen Lernen das Softmax-Regressionsmodell für die Klassen {0, 1, ..., K - 1} normalerweise wie folgt definiert?
Sollte es nicht stattdessen sein
Randnotiz: In der Statistik wird die Softmax-Regression als multinomiale logistische Regression bezeichnet, und die Klassen sind {1, ..., K}. Ich finde das etwas umständlich, denn wenn K = 2 ist, sind die Klassen {1, 2} anstelle von {0, 1}, so dass es nicht gerade eine Verallgemeinerung der logistischen Regression ist.
Antworten:
Ja, Sie haben Recht, dass es an Identifizierbarkeit mangelt, es sei denn, einer der Koeffizientenvektoren ist fest. Es gibt einige Gründe, die dies nicht erwähnen. Ich kann nicht sagen, warum sie dieses Detail weglassen, aber hier ist eine Erklärung, was es ist und wie es behoben werden kann.
Beschreibung
Die Softmax-Funktion ist in der Tat definiert als das schöne Eigenschaften wie Differenzierbarkeit hat, summiert sich zu usw.softmax(z)i=exp(zi)∑K−1l=0exp(zl), 1
Die multinomiale logistische Regression verwendet die Softmax-Funktion für jede Beobachtung auf dem Vektori ⎡⎣⎢⎢⎢⎢⎢x⊺iβ0x⊺iβ1⋮x⊺iβK−1,⎤⎦⎥⎥⎥⎥⎥
was bedeutet⎡⎣⎢⎢⎢⎢⎢P(yi=0)P(yi=1)⋮P(yi=K−1)⎤⎦⎥⎥⎥⎥⎥=⎡⎣⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢exp[x⊺iβ0]∑K−1k=0exp[x⊺iβk]exp[x⊺iβ1]∑K−1k=0exp[x⊺iβk]⋮exp[x⊺iβK−1]∑K−1k=0exp[x⊺iβk]⎤⎦⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥.
Das Problem
Die Wahrscheinlichkeit ist jedoch nicht identifizierbar, da mehrere Parametersammlungen dieselbe Wahrscheinlichkeit ergeben. Wenn Sie beispielsweise alle Koeffizientenvektoren um denselben Vektor wird dieselbe Wahrscheinlichkeit erzeugt. Dies ist ersichtlich, wenn Sie den Zähler und Nenner jedes Elements des Vektors mit einer Konstanten multiplizieren. Daran ändert sich nichts:c exp[−x⊺ic]
Es reparieren
Um dies zu beheben, müssen Sie die Parameter einschränken. Das Reparieren eines von ihnen führt zur Identifizierbarkeit, da das Verschieben aller nicht mehr zulässig ist.
Es gibt zwei gängige Möglichkeiten:
Ignoriere es
Manchmal ist die Einschränkung jedoch nicht erforderlich. Zum Beispiel, wenn Sie für die Menge einen Konfidenzintervall interessiert waren bei der Bildung , dann ist dies das gleiche wie , so Folgerung auf Relative Mengen spielen keine Rolle. Wenn Ihre Aufgabe eine Vorhersage anstelle einer Parameterinferenz ist, bleiben Ihre Vorhersagen unberührt, wenn alle Koeffizientenvektoren geschätzt werden (ohne einen einzuschränken).β01−β21 β01−c−[β21−c]
quelle