Was ist der Unterschied zwischen den Begriffen "Link-Funktion" und "Canonical Link-Funktion"? Gibt es auch irgendwelche (theoretischen) Vorteile, wenn man eins gegenüber dem anderen verwendet?
Beispielsweise kann eine binäre Antwortvariable unter Verwendung vieler Verknüpfungsfunktionen wie logit , probit usw. modelliert werden. Logit wird hier jedoch als die "kanonische" Verknüpfungsfunktion betrachtet.
logistic
generalized-linear-model
link-function
Steadyfish
quelle
quelle
Antworten:
Die obigen Antworten sind intuitiver, daher versuche ich es mit mehr Genauigkeit.
Was ist ein GLM?
Sei eine Menge einer Antwort und eines dimensionalen Kovariatenvektors mit dem erwarteten Wert . Für unabhängige Beobachtungen ist die Verteilung jedes eine Exponentialfamilie mit der Dichte Hier ist der interessierende Parameter (natürlicher oder kanonischer Parameter) , ist ein Skalenparameter (bekannt oder als störend angesehen) und und sind bekannte Funktionen. DieY=(y,x) y p x=(x1,…,xp) E(y)=μ i=1,…,n yi
Die Funktion heißt Link-Funktion. Wenn die Funktion , und so verbindet, dass , dann heißt diese Verknüpfung kanonisch und hat die Form .g(⋅) μ η θ η≡θ g=(γ′)−1
Das ist es. Dann gibt es eine Reihe wünschenswerter statistischer Eigenschaften für die Verwendung des kanonischen Links, z. B. ist die ausreichende Statistik mit den Komponenten für , die Newton-Methode und Fisher-Bewertung für Wenn der ML-Schätzer übereinstimmt, vereinfachen diese Verknüpfungen die Ableitung des MLE, stellen sicher, dass einige Eigenschaften der linearen Regression (z. B. die Summe der Residuen 0 ist) erhalten bleiben, oder stellen sicher, dass im Bereich der Ergebnisvariablen bleibt .∑ i x i j y i j = 1 , … , p μX′y ∑ixijyi j=1,…,p μ
Daher werden sie in der Regel standardmäßig verwendet. Beachten Sie jedoch, dass es keinen a priori Grund gibt, warum die Auswirkungen im Modell auf die Skala additiv sein sollten, die durch diesen oder einen anderen Link angegeben wird.
quelle
gung's zitiert eine gute erklärung: die kanonische verbindung besitzt spezielle theoretische eigenschaften von minimaler ausrei- chung. Dies bedeutet, dass Sie ein bedingtes Logit-Modell definieren können (das von den Ökonomen als Modell mit festem Effekt bezeichnet wird), indem Sie die Anzahl der Ergebnisse festlegen. Sie können jedoch kein bedingtes Probit-Modell definieren, da für den Probit-Link keine ausreichenden Statistiken vorhanden sind.
quelle
Hier ist ein kleines Diagramm, das von der 18.650- Klasse des MIT inspiriert ist. Ich finde es sehr nützlich, da es die Beziehungen zwischen diesen Funktionen veranschaulicht . Ich habe die gleiche Schreibweise wie in @ momos Beitrag verwendet:
Die Verknüpfungsfunktion bezieht den linearen Prädiktor auf den Mittelwert und muss monoton ansteigend, kontinuierlich differenzierbar und invertierbar sein.g
Das Diagramm ermöglicht es, einfach von einer Richtung in die andere zu wechseln, zum Beispiel:
θ = γ ′ - 1 ( g - 1 ( η ) )
Canonical Link-Funktion
Eine andere Möglichkeit, das, was Momo konsequent beschrieben hat, zu erkennen, besteht darin, dass, wenn die kanonische Verknüpfungsfunktion ist, die Funktionszusammensetzung ist die Identität und so erhalten wir γ - 1 ∘ g - 1 = ( g ∘ γ ' ) - 1 = I & theta; = ηg
quelle
Die obigen Antworten haben bereits das abgedeckt, was ich sagen möchte. Um einige Punkte als Forscher des maschinellen Lernens zu verdeutlichen:
Die Verbindungsfunktion ist nichts anderes als die Umkehrung der Aktivierungsfunktion. Zum Beispiel ist logit das Inverse von Sigmoid, probit das Inverse der kumulativen Verteilungsfunktion von Gauß.
Wenn der Parameter des verallgemeinerten linearen Modells nur von abhängt , wobei der Gewichtsvektor und die Eingabe ist, wird die Verknüpfungsfunktion als kanonisch bezeichnet.w xwTx w x
Die obige Diskussion hat nichts mit der exponentiellen Familie zu tun, aber eine nette Diskussion findet sich in Christopher Bishops PRML-Buch, Kapitel 4.3.6.
quelle