Was ist der Unterschied zwischen einer "Linkfunktion" und einer "kanonischen Linkfunktion" für GLM?

65

Was ist der Unterschied zwischen den Begriffen "Link-Funktion" und "Canonical Link-Funktion"? Gibt es auch irgendwelche (theoretischen) Vorteile, wenn man eins gegenüber dem anderen verwendet?

Beispielsweise kann eine binäre Antwortvariable unter Verwendung vieler Verknüpfungsfunktionen wie logit , probit usw. modelliert werden. Logit wird hier jedoch als die "kanonische" Verknüpfungsfunktion betrachtet.

Steadyfish
quelle
10
Ich werde hier ausführlich auf Link-Funktionen eingehen: Unterschied zwischen Logit- und Probit-Modellen , wobei der Schwerpunkt auf der Regression für eine binäre Antwortvariable liegt. Obwohl sich nur ein kleiner Teil dieser Diskussion mit der Bedeutung der Kanonizität einer Link-Funktion befasst, kann das Lesen dennoch hilfreich sein. Beachten Sie, dass zum Verständnis der Unterscheidung zwischen b / t und den Vorteilen einer kanonischen und einer nichtkanonischen Verknüpfungsfunktion ein ziemlich tiefer Einblick in die dem GLiM zugrunde liegende Mathematik erforderlich ist.
gung - Wiedereinsetzung von Monica

Antworten:

68

Die obigen Antworten sind intuitiver, daher versuche ich es mit mehr Genauigkeit.

Was ist ein GLM?

Sei eine Menge einer Antwort und eines dimensionalen Kovariatenvektors mit dem erwarteten Wert . Für unabhängige Beobachtungen ist die Verteilung jedes eine Exponentialfamilie mit der Dichte Hier ist der interessierende Parameter (natürlicher oder kanonischer Parameter) , ist ein Skalenparameter (bekannt oder als störend angesehen) und und sind bekannte Funktionen. DieY=(y,x)ypx=(x1,,xp)E(y)=μi=1,,nyi

f(yi;θi,ϕ)=exp{[yiθiγ(θi)]/ϕ+τ(yi,ϕ)}
θiϕγτnVektoren fester Eingabewerte für die erklärenden Variablen werden mit . Wir gehen davon aus, dass der Eingangsvektoren Einfluss (1) nur über eine lineare Funktion, den linearen Prädiktor, , auf dem abhängt. Wie gezeigt werden kann, dass , wird diese Abhängigkeit hergestellt, indem der lineare Prädiktor und über den Mittelwert verbunden werden. Insbesondere wird der Mittelwert als eine invertierbare und glatte Funktion des linearen Prädiktors angesehen, dh px1,,xp
ηi=β0+β1xi1++βpxip
θiθ=(γ)1(μ)ηθμ
g(μ)=η or μ=g1(η)
Nun zur Beantwortung Ihrer Frage:

Die Funktion heißt Link-Funktion. Wenn die Funktion , und so verbindet, dass , dann heißt diese Verknüpfung kanonisch und hat die Form .g()μηθηθg=(γ)1

Das ist es. Dann gibt es eine Reihe wünschenswerter statistischer Eigenschaften für die Verwendung des kanonischen Links, z. B. ist die ausreichende Statistik mit den Komponenten für , die Newton-Methode und Fisher-Bewertung für Wenn der ML-Schätzer übereinstimmt, vereinfachen diese Verknüpfungen die Ableitung des MLE, stellen sicher, dass einige Eigenschaften der linearen Regression (z. B. die Summe der Residuen 0 ist) erhalten bleiben, oder stellen sicher, dass im Bereich der Ergebnisvariablen bleibt .i x i j y i j = 1 , , p μXyixijyij=1,,pμ

Daher werden sie in der Regel standardmäßig verwendet. Beachten Sie jedoch, dass es keinen a priori Grund gibt, warum die Auswirkungen im Modell auf die Skala additiv sein sollten, die durch diesen oder einen anderen Link angegeben wird.

Momo
quelle
5
+1, das ist eine wirklich schöne Antwort, @Momo. Ich fand einige der Gleichungen schwieriger zu lesen, als sie in den Absätzen vergraben waren, deshalb habe ich sie mit doppelten Dollarzeichen (dh $ $) "ausgeblendet" . Ich hoffe, das ist in Ordnung (wenn nicht, können Sie mit meiner Entschuldigung ein Rollback durchführen).
gung - Wiedereinsetzung von Monica
1
@Momo Die ursprüngliche Frage hier enthält jedoch das, was Wei gefragt hat. Es lohnt sich also darauf hinzuweisen, dass diese Frage noch nicht eindeutig beantwortet wurde.
Glen_b
1
Ich hoffe , ich verstehe Ihre Verwirrung richtig: In der Exponentialfamilie Sie sprechen, die kanonischen Parameter und die kanonische Verbindung ist , wenn , das ist , wenn . Als auch (wenn Sie den erwarteten Wert der ersten Ableitung in Bezug auf der Wahrscheinlichkeitsfunktion berechnen ) der einzige Fall, wenn erscheint, wenn . & eegr; = θ g ( μ ) = θ θ = ( γ ' ) - 1 ( μ )θη=θg(μ)=θθ=(γ)1(μ)θθμg(.)=(γ)1(.)
Momo
1
Vielen Dank. Im vorherigen Beispiel ist . Daher . Wie Sie sagten (ich formuliere es nur um), haben wir nur wenn Der kanonische Link ist, der das Logit ist. Dann haben wir . Die Gleichheit zwischen und dem Prädiktor existiert also nur, wenn wir die kanonische Verknüpfungsfunktion verwenden. (γ')-1(.)=(.) Logitη=θg(.)Θ=logit(π)=ηθηγ(θ)=π=exp(θ)1+exp(θ)(γ)1(.)=logit(.)η=θg(.)θ=logit(π)=ηθη
Druss2k
2
Es scheint, dass der Schlüsselsatz der Antwort einen Tippfehler enthält: Sollte er nicht "Wenn die Funktion und st " lauten ? θ η θμθηθ
Leo Alekseyev
16

gung's zitiert eine gute erklärung: die kanonische verbindung besitzt spezielle theoretische eigenschaften von minimaler ausrei- chung. Dies bedeutet, dass Sie ein bedingtes Logit-Modell definieren können (das von den Ökonomen als Modell mit festem Effekt bezeichnet wird), indem Sie die Anzahl der Ergebnisse festlegen. Sie können jedoch kein bedingtes Probit-Modell definieren, da für den Probit-Link keine ausreichenden Statistiken vorhanden sind.

StasK
quelle
Können Sie ein wenig über die minimale Suffizienz erläutern? Durch die obige Erklärung können wir immer noch ein Probit-Modell definieren, oder? Es wird sicher nicht die Canonical Link-Funktion sein, aber was schadet der Verwendung einer nicht-Canonical Link-Funktion?
Pikachuchameleon
9

Hier ist ein kleines Diagramm, das von der 18.650- Klasse des MIT inspiriert ist. Ich finde es sehr nützlich, da es die Beziehungen zwischen diesen Funktionen veranschaulicht . Ich habe die gleiche Schreibweise wie in @ momos Beitrag verwendet:

Bildbeschreibung hier eingeben

  • γ(θ) ist die kumulative Momenterzeugungsfunktion
  • g(μ) ist die Verknüpfungsfunktion

Die Verknüpfungsfunktion bezieht den linearen Prädiktor auf den Mittelwert und muss monoton ansteigend, kontinuierlich differenzierbar und invertierbar sein.g

Das Diagramm ermöglicht es, einfach von einer Richtung in die andere zu wechseln, zum Beispiel:

θ = γ - 1 ( g - 1 ( η ) )

η=g(γ(θ))
θ=γ1(g1(η))

Canonical Link-Funktion

Eine andere Möglichkeit, das, was Momo konsequent beschrieben hat, zu erkennen, besteht darin, dass, wenn die kanonische Verknüpfungsfunktion ist, die Funktionszusammensetzung ist die Identität und so erhalten wir γ - 1g - 1 = ( g γ ' ) - 1 = I & theta; = ηg

γ1g1=(gγ)1=I
θ=η
Xavier Bourret Sicotte
quelle
1

Die obigen Antworten haben bereits das abgedeckt, was ich sagen möchte. Um einige Punkte als Forscher des maschinellen Lernens zu verdeutlichen:

  1. Die Verbindungsfunktion ist nichts anderes als die Umkehrung der Aktivierungsfunktion. Zum Beispiel ist logit das Inverse von Sigmoid, probit das Inverse der kumulativen Verteilungsfunktion von Gauß.

  2. Wenn der Parameter des verallgemeinerten linearen Modells nur von abhängt , wobei der Gewichtsvektor und die Eingabe ist, wird die Verknüpfungsfunktion als kanonisch bezeichnet.w xwTxwx

Die obige Diskussion hat nichts mit der exponentiellen Familie zu tun, aber eine nette Diskussion findet sich in Christopher Bishops PRML-Buch, Kapitel 4.3.6.

Guojun Zhang
quelle