Bedeutung von 'Anzahl der Parameter' in AIC

21

Bei der Berechnung von AIC

AIC=2k2lnL

k bedeutet "Anzahl der Parameter". Aber was zählt als Parameter? So zum Beispiel im Modell

y=ax+b

Werden a und b immer als Parameter gezählt? Was ist, wenn mir der Wert des Abschnitts egal ist, kann ich ihn ignorieren oder zählt er immer noch?

Was wäre wenn

y=af(c,x)+b

Wo eine Funktion von c und x ist, zähle ich jetzt 3 Parameter?f

Nebenschau Bob
quelle
9
Dies ist eine gute Frage, da es eine Subtilität gibt: ist die Anzahl der zu schätzenden identifizierbaren Parameter. Obwohl im Regressionsmodell fünf Parameter geschrieben sind, ist dennoch . (Dieses Modell entspricht mit und , die explizit nur vier Parameter benötigen .)kYN(β0+β1X1+β2X2+β3(X1+X2),σ2) Y N ( β 0 + α 1 X 1 + α 2 X 2 , σ 2 ) α 1 = β 1 + β 3 α 2 = β 2 + β 3k=4YN(β0+α1X1+α2X2,σ2)α1=β1+β3α2=β2+β3
whuber
3
Streng genommen zählen Sie alle identifizierbaren, freien Parameter - mittlere Parameter, Form- und Skalierungsparameter, unabhängig davon, was für AIC ist. Für AIC ist es jedoch ohne Bedeutung, wenn Sie die für die zu vergleichenden Modelle gemeinsamen Parameter weglassen. Bei der Regression sollten Sie beispielsweise den Varianzparameter zählen. Nach meiner Zählung sind alle Ihre Parameterzählungen in Ihrer Frage eine kurze Zahl - aber wenn es in allen Modellen genau eine gibt, schadet es nicht, sie für AIC fallen zu lassen. R zählt den Varianzparameter explizit, wenn AIC in Regressionsmodellen berechnet wird. C
Glen_b -Reinstate Monica
@whuber Warum wird dieser exzellente Kommentar nicht als Antwort gepostet? :)
Alexis
Vielen Dank, @Alexis. Ich habe diesen Gedanken als Kommentar gepostet, weil die Idee in P Schnells Antwort ausreichend behandelt wird: Ich wollte ihn nur ein wenig mehr betonen.
Whuber

Antworten:

17

Wie bereits erwähnt, steht für die Anzahl der geschätzten Parameter . Mit anderen Worten, es ist die Anzahl der zusätzlichen Mengen, die Sie wissen müssen, um das Modell vollständig zu spezifizieren. Im einfachen linearen Regressionsmodell y = a x + b können Sie a , b oder beides schätzen . Welche Mengen Sie nicht schätzen, müssen Sie korrigieren. Es gibt kein "Ignorieren" eines Parameters in dem Sinne, dass Sie ihn nicht kennen und sich nicht darum kümmern. Das gebräuchlichste Modell, das nicht sowohl a als auch b schätzt, ist das No-Intercept-Modell, bei dem wir b = 0 festlegenk

y=ax+b
ababb=0. Dies wird 1 Parameter haben. Sie können oder b = 1 genauso gut korrigieren, wenn Sie Grund zu der Annahme haben, dass es die Realität widerspiegelt. (Feiner Punkt: σ ist auch ein Parameter in einer einfachen linearen Regression, aber da es in jedem Modell vorhanden ist, können Sie es fallen lassen, ohne die Vergleiche von AIC zu beeinflussen.)a=2b=1σ

Wenn Ihr Modell ist, hängt die Anzahl der Parameter davon ab, ob Sie einen dieser Werte festlegen, und von der Form von f . Wenn wir beispielsweise a , b , c schätzen wollen und wissen, dass f ( c , x ) = x c ist , haben wir beim Ausschreiben des Modells y = a x c + b mit drei unbekannten Parametern. Wenn jedoch f ( c ,

y=af(c,x)+b
fa,b,cf(c,x)=xc
y=axc+b
, dann haben wir das Modell y = a c x + b, das wirklich nur zwei Parameter hat: a c und b .f(c,x)=cx
y=acx+b
acb

Es ist entscheidend, dass eine Familie von Funktionen ist, die durch c indiziert werden . Wenn Sie nur wissen, dass f ( c , x ) stetig ist und es von c und x abhängt , haben Sie Pech, weil es unzählige stetige Funktionen gibt.f(c,x)cf(c,x)cx

P Schnell
quelle
2
(+1) Vielleicht erwähnenswert, dass "Schätzung" durchgehend "Schätzung nach Maximalwahrscheinlichkeit" bedeutet.
Scortchi - Wiedereinsetzung von Monica
f(c,x)ccr2c
2
@SideshowBob: Ja - Wenn Sie zwei Modelle vergleichen, ist der Unterschied in den maximierten Log-Wahrscheinlichkeiten ein verzerrter Schätzer für den Unterschied im erwarteten Kullback-Leibler-Informationsverlust und der Strafbegriff in AIC korrigiert ungefähr diesen Verzerrungsfaktor.
Scortchi
1
@SideshowBob: Ich sollte erwähnen, dass es Modifikationen von AIC für verallgemeinerte Schätzungsgleichungen und dergleichen gibt - sie verwenden eine maximierte Quasi-Wahrscheinlichkeit und einen etwas komplexeren Strafbegriff.
Scortchi
4

AIC=2k2ln(L)

(siehe hier )

k

k

Ich fühle mich nicht kompetent genug, um Ihre zweite Frage zu beantworten. Ich überlasse sie einem anderen Mitglied der Community.

mugen
quelle
1
λ
1
Ja sicher.
PA6OTA
1

Erstens für diejenigen, die mit AIC nicht vertraut sind: Das Akaike Information Criterion (AIC) ist eine einfache Metrik, mit der die "Güte" von Modellen verglichen werden kann.

Laut AIC gilt das Modell mit dem niedrigeren AIC als "besser" , wenn versucht wird, zwischen zwei verschiedenen Modellen zu wählen, die auf die gleichen Eingangs- und Antwortvariablen angewendet werden , dh Modelle, die zur Lösung des gleichen Problems entwickelt wurden.

k

cf(c,x)k

Arielf
quelle