Ableitung von Konfidenz- und Vorhersageintervallen von Vorhersagen für Probit und Logit (und GLMs im Allgemeinen)

8

Die Ableitung des Vorhersageintervalls für das lineare Modell ist recht einfach: Erhalten einer Formel für Vorhersagegrenzen in einem linearen Modell .

Wie lassen sich die Konfidenz- und Vorhersageintervalle für die angepassten Werte der Logit- und Probit-Regressionen (und GLMs im Allgemeinen) ableiten ?

Statistiklerner
quelle
Definieren Sie "Vorhersagen" für ein binäres Ergebnis als Stichprobenmittelwert, wie einen Anteil oder einen Prozentsatz?
AdamO
@AdamO Ich denke, er / sie definiert Vorhersagen der logistischen Regression als die vorhergesagte bedingte Wahrscheinlichkeit. Das heißt, die Vorhersage ist , ein Schätzer für , nicht . p^(x)P(Y|X=x)Y^(x)
DeltaIV
@AdamO gute Frage, ich möchte ein Intervall, in dem meine Vorhersagen die zukünftigen Werte von 95% der Zeit abdecken . Dies könnte mit einem Intervall für geschehen , das sich in einem Intervall von Vorhersagen niederschlägt (das trivial entweder nur 0, nur 1 oder 0 und 1 sein würde, denke ich). yp^
Statistikschüler
1
@statslearner Ich verstehe nicht. Haben Sie eine endliche Intervall wollen, die den zukünftigen Wert deckt , der Zeit? Hier ist es: . Es kommt nicht einmal auf , was könnte man mehr verlangen? Im Ernst, ich halte es nicht für sinnvoll, nach einem Vorhersageintervall mit einer Bernoulli-Ausgabe zu fragen. Wenn Sie dagegen die logistische Regression für eine Binomialvariable verwenden, ist ein Vorhersageintervall sinnvoll ...y100%I=[0,1]x
DeltaIV
@statslearner hmmm warte, vielleicht reden wir über das gleiche. Fixieren Sie , nehmen Sie mal ab und suchen Sie nach einem Vorhersageintervall für die Anzahl der Erfolge? Die Punktschätzung ist offensichtlich , und ein trivialer PI ist , aber Sie möchten ein besseres (kürzeres) Intervall. Wenn ja, schauen Sie hier: stats.stackexchange.com/questions/255570/…xy|x nnp^(x)100%[0,n]
DeltaIV

Antworten:

9

In GLM ist die Vorhersage eine nichtlineare Funktion des Produkts der Kovariaten mit dem geschätzten Koeffizientenvektor : Endliche Stichprobenverteilung von ist im Allgemeinen unbekannt, aber solange eine maximale Wahrscheinlichkeitsschätzung ist , hat es eine asymptotische Normalverteilung , wobei ist die hessische Matrix der Wahrscheinlichkeitsfunktion in ihrem Maximum. Die p-Werte vonfXβ^

y^=f(Xβ^)
β^β^ N(β,H1)Hβdie als Ergebnis einer Regression gezeigt werden, basieren fast immer auf dieser Asymptotik. Wenn Sie jedoch der Meinung sind, dass Ihre Stichprobe für Asymptotika zu klein ist, verwenden Sie die numerische Verteilung (z. B. Bootstrapping).

Wenn Sie die asymptotische Normalverteilung von (und damit ) verwenden, ist die Verteilung von aufgrund von nichtlinearem immer noch nicht normal . Sie können es ignorieren - erhalten Sie normale Konfidenzgrenzen für und fügen Sie sie in , wobei Sie Grenzen für als .β^Xβ^y^f(zlower,zupper)Xβfy(ylower,yupper)=(f(zlower),f(zupper))

Eine andere Strategie ( Delta-Methode genannt ) besteht darin, eine Taylor-Erweiterung von um - sie wird in linear sein . Daher können Sie die Verteilung von als fXβ^β^f(Xβ^)

f(Xβ^)N(f(Xβ),(f(Xβ))2XH1XT)

Dann würde das asymptotische 95% -Konfidenzintervall für so aussehenf(Xβ)

f(Xβ^)±1.96(f(Xβ^))2XH(β^)1XT

Jetzt müssen Sie nur noch Ausdruck für hessische Matrizen für bestimmte Modelle finden, wie z. B. die logistische Regression in dieser Frage . Und diese Frage bietet einen praktischen Vergleich von Bootstrap, transformierten Normalgrenzen und Delta-Methode für die logistische Regression.

David Dale
quelle
2
Aber gibt das ein Konfidenzintervall oder ein Vorhersageintervall von . Es sieht nur nach einem Konfidenzintervall aus, nicht wahr? Es ist der Ansicht, dass für ein Vorhersageintervall ein zusätzliches Rauschen berücksichtigt werden sollte. y^
Statistikschüler
Das ist in der Tat nur ein Konfidenzintervall. Bei binären Antwortmodellen (wie Logit und Probit) ist die Vorhersage jedoch bereits probabilistisch - die tatsächliche Ausgabe beträgt 1 oder 0 mit einer gewissen Wahrscheinlichkeit. Das heißt, "Vorhersageintervall" ist immer entweder oder (wenn die vorhergesagte Wahrscheinlichkeit sehr klein ist) oder (wenn die vorhergesagte Wahrscheinlichkeit sehr groß ist). Diese vorhergesagte Wahrscheinlichkeit kann jedoch variieren, und das Konfidenzintervall spiegelt dies wider. [0,1][0,0][1,1]
David Dale
4

Wenn alles andere fehlschlägt, können Sie jederzeit Bootstrap-CIs für jede Statistik erstellen. Hier ist ein einfacher Algorithmus:

  1. Zeichnen Sie Proben mit Ersetzung aus (wobei die Anzahl der Zeilen in ). Sie werden feststellen, dass ungefähr 2/3 Ihrer Beobachtungen in einer solchen Stichprobe erscheinen.NXNX
  2. Verwenden Sie diese Beispiele, um ein Modell anzupassen
  3. Verwenden Sie dieses Modell, um Vorhersagen für die Beobachtungen in zu generieren, die im Training nicht verwendet wurden.X
  4. Wiederholen Sie diesen Vorgang ungefähr 100 Mal (je mehr desto besser), um eine Sammlung von Vorhersagen für jede Beobachtung zu sammeln. Diese Sammlung ist eine Annäherung an die Verteilung Ihrer Vorhersagen. Nennen Sie diese Ihre "Bootstrap-Vorhersagen".
  5. Konstruieren Sie Konfidenzintervalle, indem Sie Quantile für die Vorhersagen verwenden. Berechnen Sie beispielsweise für eine bestimmte Beobachtung die Quantile .025 und .975 für ein 95% -Konfidenzintervall.
David Marx
quelle
2
Das ist interessant, aber unter welchen Umständen können Sie mir garantieren, dass dies in 95% der Fälle der Fall ist?
Statistikschüler