Vorhersageintervalle für das Ergebnis einer logistischen Regression mit binomialer Antwort

8

Angenommen, wir haben ein logistisches Regressionsmodell:

P(y=1|x)=plog(p1p)=βx

Bei einer Zufallsstichprobe D={X,y} der Größe N können wir Konfidenzintervalle für das β und entsprechend Vorhersageintervalle für p bei einem bestimmten Wert \ berechnen mathbf {x} ^ *x des Prädiktorvektors. Dies ist zum Beispiel hier alles sehr Standard und detailliert .

Angenommen, ich interessiere mich stattdessen für ein Vorhersageintervall für y bei x . Natürlich macht es keinen Sinn , überhaupt eine Vorhersage zu berechnen Intervall für eine einzelne Realisierung von y , weil y nur die Werte 0 und 1, und keinen Wert dazwischen nehmen. Jedoch , wenn man bedenkt , m Realisierungen von y für den gleichen festen Wert von x , dann wird dies ähnlich (aber nicht identisch) auf die Frage für eine binomische Zufallsvariable einen Prädiktionsintervall Berechnung . Dies ist im Grunde die gleiche Situation, die Glen_b in den Kommentaren zu dieser Antwort beschrieben hat. Hat diese Frage eine Antwort, abgesehen von der trivialen Frage "Nichtparametrischen Bootstrap verwenden"?

DeltaIV
quelle
Können Sie stattdessen vielleicht ein Vorhersageintervall für log (p / (1-p)) berechnen log(p/(1p))?
Hugh Perkins
2
@ HughPerkins Ich denke, dass es darum geht, die Unsicherheit in p mit der Unsicherheit in der Binomial-Stichprobe zu kombinieren, auch angesichts der Unsicherheit in p . Gibt es eine geschlossene Lösung?
EdM
@EdM du hast meinen Standpunkt verstanden. Ich frage mich, ob es eine geschlossene Lösung oder eine analytische Annäherung gibt.
DeltaIV
1
[offtopic] zufällige Idee, es fällt mir ein, dass es interessant sein könnte, ein Tag wie "Open-Research-Gelegenheit" für Fragen wie diese zu haben, die / wenn sie negativ beantwortet werden
Hugh Perkins

Antworten:

4

Eine Möglichkeit, wie dies ohne Bootstrapping funktionieren sollte (was in der Praxis die schnellste Implementierung sein kann), wäre:

  1. Angenommen, eine normale Näherung für die vorhergesagten Log-Quoten ( ) plus / minus des Standardfehlers funktioniert. Jede logistische Regressionssoftware bietet dies.xβ^
  2. Die Perzentile dieser Verteilung wandeln sich über das Anti-Logit in Wahrscheinlichkeiten um.
  3. Man kann eine (Mischung aus) Beta-Verteilung (en) finden, die sich der Vorhersageverteilung für die Wahrscheinlichkeitsbohrung annähert.
  4. Die prädiktive Verteilung für das Ergebnis ist dann eine (Mischung aus) Beta-Binomialverteilung (en mit den gleichen Mischgewichten wie in Schritt 3 verwendet).

Alternativ kann man die Log-Quoten "nur" aus der gemeinsamen Vorhersage von Ergebnis und Log-Odds integrieren, aber ich glaube, dass dies ein komplettes Durcheinander ohne geschlossene Lösung sein wird.

Björn
quelle
4
Sie können auch einfach direkt aus dem asymptotischen multivariaten Normal für simulieren und dann eine Mischung von Binomen über diesen Werten bilden. ββ^
Glen_b -State Monica
Ich mag die Gesamtidee, bin mir aber bei den Details nicht sicher. Beispiel: "Finden Sie eine (Mischung aus) Beta-Verteilung (en), die sich der Vorhersageverteilung für die Wahrscheinlichkeit gut annähert". Wie geht das in der Praxis? Könnten Sie ein Beispiel hinzufügen? Sogar eine niedrigdimensionale würde ausreichen.
DeltaIV
3
Ich kann dies als etwas in Form einer Antwort aufschreiben, wenn Sie es vorziehen - es macht mir auch nichts aus.
Glen_b -State Monica
2
@Glen_b Das würde ich wirklich schätzen.
DeltaIV
1
@Glen_b, ich würde mich für diese Antwort interessieren.
Richard Hardy