Angenommen, ich passe eine Binomialregression an und erhalte die Punktschätzungen und die Varianz-Kovarianz-Matrix der Regressionskoeffizienten. Dadurch kann ich ein CI für den erwarteten Anteil der Erfolge in einem zukünftigen Experiment erhalten, , aber ich benötige ein CI für den beobachteten Anteil. Es wurden einige verwandte Antworten veröffentlicht, darunter Simulation (nehme an, ich möchte das nicht tun) und ein Link zu Krishnamoorthya et al. (Der meine Frage nicht ganz beantwortet).
Meine Argumentation lautet wie folgt: Wenn wir nur das Binomialmodell verwenden, müssen wir annehmen, dass aus der Normalverteilung (mit dem entsprechenden Wald-CI) abgetastet wird und es daher unmöglich ist, CI für den beobachteten Anteil in geschlossener Form zu erhalten. Wenn wir davon ausgehen, dass aus der Beta-Verteilung entnommen wird, sind die Dinge viel einfacher, da die Anzahl der Erfolge der Beta-Binomial-Verteilung folgt. Wir müssen davon ausgehen, dass die geschätzten Beta-Parameter und nicht unsicher sind .p α β
Es gibt drei Fragen:
1) Eine theoretische: Ist es in Ordnung, nur die Punktschätzungen der Beta-Parameter zu verwenden? Ich weiß das, um ein CI für zukünftige Beobachtungen in multipler linearer Regression zu konstruieren
Sie machen diese Fehlertermvarianz, . Ich gehe davon aus (korrigieren Sie mich, wenn ich falsch liege), dass die Rechtfertigung darin besteht, dass in der Praxis mit einer weitaus größeren Genauigkeit als die Regressionskoeffizienten geschätzt wird und wir nicht viel gewinnen, wenn wir versuchen, die Unsicherheit von . Gilt eine ähnliche Begründung für die geschätzten Beta-Parameter und ?σ 2 σ 2 α β
2) Welches Paket ist besser (R: gamlss-bb, betareg, aod?; Ich habe auch Zugriff auf SAS).
3) Gibt es angesichts der geschätzten Beta-Parameter eine (ungefähre) Abkürzung, um die Quantile (2,5%, 97,5%) für die Anzahl zukünftiger Erfolge oder, noch besser, für den Anteil zukünftiger Erfolge unter Beta-Binomial-Verteilung zu erhalten.
Antworten:
Ich werde alle 3 Teile auf die Frage ansprechen.
Es gibt zwei miteinander verbundene Probleme: Erstens die Methode, mit der Sie in diesem Fall ein Regressionsmodell anpassen. Die zweite Möglichkeit besteht darin, Schätzungen von Ihren Schätzungen zu trennen, um eine neue Schätzung vorherzusagen.
Wenn Ihre Antwortvariablen binomial verteilt sind, verwenden Sie normalerweise entweder eine logistische Regression oder eine Probit-Regression (glm mit normalem cdf als Verknüpfungsfunktion).
Für ein lineares Regressionsmodell lautet die Formel für ein Vorhersageintervall:
Sie können das lineare Regressionsmodell als Näherung für das glm verwenden. Dazu würden Sie eine lineare Regressionsformel für die lineare Kombination von Prädiktoren verwenden, bevor Sie die inverse Link-Transformation durchführen, um die Wahrscheinlichkeiten wieder auf die 0-1-Skala zu bringen. Der Code dazu wird in die Funktion pred.glm () R eingebrannt. Hier ist ein Beispielcode, der auch eine schöne Handlung ergibt. ( BEARBEITEN : Dieser Code gilt für das Konfidenzintervall, nicht für das Vorhersageintervall.)
Sie können dasselbe für jedes glm tun, z. B. Poisson, inverses Gauß, Gamma usw. Führen Sie jeweils das Vorhersageintervall auf der Skala der linearen Kombination der Prädiktoren aus. Nachdem Sie die beiden Endpunkte des Vorhersageintervalls erhalten haben, konvertieren Sie diese Endpunkte über den inversen Link. Für jeden der von mir erwähnten Glms kann der inverse Link anders sein als der Logit-Fall, den ich hier geschrieben habe. Hoffe das hilft.
quelle