Diskrete Funktionen: Konfidenzintervallabdeckung?

9

Wie berechnet man die diskrete Intervallabdeckung?

Was ich kann:

Wenn ich ein kontinuierliches Modell hätte, könnte ich für jeden meiner vorhergesagten Werte ein 95% -Konfidenzintervall definieren und dann sehen, wie oft die tatsächlichen Werte innerhalb des Konfidenzintervalls liegen. Ich könnte feststellen, dass mein Konfidenzintervall von 95% in nur 88% der Fälle die tatsächlichen Werte abdeckte.

Was ich nicht kann:

Wie mache ich das für ein diskretes Modell wie Poisson oder Gamma-Poisson? Was ich für dieses Modell habe, ist wie folgt: Ich nehme eine einzelne Beobachtung (von über 100.000, die ich generieren möchte :)

Beobachtung #: (willkürlich)

Voraussichtlicher Wert: 1,5

Voraussichtliche Wahrscheinlichkeit von 0: .223

Voraussichtliche Wahrscheinlichkeit von 1: .335

Voraussichtliche Wahrscheinlichkeit von 2: .251

Voraussichtliche Wahrscheinlichkeit von 3: .126

Voraussichtliche Wahrscheinlichkeit 4: .048

Voraussichtliche Wahrscheinlichkeit von 5: .014 [und 5 oder mehr ist .019]

...(etc)

Voraussichtliche Wahrscheinlichkeit von 100 (oder einer ansonsten unrealistischen Zahl): .000

Istwert (eine Ganzzahl wie "4")

Beachten Sie, dass, obwohl ich oben Poisson-Werte angegeben habe, ein vorhergesagter Wert von 1,5 im tatsächlichen Modell unterschiedliche vorhergesagte Wahrscheinlichkeiten von 0,1, ... 100 über Beobachtungen hinweg haben kann.

Ich bin verwirrt von der Diskretion der Werte. Eine "5" liegt offensichtlich außerhalb des 95% -Intervalls, da es bei 5 und darüber nur 0,019 gibt, was weniger als 0,025 ist. Aber es wird viele 4er geben - einzeln sind sie innerhalb, aber wie bewerte ich gemeinsam die Anzahl der 4er angemessener?

Warum kümmert es mich?

Die Modelle, die ich betrachte, wurden dafür kritisiert, dass sie auf aggregierter Ebene genau sind, aber schlechte individuelle Vorhersagen liefern. Ich möchte sehen, wie viel schlechter die schlechten individuellen Vorhersagen sind als die vom Modell vorhergesagten inhärent breiten Konfidenzintervalle. Ich erwarte eine schlechtere empirische Abdeckung (z. B. 88% der Werte liegen innerhalb des 95% -Konfidenzintervalls), hoffe aber nur ein bisschen schlechter.

Radfahrer
quelle

Antworten:

6

Neymans Konfidenzintervalle machen keinen Versuch, den Parameter im Fall eines bestimmten Intervalls abzudecken. Stattdessen decken sie langfristig alle möglichen Parameterwerte ab. In gewissem Sinne versuchen sie, auf Kosten der lokalen Genauigkeit global genau zu sein.

Konfidenzintervalle für binomiale Proportionen bieten ein klares Beispiel für dieses Problem. Die neymansche Bewertung der Intervalle ergibt die folgenden unregelmäßigen Abdeckungsdiagramme, die für 95% Clopper-Pearson-Intervalle für n = 10 Binomialversuche gelten:

Clopper-Pearson-Abdeckungsdiagramm

Es gibt eine alternative Art der Berichterstattung, die meiner Meinung nach viel intuitiver und (daher) nützlicher ist. Die Abdeckung durch Intervalle kann abhängig vom beobachteten Ergebnis festgelegt werden. Diese Berichterstattung wäre eine lokale Berichterstattung. Hier ist ein Diagramm, das die lokale Abdeckung für drei verschiedene Methoden zur Berechnung von Konfidenzintervallen für binomiale Proportionen zeigt: Clopper-Pearson, Wilsons Scores und eine bedingte exakte Methode, die Intervalle ergibt, die mit Bayes'schen Intervallen mit einem einheitlichen Prior identisch sind:

Bedingte Abdeckung für drei Intervalltypen

Beachten Sie, dass die 95% Clopper-Pearson-Methode eine lokale Abdeckung von über 98% bietet, die genauen bedingten Intervalle jedoch genau sind.

Eine Möglichkeit, den Unterschied zwischen den globalen und lokalen Intervallen zu betrachten, besteht darin, die globalen als Inversionen von Neyman-Pearson-Hypothesentests zu betrachten, bei denen das Ergebnis eine Entscheidung ist, die auf der Grundlage der Berücksichtigung der langfristigen Fehlerraten für den Strom getroffen wird Experimentieren Sie als Mitglied der globalen Gruppe aller Experimente, die ausgeführt werden könnten. Die lokalen Intervalle ähneln eher der Inversion von Fisherian-Signifikanztests, die einen P-Wert ergeben, der Beweise gegen die Null in diesem speziellen Experiment darstellt.

(Soweit ich weiß, wurde die Unterscheidung zwischen globaler und lokaler Statistik erstmals in einer unveröffentlichten Masterarbeit von Claire F. Leslie (1998) getroffen. Mangelndes Vertrauen: eine Studie zur Unterdrückung bestimmter Gegenbeispiele zur Neyman-Pearson-Theorie von statistische Inferenz unter besonderer Berücksichtigung der Theorie der Konfidenzintervalle. Diese These wird von der Baillieu-Bibliothek der University of Melbourne gehalten.)

Michael Lew
quelle
2
Ich glaube nicht, dass Claire Leslie die globale / lokale Unterscheidung erfunden hat, aber sie hat eine sehr detaillierte Beschreibung mit vielen Referenzen gegeben. Ich empfehle ihre These zu sehr.