Wie berechnet man Konfidenzintervalle für Verhältnisse?

12

Betrachten Sie ein Experiment, das ein Verhältnis $X_i$ zwischen 0 und 1 ausgibt . Wie dieses Verhältnis erhalten wird, sollte in diesem Zusammenhang nicht relevant sein. Es wurde in einer früheren Version dieser Frage ausgearbeitet , aber aus Gründen der Klarheit nach einer Diskussion über Meta entfernt .

Dieses Experiment wird $n$ mal wiederholt , während $n$ klein ist (ungefähr 3-10). Es wird angenommen, dass die $X_i$ unabhängig und identisch verteilt sind. Aus diesen schätzen wir den Mittelwert durch Berechnung des Durchschnitts $\overline X$ , aber wie berechnet man ein entsprechendes Konfidenzintervall $[U,V]$ ?

Bei Verwendung des Standardansatzes zur Berechnung von Konfidenzintervallen ist $V$ manchmal größer als 1. Meiner Intuition nach ist das richtige Konfidenzintervall ...

... sollte zwischen 0 und 1 liegen
... sollte mit zunehmendem kleiner werden $n$
... liegt ungefähr in der Größenordnung derjenigen, die mit dem Standardansatz berechnet wurde
... wird nach einer mathematisch fundierten Methode berechnet

Dies sind keine absoluten Voraussetzungen, aber ich möchte zumindest verstehen, warum meine Intuition falsch ist.

Berechnungen basieren auf vorhandenen Antworten

Im Folgenden werden die aus den vorhandenen Antworten resultierenden Konfidenzintervalle für . $\{X_i\} = \{0.985,0.986,0.935,0.890,0.999\}$

Standardansatz (auch bekannt als "Schulmathematik")

,, daherdas 99% -Konfidenzintervall. Dies widerspricht der Intuition 1. $\overline X = 0.959$ $\sigma^2 = 0.0204$ $[0.865,1.053]$

Zuschneiden (vorgeschlagen von @soakley in den Kommentaren)

Es ist einfach, den Standardansatz zu verwenden und dann als Ergebnis . Aber dürfen wir das tun? Ich bin noch nicht davon überzeugt, dass die untere Grenze einfach konstant bleibt (-> 4.) $[0.865,1.000]$

Logistisches Regressionsmodell (vorgeschlagen von @Rose Hartman)

Transformierte Daten: Ergebnis ist , das Rücktransformieren ergibt . Offensichtlich ist der 6.90 ein Ausreißer für die transformierten Daten, während der 0.99 nicht für die nicht transformierten Daten gilt, was zu einem sehr großen Konfidenzintervall führt . (-> 3.) $\{4.18,4.25,2.09,2.66,6.90\}$ $[0.173,7.87]$ $[0.543,0.999]$

Binomial Proportion Confidence Intervall (vorgeschlagen von @Tim)

Der Ansatz sieht ganz gut aus, passt aber leider nicht zum Experiment. Das einfache Kombinieren der Ergebnisse und Interpretieren als ein großes wiederholtes Bernoulli-Experiment, wie von @ZahavaKor vorgeschlagen, ergibt Folgendes:

von insgesamt . Einspeisung in den Adj. Wald-Rechner gibt . Dies scheint nicht realistisch zu sein, da sich kein einziges innerhalb dieses Intervalls befindet! (-> 3.) $985+986+890+935+999 = 4795$ $5*1000$ $[0.9511,0.9657]$ $X_i$

Bootstrapping (vorgeschlagen von @soakley)

Mit wir 3125 mögliche Permutationen. Nehmen Sie die $n=5$ Mittelwert der Permutationen, wir erhalten. Sieht nichtsoschlecht aus, obwohl ich ein größeres Intervall erwarten würde (-> 3.). Es ist jedoch pro Konstruktion niemals größer als. Für eine kleine Stichprobe wird sie daher eher wachsen als schrumpfen, um(-> 2)zu erhöhen. Dies ist zumindest der Fall bei den oben angegebenen Beispielen. $\frac{3093}{3125} = 0.99$ $[0.91,0.99]$ $[min(X_i),max(X_i)]$ $n$

confidence-interval Koalo
quelle

Sie sind in Ihrem zweiten Ansatz richtig. Bei der ersten bin ich mir nicht sicher - sie wird statistisch nicht eindeutig angegeben. Nach meinem Kenntnisstand bedeutet Reproduzierbarkeit, dass dasselbe Experiment von einem anderen Forscher durchgeführt wird und sie ähnliche Ergebnisse erhalten. Sie müssen Ihr Ziel klarer definieren, vorzugsweise anhand einer statistischen Hypothese zu dem Parameter, den Sie schätzen möchten. Die bloße Verwendung des Begriffs "Reproduzierbarkeit" ist meiner Meinung nach zu vage.

Zahava Kor

Sie haben Recht, Wiederholbarkeit ist der richtige Begriff und nicht Reproduzierbarkeit. Ich werde versuchen, eine statistische Definition zu erstellen.

Koalo

@ZahavaKor Ich habe mein unterbestimmtes Beispiel zur Wiederholbarkeit entfernt und meine tatsächliche Anwendung angegeben, in der Hoffnung, dass es mein Problem klärt und nicht verwirrt.

Koalo

Wenn Sie wirklich Proben der Größe 1000 entnehmen, haben Sie den Resampling-Ansatz nicht korrekt angewendet. Bei so vielen Daten ist jedoch keine erneute Abtastung erforderlich, und Sie sollten mit dem oben beschriebenen Standard-Binomialansatz gute Ergebnisse erzielen (dh enge Konfidenzintervalle). Nur weil Ihre einzelnen Datenpunkte nicht im resultierenden Intervall enthalten sind, bedeutet dies nicht, dass das Intervall falsch ist.

Soakley

1

Nun, denk darüber nach. Du probierst 10 Gegenstände aus und erhältst 9 Erfolge. Ich probiere 1000 und bekomme 900 Erfolge. Wer wird die genauere Schätzung des Mittelwerts haben? Versuchen Sie es mit der Formel, auf die Tim verweist, wenn die Intuition noch nicht da ist. Im letzten Beispiel in Ihrer Frage ist die Stichprobengröße also nicht 5, sondern 5000!

Soakley

6

Erstens, um zu verdeutlichen, handelt es sich nicht um eine Binomialverteilung, wie Ihre Frage nahelegt (Sie bezeichnen sie als Bernoulli-Experiment). Binomialverteilungen sind diskret - das Ergebnis ist entweder Erfolg oder Misserfolg. Ihr Ergebnis ist eine Kennzahl, die bei jeder Durchführung Ihres Experiments verwendet wird , nicht eine Reihe von Erfolgen und Fehlern, für die Sie dann eine Zusammenfassungskennzahl berechnen. Aus diesem Grund werden bei Methoden zur Berechnung eines Konfidenzintervalls für den Binomialanteil viele Ihrer Informationen verworfen. Und dennoch haben Sie Recht, dass es problematisch ist, dies als normal verteilt zu behandeln, da Sie ein CI erhalten können, das über den möglichen Bereich Ihrer Variablen hinausgeht.

Ich empfehle, dies als logistische Regression zu betrachten. Führen Sie ein logistisches Regressionsmodell mit Ihrer Verhältnisvariablen als Ergebnis und ohne Prädiktoren aus. Der Intercept und sein CI geben Ihnen das, was Sie in Logs benötigen, und Sie können es dann wieder in Proportionen umwandeln. Sie können die logistische Konvertierung auch einfach selbst durchführen, den CI berechnen und dann wieder in die ursprüngliche Skala konvertieren. Meine Python ist schrecklich, aber so könnte man das in R machen:

set.seed(24601)
data <- rbeta(100, 10, 3)
hist(data)

data_logits <- log(data/(1-data)) 
hist(data_logits)

# calculate CI for the transformed data
mean_logits <- mean(data_logits)
sd <- sd(data_logits)
n <- length(data_logits)
crit_t99 <- qt(.995, df = n-1) # for a CI99
ci_lo_logits <- mean_logits - crit_t * sd/sqrt(n)
ci_hi_logits <- mean_logits + crit_t * sd/sqrt(n)

# convert back to ratio
mean <- exp(mean_logits)/(1 + exp(mean_logits))
ci_lo <- exp(ci_lo_logits)/(1 + exp(ci_lo_logits))
ci_hi <- exp(ci_hi_logits)/(1 + exp(ci_hi_logits))

Hier sind die Unter- und Obergrenzen eines 99% CI für diese Daten:

> ci_lo
[1] 0.7738327
> ci_hi
[1] 0.8207924

Rose Hartman
quelle

Das klingt nach einem guten Ansatz, aber die Ergebnisse sind nicht das, was ich intuitiv erwarten würde: Die data_logits für 0,99,0,94,0,94 sind 4,59,2,75,2,75, was ein Konfidenzintervall von [-2,73,9,47] ergibt. Die Transformation dieses Rückens ergibt [0.061,0.999] - viel größer als ich erwarten würde.

Koalo

1

Bei nur drei Beobachtungen sollten Sie mit einem sehr großen Konfidenzintervall rechnen. Aus Ihrem Histogramm geht hervor, dass Sie viel mehr als drei Beobachtungen gemacht haben - ich nahm an, dass Ihr Beispiel mit 0,99,0,94,0,94 nur zur Veranschaulichung gedacht war. Wenn Ihre tatsächliche Stichprobengröße drei ist, empfehle ich, die Konfidenzintervalle überhaupt nicht zu berechnen (oder auch nicht die Mittelwerte).

Rose Hartman

Das obige Histogramm stammt aus dem Python-Skript, um mein Problem zu veranschaulichen. Ich bin nicht in der Lage, so viele Messungen aus dem realen Experiment zu erhalten. Zumindest nicht für jede Parameterkombination. Ich bin damit einverstanden, dass 3 zu klein sein könnte und vielleicht etwa 10 in der Endbewertung möglich sein werden, aber sicherlich nicht viel mehr. Was soll ich dagegen tun, um zu zeigen, dass ich nicht nur das Glück hatte, eine einzige Messung zu erhalten, sondern dass das Wiederholen des Experiments auch keine völlig anderen Ergebnisse liefert?

Koalo

@ RoseHartman Das ist eine schöne, klare Beschreibung, aber es wäre auch schön, wenn Ihre Methode auf die Stichprobe von Daten (n = 5) in der Frage angewendet würde.

PM.

@scitamehtam Ich schrieb meine Antwort, bevor Koalo die Beispieldaten zur Verfügung stellte und klarstellte, dass die Stichprobengröße 10 oder weniger Beobachtungen betragen würde. koalo hat seitdem die ursprüngliche Frage aktualisiert, um funktionierende Beispiele aus jeder Antwortmethode mit den Daten n = 5 aufzunehmen, was sehr hilfreich ist.

Rose Hartman

3

Möglicherweise möchten Sie Resampling / Bootstrapping versuchen. Schauen wir uns den einfachen Fall an, den Sie erwähnt haben.

Mit 3 Datenpunkten von 0,99, 0,94 und 0,94 würden Sie nicht einmal das Resampling durchführen, da Sie einfach alle 27 möglichen Permutationen auflisten, den jeweiligen Mittelwert finden und dann die Mittelwerte sortieren können.

$25/27=$ $26/27=$

$n$

Die Frage hier: Wie erstellen wir ein Konfidenzintervall für den Parameter eines Permutationstests? Gibt weitere Details, einschließlich einiger R-Codes.

Soakley
quelle

Wie in einem anderen Kommentar geschrieben, wird n nicht "viel größer als 3" sein, aber vielleicht ist n = 10 möglich, wenn nötig. Während dieser Ansatz garantiert, dass mein Konfidenzintervall nicht über 1,0 hinausgeht, scheint er das von anderen Methoden angegebene Konfidenzintervall erheblich zu unterschätzen. Tatsächlich wird es niemals größer sein als das Intervall [min, max].

Koalo

Wie oft wird der Mittelwert Ihrer Meinung nach außerhalb von [min, max] liegen?

Soakley

Wahrscheinlich selten, aber heißt das auch, dass ich das Konfidenzintervall vergessen und nur [min, max] angeben kann, wenn das [min, max] -Intervall klein genug ist, um meine Behauptungen zu belegen? Meiner Erfahrung nach ist das Konfidenzintervall für kleine Stichprobengrößen im Vergleich zu [min, max] ziemlich groß.

Koalo

2

Binomiale Konfidenzintervalle sind seit langem Gegenstand statistischer Debatten. Ihr Problem wird mit einem Verhältnis von weniger als 100% betrachtet, aber es wird noch problematischer, wenn wir 100% verwenden. Eine aufschlussreiche Möglichkeit, die Frage zu stellen, ist:

Wie groß ist die Wahrscheinlichkeit, dass die Sonne in den letzten 2000 Jahren jeden Tag aufgeht und morgen aufgeht?

Bei einer so hohen Erfolgsquote halten wir die Chancen für ziemlich hoch, können uns aber nicht zu 100% sicher sein (das Universum könnte zuerst explodieren oder so). Selbst wenn Sie einen Anteil von 100% hätten, können wir das Konfidenzintervall bei nicht kollabieren lassen $p=1$ .

Es gibt eine Reihe von Methoden, um diese Schwänze zu berechnen. Ich würde empfehlen, Wikipedia nach dem Rechnen zu durchsuchen, oder, wenn Sie nur die Antwort wünschen, nach einem Binomialintervallrechner wie diesem zu suchen (der zufällig auch mehr Erklärungen zur Mathematik enthält).

Tim
quelle

Das kommt dem, wonach ich suche, sehr nahe, aber die Formeln scheinen nur das Konfidenzintervall für das Ergebnis eines einzelnen Versuchslaufs zu berechnen und nicht ein Konfidenzintervall für den Mittelwert mehrerer Versuche.

Koalo

Es spielt keine Rolle, ob Sie einen oder mehrere Läufe haben, solange der Nenner (100 Pakete in Ihrem Beispiel) in allen Läufen gleich bleibt. Das Durchführen von 3 Experimenten zu je 100 ist mathematisch dasselbe wie das Durchführen eines Experiments mit 300 Paketen, und Sie können die Binomialformeln verwenden, jedoch mit n = 300 und nicht n = 100. Wenn die Nenner nicht gleich sind, müssen Sie den gewichteten Mittelwert (gewichtet mit den n) finden, und das neue n ist die Summe der n.

Zahava Kor

@ZahavaKor Da es für einen Kommentar zu lang ist, habe ich meiner Frage eine Bearbeitung hinzugefügt. Ich sage nicht, dass es falsch ist, aber es entspricht nicht meinem gegenwärtigen Verständnis.

Koalo

2

Ein bayesianischer Ansatz:

Finden Sie die einzigartige Beta-Distribution $B$ das wird durch die Experimente (und einen früheren, sagen wir den früheren Jeffreys) induziert, und wählen Sie dann das kleinste Intervall für das $B$ Die Dichte von wird in Ihr gewünschtes "Vertrauen" integriert. Es ist möglich, dass es mehrere Lösungen gibt. Abhängig von Ihrer vorherigen Version liegt das mittlere Verhältnis möglicherweise nicht in Ihrem Intervall.

Neil G
quelle

+1, obwohl dies kein Konfidenzintervall wäre, sondern ein glaubwürdiges Intervall. Können Sie etwas mehr darüber sagen, wie Sie eine Beta-Distribution finden? Man kann mit einer flachen früheren Beta (1,1) beginnen, aber wie kann man sie bei einer Reihe von Beobachtungen wie z. B. {0,985,0,986,0,935,0,890,0,999} aktualisieren? Man benutzt normalerweise Beta als Konjugat zu Binomial, und dort wird die Aktualisierung für jeden beobachtet

p = n / m

$p=n/m$ ist einfach, aber wie man updatet ist gegeben

p

$p$ nur?

Amöbe sagt Reinstate Monica

Wie berechnet man Konfidenzintervalle für Verhältnisse?

Berechnungen basieren auf vorhandenen Antworten

Standardansatz (auch bekannt als "Schulmathematik")

Zuschneiden (vorgeschlagen von @soakley in den Kommentaren)

Logistisches Regressionsmodell (vorgeschlagen von @Rose Hartman)

Binomial Proportion Confidence Intervall (vorgeschlagen von @Tim)

Bootstrapping (vorgeschlagen von @soakley)

Antworten: