Konfidenzintervall um das Verhältnis von zwei Anteilen

Ich habe zwei Proportionen (z. B. Klickrate (CTR) für einen Link in einem Steuerungslayout und Klickrate für einen Link in einem experimentellen Layout) und möchte ein 95% -Konfidenzintervall um das Verhältnis dieser Proportionen berechnen.

Wie mache ich das? Ich weiß, dass ich die Delta-Methode verwenden kann, um die Varianz dieses Verhältnisses zu berechnen, aber ich bin nicht sicher, was ich sonst tun soll. Was soll ich als Mittelpunkt des Konfidenzintervalls verwenden (mein beobachteter Quotient oder der erwartete Quotient, der unterschiedlich ist) und wie viele Standardabweichungen um diesen Quotienten sollte ich nehmen?

Sollte ich überhaupt die Delta-Varianz verwenden? (Die Varianz interessiert mich nicht wirklich, nur ein Konfidenzintervall.) Soll ich den Fieller-Satz unter Verwendung von Fall 1 verwenden (da ich Proportionen mache, schätze ich, dass ich die Normalverteilungsanforderung erfülle )? Sollte ich nur ein Bootstrap-Beispiel berechnen?

confidence-interval raegtin
quelle

Sie haben ein grundlegendes Problem: Die meisten Proportionen haben eine positive Chance, Null zu sein, weshalb das Verhältnis (der unabhängigen Proportionen) eine positive Chance hat, undefiniert zu sein. Dies kann bei Näherungsmethoden (wie der Delta-Methode) ernsthafte Schwierigkeiten bereiten und legt nahe, dass normale Näherungen skeptischer betrachtet und strenger als gewöhnlich getestet werden sollten.

Whuber

Joseph L. Fleiss, Bruce Levin und Myunghee Cho Paik: Statistische Methoden für Kurse und Anteile [1] erörtern das relative Risiko, bei dem es sich um einen Quotienten aus zwei Kursen handelt. Ich habe das Buch nicht, daher kann ich nur den Themenindex und das Inhaltsverzeichnis durchgehen, aber vielleicht hat Ihre Bibliothek es. [1]: onlinelibrary.wiley.com/book/10.1002/0471445428

cbeleites unterstützt Monica am

Sicherlich wäre ein Perzentil-Bootstrap die beste Methode?

Peter Ellis

Antworten:

In der Epidemiologie (wo ein Verhältnis von Anteilen üblicherweise als Risikoverhältnis bezeichnet wird ) besteht die Standardmethode darin, zuerst das Verhältnis logarithmisch zu transformieren, ein Konfidenzintervall auf der logarithmischen Skala unter Verwendung der Delta-Methode zu berechnen und eine Normalverteilung anzunehmen. dann verwandle dich zurück. Dies funktioniert bei moderaten Stichprobengrößen besser als bei Verwendung der Delta-Methode im nicht transformierten Maßstab. Sie verhält sich jedoch immer noch schlecht, wenn die Anzahl der Ereignisse in einer der beiden Gruppen sehr gering ist, und schlägt vollständig fehl, wenn keine Ereignisse in einer der Gruppen vorhanden sind.

Wenn es und Erfolge in den beiden Gruppen von Summen und , dann ist der offensichtliche Schätzwert für das Verhältnis der Anteile ist $x_1$ $x_2$ $n_1$ $n_2$

\hat{θ} = \frac{x_{1} / n_{1}}{x_{2} / n_{2}} .

$\hat\theta = \frac{x_1/n_1}{x_2/n_2}.$

Unter Verwendung des Delta - Verfahren und unter der Annahme , die beiden Gruppen unabhängig sind und die Erfolge binomialverteilte sind, können Sie zeigen , dass Unter der Quadratwurzel dies gibt den Standardfehler . Unter der Annahme , dass normal verteilt ist, wird ein 95% Konfidenzintervall für

Var (Log \hat{θ}) = 1 / x_{1} - 1 / n_{1} + 1 / x_{2} - 1 / n_{2} .

$\operatorname{Var}(\log \hat\theta) = 1/x_1 - 1/n_1 +1/x_2 - 1/n_2.$

SE (\log \hat{θ})

$\operatorname{SE}(\log \hat\theta)$

\log \hat{θ}

$\log \hat\theta$

\log θ

$\log \theta$ wird

Potenzieren Dies ergibt ein 95% Konfidenzintervall für das Verhältnis der Anteile

als

Log \hat{θ} \pm 1,96 SE (Log \hat{θ}) .

$\log \hat\theta \pm 1.96 \operatorname{SE}(\log \hat\theta).$

θ

$\theta$

\hat{θ} \exp [\pm 1,96 SE (Log \hat{θ})] .

$\hat\theta \exp\left[ \pm1.96 \operatorname{SE}(\log\hat\theta)\right].$

ein Stop
quelle

Dies funktioniert gut, vorausgesetzt,

und

sind groß (mehrere hundert oder mehr) und

und

n_{1}

$n_1$

n_{2}

$n_2$

n_{1} p_{1}

$n_1 p_1$

n_{2} p_{2}

$n_2 p_2$

10

$10$

x_{2} = 0

$x_2=0$

x_{i} = n_{i}

$x_i=n_i$

1 / 2

$1/2$

x_{i}

$x_i$

1

$1$

n_{i}

$n_i$

p_{i} n_{i}

$p_i n_i$

4

$4$

n_{i}

$n_i$

@whuber: "Continuity-Correction-like Approach" - ist die Verwendung von 1/2 insbesondere ein gängiger Trick? (Im Gegensatz zu einem anderen kleinen Pseudocount.) Wie Sie es formuliert haben, klingt 1/2 in gewisser Weise nach Prinzipien =) - oder?

Raegtin

x_{i}

$x_i$

n_{i}

$n_i$

Warum ist in diesem Fall die Quadratwurzel des Varianz-Standardfehlers und nicht die Standardabweichung?

Mikko

@onestop Ist dies in einem R-Paket implementiert?

Bogdan Vasilescu