Konfidenzintervall um das Verhältnis von zwei Anteilen

20

Ich habe zwei Proportionen (z. B. Klickrate (CTR) für einen Link in einem Steuerungslayout und Klickrate für einen Link in einem experimentellen Layout) und möchte ein 95% -Konfidenzintervall um das Verhältnis dieser Proportionen berechnen.

Wie mache ich das? Ich weiß, dass ich die Delta-Methode verwenden kann, um die Varianz dieses Verhältnisses zu berechnen, aber ich bin nicht sicher, was ich sonst tun soll. Was soll ich als Mittelpunkt des Konfidenzintervalls verwenden (mein beobachteter Quotient oder der erwartete Quotient, der unterschiedlich ist) und wie viele Standardabweichungen um diesen Quotienten sollte ich nehmen?

Sollte ich überhaupt die Delta-Varianz verwenden? (Die Varianz interessiert mich nicht wirklich, nur ein Konfidenzintervall.) Soll ich den Fieller-Satz unter Verwendung von Fall 1 verwenden (da ich Proportionen mache, schätze ich, dass ich die Normalverteilungsanforderung erfülle )? Sollte ich nur ein Bootstrap-Beispiel berechnen?

raegtin
quelle
1
Sie haben ein grundlegendes Problem: Die meisten Proportionen haben eine positive Chance, Null zu sein, weshalb das Verhältnis (der unabhängigen Proportionen) eine positive Chance hat, undefiniert zu sein. Dies kann bei Näherungsmethoden (wie der Delta-Methode) ernsthafte Schwierigkeiten bereiten und legt nahe, dass normale Näherungen skeptischer betrachtet und strenger als gewöhnlich getestet werden sollten.
Whuber
Joseph L. Fleiss, Bruce Levin und Myunghee Cho Paik: Statistische Methoden für Kurse und Anteile [1] erörtern das relative Risiko, bei dem es sich um einen Quotienten aus zwei Kursen handelt. Ich habe das Buch nicht, daher kann ich nur den Themenindex und das Inhaltsverzeichnis durchgehen, aber vielleicht hat Ihre Bibliothek es. [1]: onlinelibrary.wiley.com/book/10.1002/0471445428
cbeleites unterstützt Monica am
Sicherlich wäre ein Perzentil-Bootstrap die beste Methode?
Peter Ellis

Antworten:

19

In der Epidemiologie (wo ein Verhältnis von Anteilen üblicherweise als Risikoverhältnis bezeichnet wird ) besteht die Standardmethode darin, zuerst das Verhältnis logarithmisch zu transformieren, ein Konfidenzintervall auf der logarithmischen Skala unter Verwendung der Delta-Methode zu berechnen und eine Normalverteilung anzunehmen. dann verwandle dich zurück. Dies funktioniert bei moderaten Stichprobengrößen besser als bei Verwendung der Delta-Methode im nicht transformierten Maßstab. Sie verhält sich jedoch immer noch schlecht, wenn die Anzahl der Ereignisse in einer der beiden Gruppen sehr gering ist, und schlägt vollständig fehl, wenn keine Ereignisse in einer der Gruppen vorhanden sind.

Wenn es und x 2 Erfolge in den beiden Gruppen von Summen n 1 und n 2 , dann ist der offensichtliche Schätzwert für das Verhältnis der Anteile ist θ =x1x2n1n2

θ^=x1/n1x2/n2.

Unter Verwendung des Delta - Verfahren und unter der Annahme , die beiden Gruppen unabhängig sind und die Erfolge binomialverteilte sind, können Sie zeigen , dass Unter der Quadratwurzel dies gibt den Standardfehler SE ( log θ ) . Unter der Annahme , dass log & thgr normal verteilt ist, wird ein 95% Konfidenzintervall für log θ

Var(Logθ^)=1/x1-1/n1+1/x2-1/n2.
SE(Logθ^)Logθ^Logθwird Potenzieren Dies ergibt ein 95% Konfidenzintervall für das Verhältnis der Anteile & thgr; als θ exp [ ± 1,96 SE ( log θ ) ] .
Logθ^±1,96SE(Logθ^).
θ
θ^exp[±1,96SE(Logθ^)].
ein Stop
quelle
5
Dies funktioniert gut, vorausgesetzt, und n 2 sind groß (mehrere hundert oder mehr) und n 1 p 1 und n 2 p n in1n2n1p1n2p210x2=0xich=nich1/2xich1nichpichnich4nich
@whuber: "Continuity-Correction-like Approach" - ist die Verwendung von 1/2 insbesondere ein gängiger Trick? (Im Gegensatz zu einem anderen kleinen Pseudocount.) Wie Sie es formuliert haben, klingt 1/2 in gewisser Weise nach Prinzipien =) - oder?
Raegtin
xichnich
Warum ist in diesem Fall die Quadratwurzel des Varianz-Standardfehlers und nicht die Standardabweichung?
Mikko
2
@onestop Ist dies in einem R-Paket implementiert?
Bogdan Vasilescu