Ich habe zwei Proportionen (z. B. Klickrate (CTR) für einen Link in einem Steuerungslayout und Klickrate für einen Link in einem experimentellen Layout) und möchte ein 95% -Konfidenzintervall um das Verhältnis dieser Proportionen berechnen.
Wie mache ich das? Ich weiß, dass ich die Delta-Methode verwenden kann, um die Varianz dieses Verhältnisses zu berechnen, aber ich bin nicht sicher, was ich sonst tun soll. Was soll ich als Mittelpunkt des Konfidenzintervalls verwenden (mein beobachteter Quotient oder der erwartete Quotient, der unterschiedlich ist) und wie viele Standardabweichungen um diesen Quotienten sollte ich nehmen?
Sollte ich überhaupt die Delta-Varianz verwenden? (Die Varianz interessiert mich nicht wirklich, nur ein Konfidenzintervall.) Soll ich den Fieller-Satz unter Verwendung von Fall 1 verwenden (da ich Proportionen mache, schätze ich, dass ich die Normalverteilungsanforderung erfülle )? Sollte ich nur ein Bootstrap-Beispiel berechnen?
quelle
Antworten:
In der Epidemiologie (wo ein Verhältnis von Anteilen üblicherweise als Risikoverhältnis bezeichnet wird ) besteht die Standardmethode darin, zuerst das Verhältnis logarithmisch zu transformieren, ein Konfidenzintervall auf der logarithmischen Skala unter Verwendung der Delta-Methode zu berechnen und eine Normalverteilung anzunehmen. dann verwandle dich zurück. Dies funktioniert bei moderaten Stichprobengrößen besser als bei Verwendung der Delta-Methode im nicht transformierten Maßstab. Sie verhält sich jedoch immer noch schlecht, wenn die Anzahl der Ereignisse in einer der beiden Gruppen sehr gering ist, und schlägt vollständig fehl, wenn keine Ereignisse in einer der Gruppen vorhanden sind.
Wenn es und x 2 Erfolge in den beiden Gruppen von Summen n 1 und n 2 , dann ist der offensichtliche Schätzwert für das Verhältnis der Anteile ist θ =x1 x2 n1 n2
Unter Verwendung des Delta - Verfahren und unter der Annahme , die beiden Gruppen unabhängig sind und die Erfolge binomialverteilte sind, können Sie zeigen , dass Unter der Quadratwurzel dies gibt den Standardfehler SE ( log θ ) . Unter der Annahme , dass log & thgr normal verteilt ist, wird ein 95% Konfidenzintervall für log θ
quelle