Das Problem der realen Welt
Einer meiner Kunden bereitet sich darauf vor, einen Direktmailer an seine abonnierte Benutzerliste zu senden, und diese statistische Herausforderung wurde gestellt.
Das Marketing-Team verfügt über 3 verschiedene Broschüren und möchte wissen, welche Broschüre die höchste Rücklaufquote erzielt. Sie möchten auch wissen, ob das Senden des Mailers mit einer handgeschriebenen Adresse auf einem dicken Umschlag die Ergebnisse im Vergleich zu einem normalen Umschlag verbessert.
Nehmen wir Folgendes an:
- Für jede Broschüre ( ) antwortet eine Person, die diese Broschüre erhält, die sie tatsächlich öffnet und liest, mit der Wahrscheinlichkeit , wobei die wahre Antwortrate für diese Broschüre ist
- Die dicken, hochwertigen Umschläge haben eine echte Öffnungsrate von während normale Umschläge eine Öffnungsrate von
- Aus früheren Mailings erwarten wir, dass die tatsächlich beobachteten Rücklaufquoten zwischen etwa 1% und 5% liegen werden.
Unsere Ziele
Wir möchten die beste Broschüre finden und gleichzeitig die geringste Anzahl von Mailern versenden. Wir wollen auch die beiden Öffnungsraten schätzen.
Wenn bei der Erfassung empirischer Antwortraten von tatsächlich gesendeten Mailern der wahre Unterschied zwischen den Antwortraten größer als ein halbes Prozent ist, sollten wir in der Lage sein, diesen Unterschied als statistisch signifikant mit
Meine Gedanken bisher
Wir weisen jeder der 3 Broschüren zufällig Benutzer zu, sodass Benutzer jede Broschüre erhalten. Wir möchten wissen, welches wir benötigen, um unsere gewünschte Empfindlichkeit beim Erkennen von Unterschieden in den Antwortraten zu erreichen. Im schlimmsten Fall müssen wir in der Lage sein, einen Unterschied zwischen den tatsächlichen Raten von 1% und 1,5% festzustellen. Die SD für diesen Unterschied ist . Wenn Sie die doppelte Menge (2 Standardabweichungen geben uns 95% iges Vertrauen) auf 0,005 (unser gewünschtes halbes Prozent) einstellen, erhalten Sie die Lösung .
Fragen
- Ist das das optimale Design oder können wir es besser machen?
- Ist meine Berechnung von korrekt?
Was ist schließlich der beste Weg, um und oder einfach den Unterschied zwischen den beiden zu schätzen ?
Meine Idee war es, jedem Umschlagtyp zufällig die Hälfte jeder Broschürengruppe zuzuweisen. Innerhalb jeder Broschürengruppe wären die beobachteten Rücklaufquoten das Produkt der Öffnungsquoten und des . Dies würde meine Berechnung von oben erschweren , da ich dieses Produkt eigentlich in meiner Berechnung hätte verwenden sollen.
Meine Antwort würde dann von einer Schätzung der durchschnittlichen abhängen - - die ich erraten müsste. Ich bin mir auch nicht sicher, wie ich die Verteilung der Differenz zwischen und bestimmen soll , da wir jetzt drei verschiedene Schätzungen dieser Differenz haben, von denen jede von einem anderen abhängt , von denen jede wir haben nur empirische Schätzungen von empirischen Schätzungen, die selbst von unserer Schätzung der durchschnittlichen Öffnungsrate abhängen. onormalothickri
Vielen Dank für jede Hilfe dabei.
Antworten:
Es gibt empirische Formeln zur Bestimmung der Stichprobengröße. Der zugrunde liegende Test ist ein t-Test mit zwei Stichproben für die Gleichheit der Metrik (Rücklaufquote in Ihrem Fall). Angenommen, Sie möchten, dass die Leistung des Tests 80% beträgt, lautet eine solche Formel wobei der Standardentwickler der Metrik (Antwortrate) und der Betrag ist der Änderung der Antwortrate, die Sie zuverlässig auflösen möchten (mit statistischer Signifikanz). σ Δn=16σ2/Δ2 σ Δ
Außerdem stehen fraktionale faktorielle Designs zur Verfügung, mit denen Sie die Anzahl der Versuche optimieren können (vorausgesetzt, Sie möchten nicht die Wechselwirkungen jedes Faktors mit jedem anderen Faktor messen). Dies ist ein Umfragepapier zum experimentellen Design , das die Details beschreibt.
quelle
Angenommen, Sie Broschüren geschickt und zu gleiche Anzahl von Kunden , dann Benutzer reagiert auf Broschüre und Benutzer reagieren auf Broschüre und . Dann ist die BedeutungB a A b B b > aA B a A b B b>a
Es spielt keine Rolle, wie viele Benutzer Ihre Broschüren erhalten haben, wie viele geantwortet haben.
quelle