Ich habe einen Datensatz. Sagen Sie Beobachtungen und Variablen:3
obs A B C
1 0 0 1
2 0 1 0
3 1 0 1
4 1 1 0
5 1 0 1
6 1 0 0
7 1 1 0
8 0 0 1
9 0 1 1
10 0 1 1
Angenommen, es sind Kunden, die in jeder Kategorie gekauft haben ( ) oder nicht ( ) . Es gibt , also kaufen diese Kunden im Durchschnitt in Produktkategorien ein.16 10 1.61
0
A, B, C
Beachten Sie, dass Kunden mehr als eines von A, B und C kaufen können.
Wenn ich nur diejenigen betrachte, die kaufen A
, gibt es Kunden, die in Produktkategorien eingekauft haben, das sind also durchschnittlich .9 1.8
B
ist wieder oder .1,8
C
ist
Alle über
Das scheint seltsam. Ich verstehe es, muss es aber nächste Woche dem Marketing erklären und brauche Hilfe!
Wie heißt das Ding?
Ich weiß, dass es nicht Simpsons Paradoxon ist. Für mich fühlt es sich logisch ähnlich an wie das Monty Hall-Problem und die bedingte Wahrscheinlichkeit.
quelle
Antworten:
Der Durchschnitt jeder Unterkategorie kann über dem Gesamtdurchschnitt liegen, wenn sich die Unterkategorien mit den größeren Kunden überschneiden.
Einfaches Beispiel, um Intuition zu erlangen:
Die Menge der Individuen, bei denen wahr ist, überlappt die Menge der Individuen, bei denen wahr ist. Sie sind KEINE disjunkten Mengen.BEIN B
Dann ist während undE [ X ≤ A ] = 1,5 E [ X ≤ B ] = 1,5E[ X] ≈ 1.33 E[ X∣ A ] = 1,5 E[ X∣ B ] = 1,5
Die Aussage, die wahr wäre, ist:
Sie können nicht einfach berechnen, da sich die Mengen und überlappen. Der Ausdruck double zählt die Person Wer kauft beide Artikel und !A B A BP( A )E[X∣ A ] +P( B )E[X∣ B ] EIN B EIN B
Name für Illusion / Paradox?
Ich würde behaupten, es hängt mit dem Mehrheitsillusionsparadox in sozialen Netzwerken zusammen.
Möglicherweise haben Sie einen einzigen Typen, der alle Netzwerke / Freunde hat. Diese Person mag eine von insgesamt einer Million sein, aber sie wird einer der Freunde jeder Person sein .k
In ähnlicher Weise haben Sie 1 von 3 hier, die beide Kategorien A und B kaufen. Innerhalb von Kategorie A oder B ist jedoch 1 von 2 Käufern der Superkäufer.
Extremfall:
Lassen Sie uns Sätze Lottoscheine erstellen . Jeder Satz enthält zwei Tickets: ein verlorenes Ticket und das Jackpot-Gewinn-Ticket.S i in Sich ich
Der durchschnittliche Gewinn in jeder Menge ist dann wobei der Jackpot ist. Der Durchschnitt jeder Kategorie liegt WEIT über dem durchschnittlichen Gewinn pro Ticket insgesamt .JSich JJJ2 J Jn + 1
Es ist die gleiche konzeptionelle Dynamik wie der Verkaufsfall. Jeder Satz enthält das Jackpot-Ticket auf dieselbe Weise wie jede Kategorie A, B oder C die schweren Käufer.Sich
Mein Fazit wäre, dass die Intuition, die auf disjunkten Mengen basiert , eine vollständige Aufteilung des Probenraums nicht auf eine Reihe überlappender Mengen überträgt. Wenn Sie überlappende Kategorien festlegen, kann jede Kategorie überdurchschnittlich sein.
Wenn Sie partitionieren den Probenraum und den Zustand auf disjunkte Mengen, dann haben Kategorien Durchschnitt, um den Gesamtmittelwert , aber das ist nicht wahr für überlappende Sätze.
quelle
Ich würde das das Familiengrößenparadox oder ähnliches nennen
Nehmen wir als einfaches Beispiel an, jeder hatte einen Partner und eine auf Poisson verteilte Anzahl von Kindern mit Parameter :2
Reale demografische und Umfragewerte führen zu unterschiedlichen Zahlen, aber ähnlichen Mustern
Das offensichtliche Paradox ist, dass die durchschnittliche Größe der Geschwistergruppen von Einzelpersonen größer ist als die durchschnittliche Anzahl der Kinder pro Familie; Bei einer stabilen Bevölkerungsdynamik haben die Menschen im Durchschnitt weniger Kinder als ihre Eltern
Die Erklärung ist, ob der Durchschnitt über Eltern und Familien oder über Geschwister genommen wird: Es gibt unterschiedliche Gewichtungen für große Familien. In Ihrem Beispiel gibt es einen Unterschied zwischen der Gewichtung nach Einzelpersonen oder nach Einkäufen. Ihre bedingten Durchschnittswerte werden dadurch erhöht, dass Sie von einem bestimmten Kauf abhängig sind.
quelle
Die anderen Antworten überdenken, was los ist. Angenommen, es gibt ein Produkt und zwei Kunden. Man kaufte das Produkt (einmal) und man tat es nicht. Die durchschnittliche Anzahl der gekauften Produkte beträgt 0,5. Betrachtet man jedoch nur den Kunden, der das Produkt gekauft hat, steigt der Durchschnitt auf 1.
Dies scheint mir weder paradox noch eingängig zu sein. Die Konditionierung beim Kauf eines Produkts erhöht im Allgemeinen die durchschnittliche Anzahl der gekauften Produkte.
quelle
Ist dies nicht nur die "Durchschnitt der Durchschnitte" -Verwechslung (z. B. vorherige Stapelwechselfrage ) in Verkleidung? Es scheint Ihre Versuchung zu sein, dass die Durchschnittswerte der Teilstichproben zum Durchschnitt der Grundgesamtheit gemittelt werden, aber dies wird selten vorkommen.
Im klassischen "Durchschnitt der Mittelwerte" findet jemand den Durchschnitt von N sich gegenseitig ausschließenden Teilmengen und ist dann verblüfft, dass diese Werte nicht mit dem Bevölkerungsdurchschnitt gemittelt werden. Dieser Durchschnittswert funktioniert nur, wenn Ihre nicht überlappenden Teilmengen dieselbe Größe haben. Ansonsten müssen Sie einen gewichteten Durchschnitt nehmen.
Ihr Problem wird durch überlappende Untergruppen komplexer als dieser herkömmliche Durchschnitt der durchschnittlichen Verwirrung, aber es scheint mir nur ein klassischer Fehler mit einem Dreh zu sein. Bei überlappenden Teilmengen ist es noch schwieriger, Durchschnittswerte für Teilstichproben zu erhalten, die dem Bevölkerungsdurchschnitt entsprechen.
In Ihrem Beispiel werden diese Durchschnittswerte erhöht, da Benutzer, die in mehreren Teilstichproben vorkommen (und daher viele Dinge gekauft haben). Grundsätzlich zählt man jeden Big-Spender mehrmals, während die sparsamen Leute, die nur einen Gegenstand kaufen, nur einmal angetroffen werden. Sie sind also voreingenommen gegenüber größeren Werten. Das ist der Grund, warum Ihre speziellen Teilmengen überdurchschnittliche Werte aufweisen, aber ich denke, dies ist immer noch nur das Problem des Durchschnitts.
Sie können auch alle Arten von anderen Teilmengen aus Ihren Daten erstellen, bei denen die Teilprobenmittelwerte unterschiedliche Werte annehmen. Nehmen wir zum Beispiel Teilmengen, die Ihren Teilmengen etwas ähnlich sind. Wenn Sie die Untergruppe der Personen nehmen, die A nicht gekauft haben, erhalten Sie durchschnittlich 7/5 = 1,4 Artikel. Mit der Untergruppe, die B nicht gekauft hat, erhalten Sie im Durchschnitt auch 1,4 Artikel. Diejenigen, die C nicht gekauft haben, kauften durchschnittlich 1,5 Artikel. Diese liegen alle unter dem Bevölkerungsdurchschnitt von 1,6 Artikeln / Kunde. Angesichts des richtigen Datensatzes und der richtigen Sammlung von Teilmengen können sich überlappende Teilmengen ergeben, deren Durchschnitt dem Bevölkerungsdurchschnitt entspricht. Dies ist jedoch bei normalen Anwendungen ungewöhnlich.
Ist es nur ich oder erscheint das Wort Durchschnitt nach so vielen Wiederholungen jetzt seltsam ... Ich hoffe, meine Antwort war hilfreich und entschuldige, dass ich das Wort Durchschnitt für dich ruiniert habe!
quelle
Da es um das Thema " Ich verstehe es, aber ich muss es dem Marketing erklären " geht, scheint sich OP darum zu kümmern, wie ein Laie diese Tatsachen interpretiert - (nicht, ob die Tatsachen wahr sind oder wie sie zu zeigen sind). Die Frage bezieht sich auf 10 Produktkategorien (AJ). Wie wäre es also mit diesem Beispiel:
[im Gespräch mit der Marketinggruppe]
OP : Wie Sie hier sehen können , sind Kunden, die A, B und C kaufen, alle überdurchschnittlich wertvoll.
Laie : Warte ?! Wie kann jeder über dem Durchschnitt liegen?
OP : Gute Frage. Diese Folie konzentriert sich auf Kunden von A, B und C, es werden jedoch auch andere Gruppen mit geringer Leistung nicht angezeigt. Beispielsweise sind Kunden der Kategorien D und G jeweils etwa die Hälfte des Durchschnitts wert.
Dies sollte jedermanns internen bs-Alarm über "alles ist überdurchschnittlich" unterdrücken.
quelle
Ignoriere die anderen Antworten hier. Dies ist eigentlich kein Paradoxon. Das eigentliche Problem, das hier jeder zu ignorieren scheint, ist, dass Sie sich irren, auf welche Wahrscheinlichkeit Sie tatsächlich schauen. Tatsächlich gibt es hier zwei völlig unterschiedliche Durchschnitte und Statistiken, die beide in Ihrem vorgeschlagenen Beispiel (Marketing) eigene Verwendungen und Interpretationen haben!
An erster Stelle steht die durchschnittliche Anzahl der gekauften Produkte pro Kunde. Ein Kunde kauft also durchschnittlich 1,6 Artikel. Natürlich kann ein Kunde nur 0,6 des Produkts (vorausgesetzt, es ist nicht so etwas wie Reis oder Getreide, mit dem eine kontinuierliche Messung verbunden ist).
Zweitens gibt es die durchschnittliche Anzahl der Kunden, die ein bestimmtes Produkt kaufen. Klingt komisch, oder? Im Durchschnitt hat ein Produkt also 5.33333333 ... Kunden, die es kaufen. Dies ist jedoch anders. Was wir hier beschreiben, ist nicht die Anzahl der gekauften Produkte (es gibt nur drei davon!), Sondern die Anzahl der Personen, die das Produkt tatsächlich kaufen.
Stellen Sie sich die beiden Werte folgendermaßen vor: Was würden diese beiden Werte bedeuten, wenn es nur einen Kunden oder nur ein Produkt gäbe? Immerhin ist der Durchschnitt eines einzelnen Datenpunktes genau dieser gegebene Datenpunkt.
Oder noch besser: Stellen Sie sich das Diagramm so vor, als gäbe es Ihnen Dollarbeträge, die Sie für den Kauf des Produkts ausgegeben haben. Offensichtlich ist der Durchschnittsbetrag, den ein einzelner Kunde ausgibt, weitaus geringer als der durchschnittliche Geldbetrag, den ein Produkt eines großen Unternehmens (oder sogar eines kleinen Unternehmens) verdient. Ich bin sicher, Sie können sich gute Möglichkeiten vorstellen, um beide Werte zu nutzen, wenn Sie über das Wohlergehen des Unternehmens sprechen.
Wenn Sie dies den Marketingmitarbeitern erklären, erklären Sie es ihnen genau so, wie ich es gesagt habe. Es ist kein Paradoxon. Es ist nur eine ganz andere Statistik. Das einzige Problem dabei war zu bemerken, dass es tatsächlich zwei verschiedene Arten gab, die Tabelle zu lesen (dh Anzahl der Käufer pro Produkt im Vergleich zur Anzahl der gekauften Produkte pro Person).
Das erste, was Sie beschrieben haben, ist der durchschnittliche Betrag, den ein einzelner Kunde bereit ist, für den Kauf Ihrer Produkte aufzuwenden. Die zweite ist die durchschnittliche Nachfrage der Öffentlichkeit nach einem bestimmten Produkt. Ich bin sicher, Sie können jetzt sehen, warum beide sicherlich nicht dasselbe sind. Wenn Sie sie als solche vergleichen, erhalten Sie nur Müllinformationen.
BEARBEITEN
Anscheinend stellt sich die Frage tatsächlich nach dem durchschnittlichen Geld, das Kunden ausgeben, die ein Produkt a, b oder c kaufen. In Ordung. Dies ist eigentlich nur ein Fehler in den Berechnungen. Ich würde das nicht als Paradox bezeichnen. Es ist wirklich nur ein subtiler Fehler.
Schauen Sie sich Ihre Spalten an. Es gibt Personen, die von Spalten gemeinsam genutzt werden. Nehmen wir an, Sie haben einen angemessenen gewichteten Durchschnitt ermittelt. Sie addieren immer noch zwei Personen. Dies bedeutet, dass der Durchschnitt zusätzliche Personen mit einem Wert größer oder gleich 2 enthält. Was war nun Ihr Durchschnitt? Es war 1,6! Im Wesentlichen sieht Ihr Durchschnitt so aus:
Das ist definitiv nicht die richtige Formel. Es ist ein gewichteter Durchschnitt, wenn auch unter der Annahme einer gegenseitigen Ausschließlichkeit, wie Sie sich anpassen würden, um einen wahren Durchschnitt in Ihrer Situation zu erhalten.
In jedem Fall erhalten Sie einen durcheinandergebrachten Durchschnitt. Ein Fehler bestand darin, die Notwendigkeit eines gewichteten Durchschnitts zu ignorieren, da eine Kategorie im Durchschnitt ein höheres "Gewicht" aufweist. Es ist wie Dichte. Ein Wert, den dichter bei Menschen darstellt. Das andere Problem ist das doppelte Hinzufügen, wodurch der Durchschnitt verzerrt wird. Ich nenne keines dieser "Paradoxe". Als ich sah, was Sie taten, war mir klar, warum das nicht funktionieren würde. Der gewichtete Durchschnitt ist etwas selbsterklärend für seine Notwendigkeit und ich denke jetzt, da Sie sehen, dass Sie mehrfache Werte hinzugefügt haben ... das kann nicht funktionieren. Sie haben im Grunde den Durchschnitt der Quadrate ihrer Werte genommen.
quelle