Mittelwertparadoxon - Wie heißt das?

22

Ich habe einen Datensatz. Sagen Sie Beobachtungen und Variablen:3103

obs  A   B   C
1    0   0   1
2    0   1   0
3    1   0   1
4    1   1   0
5    1   0   1
6    1   0   0
7    1   1   0
8    0   0   1
9    0   1   1
10   0   1   1

Angenommen, es sind Kunden, die in jeder Kategorie gekauft haben ( ) oder nicht ( ) . Es gibt , also kaufen diese Kunden im Durchschnitt in Produktkategorien ein.16 10 1.61010A, B, C16101.6

Beachten Sie, dass Kunden mehr als eines von A, B und C kaufen können.

Wenn ich nur diejenigen betrachte, die kaufen A, gibt es Kunden, die in Produktkategorien eingekauft haben, das sind also durchschnittlich .9 1.8591.8

Bist wieder oder .1,89/51.8

Cist10/6=1,67.

Alle über1.6.

Das scheint seltsam. Ich verstehe es, muss es aber nächste Woche dem Marketing erklären und brauche Hilfe!

Wie heißt das Ding?

Ich weiß, dass es nicht Simpsons Paradoxon ist. Für mich fühlt es sich logisch ähnlich an wie das Monty Hall-Problem und die bedingte Wahrscheinlichkeit.

James Adams
quelle
2
Ich persönlich habe keine Ahnung, wovon Sie sprechen. Warum erstellen Sie nicht eine Kontingenztabelle mit den As, Bs und Cs, um die Kaufübergreifungsmuster zu untersuchen?
Mike Hunter
3
Wir haben Berichte, die besagen: "Kunden, die C kaufen, sind mehr wert als der Durchschnitt - 1,67 vs 1,6". Das ist wahr, aber A und B sind auch mehr wert als der Durchschnitt. Wobei die unvermeidliche Frage auftaucht: "Wie können alle Kunden mehr wert sein als der Durchschnitt?"
James Adams
3
Ich denke, sein Rätsel ist, dass es oberflächlich wie der Lake Wobegon aussieht, wo jeder überdurchschnittlich ist: P Sei die Anzahl der Kategorien / Artikel, die ein Kunde gekauft hat. Seien , und Indikatoren für den Einkauf in Kategorie A, B bzw. C. , und währendA B C E [ X | A ] = 1,8 E [ X | B ] = 1,8 E [ X | C ] = 1,67 E [ X ] = 1,6XEINBCE[XEIN]=1.8E[XB]=1.8E[XC]=1,67E[X]=1.6
Matthew Gunn
12
Vielleicht möchten Sie in komplementären Mengen und Venn-Diagrammen denken . Die Mengen "Kunden, die A kaufen" und "Kunden, die A nicht kaufen" überschneiden sich nicht. Die Mengen, die Sie in Ihrer Frage auflisten, überschneiden sich jedoch. Sie können den Gesamtdurchschnitt nur dann als (gewichteten) Durchschnitt von Teilmengen-Durchschnitten berechnen, wenn die Teilmengen eine Partition bilden .
GeoMatt22
4
Ist dies dem Mehrheitsillusionsparadoxon lose ähnlich ? So wie es wahrscheinlich ist, dass eine Person mit einem Supernetzwerker verbunden ist, enthält eine Einkaufskategorie wahrscheinlich einen Superkäufer? (Ich nenne einen Super-Networker jemanden, der mit vielen Menschen in Verbindung steht, und einen Super-Einkäufer jemanden, der viele verschiedene Artikel kauft)
Matthew Gunn

Antworten:

28

Der Durchschnitt jeder Unterkategorie kann über dem Gesamtdurchschnitt liegen, wenn sich die Unterkategorien mit den größeren Kunden überschneiden.

Einfaches Beispiel, um Intuition zu erlangen:

  • Sei ein Indikator dafür, ob eine Person einen Artikel der Kategorie A gekauft hat.EIN
  • Sei ein Indikator dafür, ob eine Person einen Artikel der Kategorie B gekauft hat.B
  • Sei die Anzahl der gekauften Artikel.X=EIN+B

PersonEINBich10ichich01ichichich11

Die Menge der Individuen, bei denen wahr ist, überlappt die Menge der Individuen, bei denen wahr ist. Sie sind KEINE disjunkten Mengen.BEINB

Dann ist während undE [ X A ] = 1,5 E [ X B ] = 1,5E[X]1,33E[XEIN]=1.5E[XB]=1.5

Die Aussage, die wahr wäre, ist:

P(EIN)E[XEIN]+P(B)E[XB]-P(EINB)E[XEINB]=E[X]

231.5+231.5-132=1,3333

Sie können nicht einfach berechnen, da sich die Mengen und überlappen. Der Ausdruck double zählt die Person Wer kauft beide Artikel und !A B A BP(EIN)E[XEIN]+P(B)E[XB]EINBEINB

Name für Illusion / Paradox?

Ich würde behaupten, es hängt mit dem Mehrheitsillusionsparadox in sozialen Netzwerken zusammen.

Möglicherweise haben Sie einen einzigen Typen, der alle Netzwerke / Freunde hat. Diese Person mag eine von insgesamt einer Million sein, aber sie wird einer der Freunde jeder Person sein .k

In ähnlicher Weise haben Sie 1 von 3 hier, die beide Kategorien A und B kaufen. Innerhalb von Kategorie A oder B ist jedoch 1 von 2 Käufern der Superkäufer.

Extremfall:

Lassen Sie uns Sätze Lottoscheine erstellen . Jeder Satz enthält zwei Tickets: ein verlorenes Ticket und das Jackpot-Gewinn-Ticket.S i inSichich

Der durchschnittliche Gewinn in jeder Menge ist dann wobei der Jackpot ist. Der Durchschnitt jeder Kategorie liegt WEIT über dem durchschnittlichen Gewinn pro Ticket insgesamt .JSich JJJ2JJn+1

Es ist die gleiche konzeptionelle Dynamik wie der Verkaufsfall. Jeder Satz enthält das Jackpot-Ticket auf dieselbe Weise wie jede Kategorie A, B oder C die schweren Käufer.Sich

Mein Fazit wäre, dass die Intuition, die auf disjunkten Mengen basiert , eine vollständige Aufteilung des Probenraums nicht auf eine Reihe überlappender Mengen überträgt. Wenn Sie überlappende Kategorien festlegen, kann jede Kategorie überdurchschnittlich sein.

Wenn Sie partitionieren den Probenraum und den Zustand auf disjunkte Mengen, dann haben Kategorien Durchschnitt, um den Gesamtmittelwert , aber das ist nicht wahr für überlappende Sätze.

Matthew Gunn
quelle
3
Vielen Dank! Ich denke, die Doppelzählung ist der Schlüssel zur Erklärung. Ich denke nicht, dass dies notwendigerweise das Ergebnis einiger extremer Werte ist. Mein Beispieldatensatz oben ist ziemlich banal und der Effekt "Alle Gruppen überdurchschnittlich" tritt immer noch auf. Ich vermute, es wird in den meisten Fällen passieren. Ich habe mich nur gefragt, ob es einen Namen oder ein vorheriges Beispiel hatte.
James Adams
Diese Erklärung würde nicht gelten, wenn die Daten, die @JamesAdams analysiert, fehlerhaft sind. Ich behaupte, dass es so ist. Es kann keine sich gegenseitig ausschließende und vollständige Gruppe von A-, B- und C-Kategorien geben, bei denen die Gruppendurchschnitte alle höher sind als der Durchschnitt aller drei zusammengenommen, ohne dass eine grundlegende Annahme der Datenanalyse verletzt wird. In Ihrem Fall ist es am wahrscheinlichsten, dass sich der Nenner für den Gesamtdurchschnitt von dem unterscheidet (z. B. enthält er mehr Befragte), der für die Schätzung der Mittelwerte für A, B und C verwendet wurde.
Mike Hunter,
2
@DJohnson Natürlich haben Sie Recht, wenn die Sätze A, B und C den Sample-Raum partitionieren. Meine Lektüre der Frage und der gelieferten "Daten" (was auch immer es ist) ist, dass A, B und C überlappende Mengen sind. Wenn sich A, B und C überlappen, können die Gruppendurchschnitte alle höher sein als der Gesamtdurchschnitt (das ist der Punkt meiner Antwort; die Mengen überlappen sich bei den größten Kunden!). Nichts, was das OP gesagt hat, ist intern inkonsistent. Ihr "Wir werden die BS-Daten überholen" -Detektor ist möglicherweise besser als meiner, und ich stimme zu, dass es immer wichtig ist, kritische Fragen zur Gültigkeit der Daten / Zahlen zu stellen.
Matthew Gunn
Ja, es handelt sich um überlappende Mengen. Mein Datensatz umfasst Millionen von Kunden und 12 Kategorien. Als ich sah, dass meine Durchschnittswerte alle über dem Gesamtdurchschnitt lagen, fand ich das seltsam, aber erklärbar. Ich habe das Beispielset aus 10 Obs und 3 Kategorien zusammengestellt, um es zu sehen. Ich habe hier nur Einsen und Nullen verstreut und es ist genauso herausgekommen. Ich vermute, dass dies bei den meisten Datensätzen der Fall ist, bei denen dieser Durchschnittstyp berechnet wird. @Djohnson mein Beispiel oben, dass ich 10 als Nenner für den Gesamtdurchschnitt benutze, 5 für das As, 5 für das Bs, 6 für das Cs. Können Sie mir sagen, gegen was ich in diesem Beispiel verstoße?
James Adams
Was bedeutet "10"? Das Netz der Befragten in den 3 Kategorien? Was passiert mit den Durchschnitten, wenn Sie für alle den gleichen Nenner verwenden? Es sollte Durchschnittswerte zurückgeben, die um den großen Mittelwert schwanken.
Mike Hunter
10

Ich würde das das Familiengrößenparadox oder ähnliches nennen

Nehmen wir als einfaches Beispiel an, jeder hatte einen Partner und eine auf Poisson verteilte Anzahl von Kindern mit Parameter :2

  • Die durchschnittliche Anzahl von Kindern pro Person wäre 2
  • Die durchschnittliche Anzahl von Kindern pro Person mit Kindern wäre 21e22.313
  • Die durchschnittliche Geschwistergruppengröße für jede Person (einschließlich ihrer Brüder und Schwestern und sich selbst) wäre 3

Reale demografische und Umfragewerte führen zu unterschiedlichen Zahlen, aber ähnlichen Mustern

Das offensichtliche Paradox ist, dass die durchschnittliche Größe der Geschwistergruppen von Einzelpersonen größer ist als die durchschnittliche Anzahl der Kinder pro Familie; Bei einer stabilen Bevölkerungsdynamik haben die Menschen im Durchschnitt weniger Kinder als ihre Eltern

Die Erklärung ist, ob der Durchschnitt über Eltern und Familien oder über Geschwister genommen wird: Es gibt unterschiedliche Gewichtungen für große Familien. In Ihrem Beispiel gibt es einen Unterschied zwischen der Gewichtung nach Einzelpersonen oder nach Einkäufen. Ihre bedingten Durchschnittswerte werden dadurch erhöht, dass Sie von einem bestimmten Kauf abhängig sind.

Henry
quelle
8

Die anderen Antworten überdenken, was los ist. Angenommen, es gibt ein Produkt und zwei Kunden. Man kaufte das Produkt (einmal) und man tat es nicht. Die durchschnittliche Anzahl der gekauften Produkte beträgt 0,5. Betrachtet man jedoch nur den Kunden, der das Produkt gekauft hat, steigt der Durchschnitt auf 1.

Dies scheint mir weder paradox noch eingängig zu sein. Die Konditionierung beim Kauf eines Produkts erhöht im Allgemeinen die durchschnittliche Anzahl der gekauften Produkte.

Vadim Ponomarenko
quelle
Genau. Unter der Annahme, dass die Einkäufe in jeder der drei Kategorien nicht stark korrelieren, berechnen Sie die Durchschnittswerte, nachdem Sie die Kaufrate in einer der Kategorien auf 100% erhöht haben. Es wäre wahrscheinlich informativer zu vergleichen, z. die durchschnittliche Kaufquote in den Kategorien B und C: a) bei allen Kunden (11/20) b) bei denen, die A gekauft haben (4/10). Kommt darauf an, was du zu zeigen / zu finden versuchst, denke ich.
Konrad
2

Ist dies nicht nur die "Durchschnitt der Durchschnitte" -Verwechslung (z. B. vorherige Stapelwechselfrage ) in Verkleidung? Es scheint Ihre Versuchung zu sein, dass die Durchschnittswerte der Teilstichproben zum Durchschnitt der Grundgesamtheit gemittelt werden, aber dies wird selten vorkommen.

Im klassischen "Durchschnitt der Mittelwerte" findet jemand den Durchschnitt von N sich gegenseitig ausschließenden Teilmengen und ist dann verblüfft, dass diese Werte nicht mit dem Bevölkerungsdurchschnitt gemittelt werden. Dieser Durchschnittswert funktioniert nur, wenn Ihre nicht überlappenden Teilmengen dieselbe Größe haben. Ansonsten müssen Sie einen gewichteten Durchschnitt nehmen.

Ihr Problem wird durch überlappende Untergruppen komplexer als dieser herkömmliche Durchschnitt der durchschnittlichen Verwirrung, aber es scheint mir nur ein klassischer Fehler mit einem Dreh zu sein. Bei überlappenden Teilmengen ist es noch schwieriger, Durchschnittswerte für Teilstichproben zu erhalten, die dem Bevölkerungsdurchschnitt entsprechen.

In Ihrem Beispiel werden diese Durchschnittswerte erhöht, da Benutzer, die in mehreren Teilstichproben vorkommen (und daher viele Dinge gekauft haben). Grundsätzlich zählt man jeden Big-Spender mehrmals, während die sparsamen Leute, die nur einen Gegenstand kaufen, nur einmal angetroffen werden. Sie sind also voreingenommen gegenüber größeren Werten. Das ist der Grund, warum Ihre speziellen Teilmengen überdurchschnittliche Werte aufweisen, aber ich denke, dies ist immer noch nur das Problem des Durchschnitts.

Sie können auch alle Arten von anderen Teilmengen aus Ihren Daten erstellen, bei denen die Teilprobenmittelwerte unterschiedliche Werte annehmen. Nehmen wir zum Beispiel Teilmengen, die Ihren Teilmengen etwas ähnlich sind. Wenn Sie die Untergruppe der Personen nehmen, die A nicht gekauft haben, erhalten Sie durchschnittlich 7/5 = 1,4 Artikel. Mit der Untergruppe, die B nicht gekauft hat, erhalten Sie im Durchschnitt auch 1,4 Artikel. Diejenigen, die C nicht gekauft haben, kauften durchschnittlich 1,5 Artikel. Diese liegen alle unter dem Bevölkerungsdurchschnitt von 1,6 Artikeln / Kunde. Angesichts des richtigen Datensatzes und der richtigen Sammlung von Teilmengen können sich überlappende Teilmengen ergeben, deren Durchschnitt dem Bevölkerungsdurchschnitt entspricht. Dies ist jedoch bei normalen Anwendungen ungewöhnlich.

Ist es nur ich oder erscheint das Wort Durchschnitt nach so vielen Wiederholungen jetzt seltsam ... Ich hoffe, meine Antwort war hilfreich und entschuldige, dass ich das Wort Durchschnitt für dich ruiniert habe!

Glocke
quelle
Vielen Dank! Der Kommentar zu nicht überlappenden Partitionen gleicher Größe machte es mir klar. Ich hatte gehofft, als ich diese Zahlen vorstellte, könnte ich etwas sagen wie "Alle Kategoriedurchschnitte sind höher als der Gesamtdurchschnitt, aber das ist das Blahblah-Paradoxon". Wie wenn du sagst "Simpsons Paradox !, Ivy League Sexism!" und dann aus dem Raum laufen. (Sie alle tun das manchmal, nicht wahr?) Würden ihnen gerne sagen "Es liegt daran, dass sich Teilmengen unterschiedlicher Größe überlappen", aber denken Sie nicht, dass das landen wird!
James Adams
1
Haha, fair genug. Ich habe den Kontext vorher nicht vollständig verstanden - ich bin ein Student der Astrophysik, daher bin ich mit dem Kontext nicht sehr vertraut. Man könnte etwas kurzes sagen: "Alle Teilmengen-Durchschnitte sind höher als der Gesamtdurchschnitt, weil sie uns zu größeren Werten neigen." Ich würde den Durchschnitt der Durchschnittsnamen nicht erwähnen, da er nicht allzu bekannt ist und Ihr Fall einer Verallgemeinerung gleichkommt. Ich würde auch versuchen, ein Synonym zu finden, um die Wortkategorien zu ersetzen - im Allgemeinen sehe ich das Wort als sich gegenseitig ausschließende Teilmengen an.
Tbell
Semantische Sättigung ist ein psychologisches Phänomen, bei dem die Wiederholung bewirkt, dass ein Wort oder eine Phrase vorübergehend an Bedeutung verliert, sodass der Hörer die Sprache als wiederholte bedeutungslose Töne wahrnimmt.
Patrick
1

Da es um das Thema " Ich verstehe es, aber ich muss es dem Marketing erklären " geht, scheint sich OP darum zu kümmern, wie ein Laie diese Tatsachen interpretiert - (nicht, ob die Tatsachen wahr sind oder wie sie zu zeigen sind). Die Frage bezieht sich auf 10 Produktkategorien (AJ). Wie wäre es also mit diesem Beispiel:

[im Gespräch mit der Marketinggruppe]
OP : Wie Sie hier sehen können , sind Kunden, die A, B und C kaufen, alle überdurchschnittlich wertvoll.
Laie : Warte ?! Wie kann jeder über dem Durchschnitt liegen?
OP : Gute Frage. Diese Folie konzentriert sich auf Kunden von A, B und C, es werden jedoch auch andere Gruppen mit geringer Leistung nicht angezeigt. Beispielsweise sind Kunden der Kategorien D und G jeweils etwa die Hälfte des Durchschnitts wert.

Dies sollte jedermanns internen bs-Alarm über "alles ist überdurchschnittlich" unterdrücken.

Patrick
quelle
Dies ist nicht die Möglichkeit, eine Frage zu beantworten.
Michael R. Chernick
Seine Frage war beantwortet worden, aber niemand ging auf sein Problem ein.
Patrick
Mein Kommentar hatte nur mit Patricks Antwort zu tun.
Michael R. Chernick
Ich sehe keine Regel gegen verschiedene Arten der Beantwortung. Das Berichten von (realen oder imaginären) Diskussionen und Gesprächen ist eine altehrwürdige Methode, um Themen ab Sokrates (und soweit ich weiß vor ihm) zu durchdenken.
Nick Cox
Aber diese Erklärung ist sachlich falsch. Auch ohne weitere Kategorien (DJ) bleibt die Beobachtung wahr: Die Mittelwerte überlappender Teilmengen können alle höher sein als der Durchschnitt der gesamten Menge, auch wenn die Teilmengen die gesamte Menge abdecken.
isarandi
0

Ignoriere die anderen Antworten hier. Dies ist eigentlich kein Paradoxon. Das eigentliche Problem, das hier jeder zu ignorieren scheint, ist, dass Sie sich irren, auf welche Wahrscheinlichkeit Sie tatsächlich schauen. Tatsächlich gibt es hier zwei völlig unterschiedliche Durchschnitte und Statistiken, die beide in Ihrem vorgeschlagenen Beispiel (Marketing) eigene Verwendungen und Interpretationen haben!

An erster Stelle steht die durchschnittliche Anzahl der gekauften Produkte pro Kunde. Ein Kunde kauft also durchschnittlich 1,6 Artikel. Natürlich kann ein Kunde nur 0,6 des Produkts (vorausgesetzt, es ist nicht so etwas wie Reis oder Getreide, mit dem eine kontinuierliche Messung verbunden ist).

Zweitens gibt es die durchschnittliche Anzahl der Kunden, die ein bestimmtes Produkt kaufen. Klingt komisch, oder? Im Durchschnitt hat ein Produkt also 5.33333333 ... Kunden, die es kaufen. Dies ist jedoch anders. Was wir hier beschreiben, ist nicht die Anzahl der gekauften Produkte (es gibt nur drei davon!), Sondern die Anzahl der Personen, die das Produkt tatsächlich kaufen.

Stellen Sie sich die beiden Werte folgendermaßen vor: Was würden diese beiden Werte bedeuten, wenn es nur einen Kunden oder nur ein Produkt gäbe? Immerhin ist der Durchschnitt eines einzelnen Datenpunktes genau dieser gegebene Datenpunkt.

Oder noch besser: Stellen Sie sich das Diagramm so vor, als gäbe es Ihnen Dollarbeträge, die Sie für den Kauf des Produkts ausgegeben haben. Offensichtlich ist der Durchschnittsbetrag, den ein einzelner Kunde ausgibt, weitaus geringer als der durchschnittliche Geldbetrag, den ein Produkt eines großen Unternehmens (oder sogar eines kleinen Unternehmens) verdient. Ich bin sicher, Sie können sich gute Möglichkeiten vorstellen, um beide Werte zu nutzen, wenn Sie über das Wohlergehen des Unternehmens sprechen.

Wenn Sie dies den Marketingmitarbeitern erklären, erklären Sie es ihnen genau so, wie ich es gesagt habe. Es ist kein Paradoxon. Es ist nur eine ganz andere Statistik. Das einzige Problem dabei war zu bemerken, dass es tatsächlich zwei verschiedene Arten gab, die Tabelle zu lesen (dh Anzahl der Käufer pro Produkt im Vergleich zur Anzahl der gekauften Produkte pro Person).

Das erste, was Sie beschrieben haben, ist der durchschnittliche Betrag, den ein einzelner Kunde bereit ist, für den Kauf Ihrer Produkte aufzuwenden. Die zweite ist die durchschnittliche Nachfrage der Öffentlichkeit nach einem bestimmten Produkt. Ich bin sicher, Sie können jetzt sehen, warum beide sicherlich nicht dasselbe sind. Wenn Sie sie als solche vergleichen, erhalten Sie nur Müllinformationen.


BEARBEITEN

Anscheinend stellt sich die Frage tatsächlich nach dem durchschnittlichen Geld, das Kunden ausgeben, die ein Produkt a, b oder c kaufen. In Ordung. Dies ist eigentlich nur ein Fehler in den Berechnungen. Ich würde das nicht als Paradox bezeichnen. Es ist wirklich nur ein subtiler Fehler.

Schauen Sie sich Ihre Spalten an. Es gibt Personen, die von Spalten gemeinsam genutzt werden. Nehmen wir an, Sie haben einen angemessenen gewichteten Durchschnitt ermittelt. Sie addieren immer noch zwei Personen. Dies bedeutet, dass der Durchschnitt zusätzliche Personen mit einem Wert größer oder gleich 2 enthält. Was war nun Ihr Durchschnitt? Es war 1,6! Im Wesentlichen sieht Ihr Durchschnitt so aus:

ich=0nveinlueOfPersOnichveinlueOfPersOnichn

Das ist definitiv nicht die richtige Formel. Es ist ein gewichteter Durchschnitt, wenn auch unter der Annahme einer gegenseitigen Ausschließlichkeit, wie Sie sich anpassen würden, um einen wahren Durchschnitt in Ihrer Situation zu erhalten.

ich=0nnumberOfPeOpleBuyichnGicheinvereinGeSpentByPersOnBuyichnGichn

In jedem Fall erhalten Sie einen durcheinandergebrachten Durchschnitt. Ein Fehler bestand darin, die Notwendigkeit eines gewichteten Durchschnitts zu ignorieren, da eine Kategorie im Durchschnitt ein höheres "Gewicht" aufweist. Es ist wie Dichte. Ein Wert, den dichter bei Menschen darstellt. Das andere Problem ist das doppelte Hinzufügen, wodurch der Durchschnitt verzerrt wird. Ich nenne keines dieser "Paradoxe". Als ich sah, was Sie taten, war mir klar, warum das nicht funktionieren würde. Der gewichtete Durchschnitt ist etwas selbsterklärend für seine Notwendigkeit und ich denke jetzt, da Sie sehen, dass Sie mehrfache Werte hinzugefügt haben ... das kann nicht funktionieren. Sie haben im Grunde den Durchschnitt der Quadrate ihrer Werte genommen.

Die große Ente
quelle
Ich denke nicht, dass dies der Fall ist. Es interessiert mich hier nicht, wie viele Leute ein bestimmtes Produkt kaufen. Ich bin daran interessiert, wie viele Produkte ein Kunde insgesamt gekauft hat, wenn er A.
James Adams,
@ JamesAdams Okay, fair genug. In diesem Fall ist das Problem noch trivialer. Sie nehmen nur einen Durchschnitt aus einer Teilmenge Ihrer Stichprobe. Wenn Sie dasselbe mit B und C machen würden, wäre der endgültige Durchschnitt theoretisch nicht der tatsächliche Durchschnitt. Dies liegt jedoch nur daran, dass die Stichproben ungleich sind. Das ist alles. Tatsächlich sehe ich keinen Grund, warum das für eine Person offensichtlich wäre. Es gibt tatsächlich eine Lösung für die Festlegung der Durchschnittswerte, um den richtigen Durchschnitt zu erhalten. Es wird ein gewichteter Durchschnitt genannt, und im Grunde genommen würden Sie jeden Teil des Durchschnitts mit der Anzahl der Personen in dieser Gruppe "gewichten". Sinn ergeben?
Die große Ente
@ JamesAdams und ich weiß, dass Sie nicht daran interessiert sind. Sie sind Mathematiker, von denen Sie behaupteten, dass sie ein Paradoxon darstellen, das diesen Durchschnitt verwendet, um die durchschnittliche Anzahl von Produkten pro Person zu berechnen. Deshalb betone ich in dieser Antwort, dass es einen zweiten Durchschnitt für eine andere Statistik gibt und Ihr "Fehler" darin bestand, zu versuchen, sie in einen völlig anderen Durchschnitt zu verwandeln.
Die große Ente