Regression auf das mittlere Rätsel

9

Im Kapitel "Regression to the Mean" von Daniel Kahneman "Denken, schnell und langsam" wird ein Beispiel gegeben, und der Leser wird gebeten, den Umsatz einzelner Geschäfte anhand der Gesamtumsatzprognose und der Verkaufszahlen des Vorjahres zu prognostizieren . Zum Beispiel (das Beispiel des Buches hat 4 Geschäfte, der Einfachheit halber verwende ich hier 2):

Store    2011    2012
1        100      ?
2        500      ?
Total    600     660

Die naive Prognose wäre 110 und 550 für die Geschäfte 1 und 2, jeweils 10% mehr. Der Autor behauptet jedoch, dieser naive Ansatz sei falsch. Es ist wahrscheinlicher, dass das Geschäft mit schlechterer Leistung um mehr als 10% zunimmt und das Geschäft mit besserer Leistung um weniger als 10% zunimmt (oder sogar abnimmt). Vielleicht wäre eine Prognose von 115 (Anstieg um 15%) und 535 (Anstieg um 7%) "korrekter" als die naive Prognose.

Was ich nicht verstehe, ist, wie wir daraus schließen können, dass der Verkauf von 100 von Geschäft 1 notwendigerweise das Geschäft mit der schlechteren Leistung ist? Aufgrund von Standortunterschieden sind die wahren Zeitreihenmittelwerte für die Geschäfte 1 und 2 möglicherweise 10 und 550, und Geschäft 1 hatte 2011 ein Superjahr und Geschäft 2 2011 ein katastrophales Jahr. Dann wäre es nicht sinnvoll für Geschäft 1 einen Rückgang und für Geschäft 2 einen Anstieg prognostizieren?

Ich weiß, dass Zeitreiheninformationen im ursprünglichen Beispiel nicht angegeben wurden, aber ich habe den Eindruck, dass sich "Regression auf den Mittelwert" auf den Querschnittsmittelwert bezieht und daher Zeitreiheninformationen keine Rolle spielen. Was missverstehe ich?


quelle

Antworten:

8

Ich lese gerade dieses Buch. Sie haben die Schlüsselinformationen nicht ausreichend transkribiert. Es heißt dort: "Alle Geschäfte sind in Größe und Warenauswahl ähnlich, aber ihre Verkäufe unterscheiden sich aufgrund des Standorts, des Wettbewerbs und zufälliger Faktoren." Das ist der Schlüssel, besonders das letzte Stück. Zufällige Faktoren sind erforderlich, damit eine Regression auf den Mittelwert erfolgt (wenn der Umsatz um einen festen Betrag wächst, ist der gleichmäßig über die Filialen verteilte Gewinn von 10% richtig).

Peter Flom - Monica wieder einsetzen
quelle
2
Wollen Sie damit sagen, dass die Annahme "Alle Geschäfte sind ähnlich" impliziert, dass ihre Zeitreihenmittel gleich sind? Andernfalls können zwei identische Geschäfte aufgrund des Standorts immer noch sehr unterschiedliche Mittel haben.
1
Ich gebe zu, es ist nicht der beste Wortlaut eines Problems, aber es ist viel klarer als das, was Sie in Ihrer ursprünglichen Frage hatten.
Peter Flom - Reinstate Monica
2

Bei so wenigen Datenpunkten wird die Antwort fast ausschließlich vom vorherigen (oder impliziten Äquivalent) diktiert. Wenn der Autor schon viele dieser Daten gesehen hat, hat er möglicherweise guten Grund zu der Annahme, dass seine Antwort angesichts seiner früheren Beobachtungen eher richtig ist. Ich denke, es ist eine Strecke zu behaupten, dass dies ein Beispiel für eine Regression des Mittelwerts ist, zumindest nicht ohne Angabe weiterer Informationen. Befinden sich die Geschäfte beispielsweise an vergleichbaren Standorten oder nicht? Wenn dies der Fall ist und es keine anderen offensichtlichen Unterschiede zwischen den Geschäften gibt, können wir uns berechtigt fühlen, zu glauben, dass sie Teil einer vergleichbaren Bevölkerung sind, und wir können über eine Regression auf den Mittelwert nachdenken. Wenn es offensichtliche Unterschiede zwischen den Filialen gibt, die einen systematischen Umsatzunterschied erklären könnten, ist dies weniger sinnvoll.

Bogdanovist
quelle
0

Ich denke, eine bessere (hypothetische) Illustration könnte ungefähr so ​​aussehen:

Store    2011    2012
1        100      ?
2        180      ?
3        190      ?
4        210      ?
5        235      ?
6        300      ?

Abgesehen von systematischen Gründen würden wir erwarten, dass der schlechteste Darsteller (aus zufälligen Gründen) nicht wieder so ist. Und so auch für den besten Darsteller.

Daher würde ich bei einem durchschnittlichen Wachstum von 10% erwarten, dass # 1 besser als 110 und # 6 schlechter als 330 abschneidet.

Ich denke, der zweifelhafte Teil sind die Annahmen. Es ist meiner Meinung nach sehr selten, dass der Nachzügler des Rudels wirklich nur ein zufälliger Zufall ist und keine zugrunde liegende Heterogenität.

neugierig_katze
quelle