Regression zum Mittelwert in „Denken, schnell und langsam“

14

Daniel Kahneman wirft in " Denken, schnell und langsam" die folgende hypothetische Frage auf:

(S. 186) Julie ist derzeit Seniorin an einer staatlichen Universität. Sie las fließend, als sie vier Jahre alt war. Was ist ihr Notendurchschnitt (GPA)?

Seine Absicht ist es zu veranschaulichen, wie wir es oft versäumen, die Regression auf den Mittelwert zu berücksichtigen, wenn wir Vorhersagen über bestimmte Statistiken treffen. In der anschließenden Diskussion rät er:

(S. 190) Erinnern Sie sich daran, dass die Korrelation zwischen zwei Messgrößen - im vorliegenden Fall dem Lesealter und dem GPA - dem Anteil gemeinsamer Faktoren an ihren Determinanten entspricht. Was ist Ihre beste Vermutung über dieses Verhältnis? Meine optimistischste Schätzung liegt bei 30%. Unter der Annahme dieser Schätzung haben wir alles, was wir brauchen, um eine unvoreingenommene Vorhersage zu erstellen. Hier sind die Anweisungen, wie Sie in vier einfachen Schritten dorthin gelangen:

  1. Beginnen Sie mit einer Schätzung des durchschnittlichen GPA.
  2. Bestimmen Sie den GPA, der Ihrem Eindruck vom Beweismaterial entspricht.
  3. Schätzen Sie die Korrelation zwischen Lesepräzision und GPA.
  4. Wenn die Korrelation 0,30 beträgt, verschieben Sie 30% des Abstands vom Durchschnitt zum übereinstimmenden GPA.

Meine Interpretation seines Ratschlags lautet wie folgt:

  1. Verwenden Sie "Sie liest fließend, als sie vier Jahre alt war", um einen Standardwert für Julies Lesepräzision festzulegen.
  2. Bestimmen Sie eine GPA mit einer entsprechenden Standardbewertung. (Der vorherzusagende rationale GPA würde diesem Standardwert entsprechen, wenn die Korrelation zwischen GPA und Lesegenauigkeit perfekt wäre.)
  3. Schätzen Sie, wie viel Prozent der Unterschiede in der GPA durch Unterschiede in der Lesegenauigkeit erklärt werden können. (Ich nehme an, er bezieht sich in diesem Zusammenhang auf den Bestimmungskoeffizienten mit "Korrelation"?)
  4. Da nur 30% des Standardwerts für Julies Lesepräzision durch Faktoren erklärt werden können, die auch den Standardwert für ihren GPA erklären können, können wir zu Recht nur davon ausgehen, dass der Standardwert für Julies GPA 30% des Normalwerts beträgt im Falle einer perfekten Korrelation.

Ist meine Interpretation von Kahnemans Vorgehen korrekt? Wenn ja, gibt es eine formellere mathematische Begründung für sein Verfahren, insbesondere für Schritt 4? Welche Beziehung besteht im Allgemeinen zwischen der Korrelation zwischen zwei Variablen und Änderungen / Unterschieden in ihren Standardbewertungen?

Verpflegung
quelle

Antworten:

2

Ist meine Interpretation von Kahnemans Vorgehen korrekt?

Dies ist etwas schwierig zu sagen, da Kahnemans Schritt Nr. 2 nicht sehr genau formuliert ist: "Bestimmen Sie die GPA, die Ihrem Eindruck der Beweise entspricht" - was genau soll das bedeuten? Wenn die Eindrücke einer Person gut kalibriert sind, muss keine Korrektur in Richtung Mittelwert vorgenommen werden. Wenn jemandes Eindrücke grob sind, dann sollten sie lieber noch stärker korrigieren.

Daher stimme ich @AndyW zu, dass Kahnemans Rat nur eine Faustregel ist.

Das heißt, wenn Sie interpretieren Kahnemans Schritt # 2 , wie Sie es in Ihrer Interpretation Schritte interpretiert ## 1--2: das heißt , dass Sie GPA nehmen mit der gleichen -score als -score von Frühreife Lesen als „passenden Eindruck die Beweise ", dann ist Ihr Verfahren genau mathematisch korrekt und keine Faustregel.zz

[...] gibt es eine formalere mathematische Begründung für sein Verfahren, insbesondere für Schritt 4? Welche Beziehung besteht im Allgemeinen zwischen der Korrelation zwischen zwei Variablen und Änderungen / Unterschieden in ihren Standardbewertungen?

Wenn Sie aus vorhersagen und beide in Punkte umgewandelt werden, dh Mittelwert und Einheitsvarianz Null haben und eine Korrelation untereinander haben, kann leicht gezeigt werden, dass die Regressionsgleichung dh der Regressionskoeffizient ist gleich dem Korrelationskoeffizienten.yxzρ

y=ρx,

Ab hier folgt sofort, dass, wenn Sie den Wert von (z. B. die Standardbewertung der Lesegenauigkeit), der vorhergesagte Wert von (Standardbewertung von GPA) das fache davon ist.xyρ

Dies ist genau das, was als "Regression zum Mittelwert" bezeichnet wird. Sie können einige Formeln und Ableitungen in der Diskussion auf Wikipedia sehen .

Amöbe sagt Reinstate Monica
quelle
8

Die Reihenfolge Ihrer Zahlen stimmt nicht mit dem Kahneman-Zitat überein. Aus diesem Grund scheint es, als ob Sie den Gesamtpunkt verfehlen könnten.

Kahnemans erster Punkt ist der wichtigste. Es bedeutet wörtlich den durchschnittlichen GPA zu schätzen - für alle. Der Punkt hinter diesem Rat ist, dass es Ihr Anker ist. Jede Vorhersage, die Sie machen, sollte sich auf Änderungen um diesen Ankerpunkt beziehen. Ich bin mir nicht sicher, ob ich diesen Schritt in einem Ihrer Punkte sehe!

Kahneman verwendet ein Akronym, WYSIATI. Was Sie sehen, ist alles, was es gibt. Dies ist die menschliche Tendenz, die Bedeutung der derzeit verfügbaren Informationen zu überschätzen. Für viele Menschen würde die Information über die Lesefähigkeit dazu führen, dass die Leute Julie für schlau halten, und die Leute würden den GPA einer schlauen Person schätzen.

Das Verhalten eines Kindes im Alter von vier Jahren enthält jedoch nur sehr wenige Informationen zum Verhalten von Erwachsenen. Sie sind wahrscheinlich besser dran, es zu ignorieren, wenn Sie Vorhersagen treffen. Es sollte Sie nur um einen kleinen Betrag von Ihrem Anker ablenken. Auch die ersten Vermutungen der Menschen über eine GPA für intelligente Personen können sehr ungenau sein. Aufgrund der Selektion ist die Mehrheit der Senioren im College überdurchschnittlich intelligent.

Neben Julies Lesefähigkeit im Alter von vier Jahren gibt es noch einige andere versteckte Informationen in der Frage.

  • Julie ist wahrscheinlich ein weiblicher Vorname
  • Sie besucht eine staatliche Universität
  • Sie ist eine Seniorin

Ich vermute, dass alle drei Merkmale den durchschnittlichen GPA-Wert im Vergleich zur Gesamtbevölkerung der Studierenden leicht erhöhen. Ich wette zum Beispiel, dass Senioren wahrscheinlich einen höheren GPA als Sophmores haben, weil Schüler mit einem sehr schlechten GPA abbrechen.

Also würde Kahnemans Vorgehen (als Hypothese) ungefähr so ​​verlaufen.

  1. Die durchschnittliche GPA für eine Seniorin an einer staatlichen Universität beträgt 3,1.
  2. Ich schätze, basierend auf Julies fortgeschrittener Lesefähigkeit bei 4 liegt ihr GPA bei 3,8
  3. Ich denke, dass die Lesefähigkeit im Alter von 4 Jahren eine Korrelation von 0,3 mit GPA aufweist
  4. Dann sind 30% des Weges zwischen 3.1 und 3.8 3.3 (ie 3.1 + (3.8-3.1)*0.3)

In dieser Hypothese lautet die endgültige Schätzung für Julies GPA also 3,3.

Die Regression auf den Mittelwert in Kahnemans Ansatz ist, dass Schritt 2 wahrscheinlich eine grobe Überschätzung der Wichtigkeit der verfügbaren Informationen darstellt. Eine bessere Strategie ist es daher, unsere Vorhersage auf den Gesamtmittelwert zurückzuführen. Die Schritte 3 und 4 sind (Ad-hoc-) Methoden zur Schätzung der Regressionsrate.

Andy W
quelle
Ich verstehe die Intuition hinter dem Verfahren, aber nicht die mathematische Rechtfertigung. Meine Interpretation ist, dass der Punkt der Schätzung des durchschnittlichen GPA darin besteht, dass man bestimmte GPAs in Form von Standardwerten schätzen kann; Andernfalls könnten sie nicht sinnvoll mit der Frühreife des Lesens verglichen werden. (
Fortsetzung
1
Kahneman erwähnt, dass die meisten Leute GPA = 3,7 oder 3,8 schätzen, was wahrscheinlich dem Standardwert entspricht, den sie mit Julies Lesegenauigkeit in Verbindung bringen, aber implizit auch davon ausgeht, dass die Korrelation zwischen den beiden Variablen perfekt ist. Ich bin hauptsächlich verwirrt darüber, ob Schritt 4 eine auf Intuition basierende Faustregel oder ein reales, statistisch valides Verfahren ist (dh kann man Standardwerte additiv behandeln und Anteile davon basierend auf der Korrelation nehmen?). Wenn es sich lediglich um eine Faustregel eines Laien handelt, gibt es dann eine statistisch strengere Annäherungsmethode?
Rationen
Mit "additiv" beziehe ich mich auf unsere Annahme, dass (1) ein Teil von Julies GPA-Standardbewertung durch Faktoren erklärt wird, die auch ihre Lesegenauigkeit erklären können, und dass (2) der verbleibende Teil ihrer GPA-Standardbewertung durch Faktoren erklärt wird Einzigartig für die Erklärung von GPA ist, dass (3) diese summierten Beiträge dem endgültigen GPA-Standardwert entsprechen, den wir für Julie vorhersagen, und dass (4) wir unsere Vorhersage korrigieren können, indem wir einfach einen Teil unserer voreingenommenen Vorhersage nehmen. Gilt es, mit solchen Anteilen von Standardabweichungen zu arbeiten - im Gegensatz beispielsweise zu ihren Quadratwurzeln?
Rationen
Es ist eine Ad-hoc-Regel. Die Schritte zwei und drei sind nicht unbedingt logisch miteinander konsistent. (Es gibt zwei verschiedene Arten, um die gleichen Informationen
Andy W