Wie kann man zwischen den verschiedenen angepassten Formeln wählen ?

15

Ich denke an die angepassten R-Quadrat-Formeln, die vorgeschlagen werden von:

  • Ezekiel (1930), von dem ich glaube, dass er derzeit in SPSS verwendet wird.

    Reindjusted2=1-(N-1)(N-p-1)(1-R2)
  • Olkin und Pratt

    Runbicheinsed2=1-(N-3)(1-R2)(N-p-1)-2(N-3)(1-R2)2(N-p-1)(N-p+1)

Unter welchen Umständen (falls vorhanden) sollte ich es vorziehen, 'angepasst' zu 'unvoreingenommen' zu machen ?R2

Verweise

  1. Ezekiel, M. (1930). Methoden der Korrelationsanalyse . John Wiley und Söhne, New York.
  2. Olkin I., Pratt JW (1958). Unvoreingenommene Schätzung bestimmter Korrelationskoeffizienten. Annals of Mathematical Statistics , 29 (1), 201-211.
user1205901 - Setzen Sie Monica wieder ein
quelle

Antworten:

5

Ohne die Antwort von @ttnphns würdigen zu wollen, wollte ich die Antwort aus den Kommentaren entfernen (insbesondere in Anbetracht der Tatsache, dass der Link zum Artikel gestorben war). Die Antwort von Matt Krause bietet eine nützliche Diskussion der Unterscheidung zwischen und , erörtert jedoch nicht die Entscheidung, welche -Formel in einem bestimmten Fall zu verwenden ist.R 2 a d j R 2 a d jR2Reindj2Reindj2

Wie ich in besprechen diese Antwort , Yin und Fan (2001) Varianz einen guten Überblick über die vielen verschiedenen Formeln sorgen für die Schätzung Bevölkerung erklärt , von denen alle potentiell eine Art eingestellt bezeichnen könnte .R 2ρ2R2

Sie führen eine Simulation durch, um zu bestimmen, welche einer Vielzahl von angepassten R-Quadrat-Formeln die beste unverzerrte Schätzung für verschiedene Stichprobengrößen, und Prädiktor-Interkorrelationen liefert. Sie schlagen vor, dass die Pratt-Formel eine gute Option sein könnte, aber ich glaube nicht, dass die Studie in dieser Angelegenheit endgültig war.ρ2

Update: Raju et al. (1997) stellen fest, dass sich angepasste Formeln unterscheiden, je nachdem, ob sie für die Schätzung angepasster Annahme von Fixed-x- oder Random-x-Prädikatoren ausgelegt sind. Insbesondere ist die Ezekial-Formel so konzipiert, dass im Kontext mit festem x geschätzt wird , und die Olkin-Pratt- und Pratt-Formeln sind so konzipiert, dass im Kontext mit zufälligem x geschätzt wird . Es gibt keinen großen Unterschied zwischen den Olkin-Pratt- und Pratt-Formeln. Fixed-x-Annahmen stimmen mit geplanten Experimenten überein, Random-x-Annahmen stimmen mit der Annahme überein, dass die Werte der Prädiktorvariablen eine Stichprobe möglicher Werte sind, wie dies in Beobachtungsstudien normalerweise der Fall ist. Weitere Informationen finden Sie in dieser AntwortR 2 ρ 2 ρ 2R2R2ρ2ρ2. Es gibt auch keinen großen Unterschied zwischen den beiden Formeltypen, da die Stichprobengröße mäßig groß wird (siehe hier für eine Erläuterung der Größe des Unterschieds ).

Zusammenfassung der Faustregeln

  • Wenn Sie davon ausgehen, dass Ihre Beobachtungen für Prädiktorvariablen eine Zufallsstichprobe aus einer Population sind und Sie für die Gesamtpopulation von Prädiktoren und Kriterium (dh Zufalls-x-Annahme) schätzen möchten, verwenden Sie die Olkin-Pratt-Formel (oder die Pratt-Formel).ρ2
  • Wenn Sie davon ausgehen, dass Ihre Beobachtungen festgelegt sind oder Sie nicht über Ihre beobachteten Niveaus des Prädiktors hinaus verallgemeinern möchten, dann schätzen Sie mit der Ezekiel-Formel.ρ2
  • Wenn Sie mithilfe der Stichprobenregressionsgleichung wissen möchten, dass die Stichprobenvorhersage nicht funktioniert, sollten Sie sich mit einer Art Kreuzvalidierungsverfahren befassen.

Verweise

  • Raju, NS, Bilgic, R., Edwards, JE & Fleer, PF (1997). Methodenüberprüfung: Schätzung der Populationsvalidität und Kreuzvalidität sowie Verwendung gleicher Gewichte bei der Vorhersage. Applied Psychological Measurement, 21 (4), 291-305.
  • Yin, P. & Fan, X. (2001). Schätzung der Schrumpfung bei multipler Regression: Ein Vergleich verschiedener Analysemethoden. The Journal of Experimental Education, 69 (2), 203-224. PDFR2
Jeromy Anglim
quelle
13

Die Wahl von oder angepasstem hängt davon ab, was Sie tun möchten. In einem Regressionskontext wird reguläres als Maß für die Anpassungsgüte für Ihr Modell verwendet. Stellen Sie sich jedoch vor, Sie vergleichen mehrere Modelle mit einer unterschiedlichen Anzahl von Parametern. Wenn alle Dinge gleich sind, passt das Modell mit mehr Parametern besser zu Ihrer Beobachtung. Im Grenzfall könnten Sie ein Modell mit Parametern für jeden Datenpunkt außer einem haben. Dies würde Ihnen eine perfekte Anpassung an Ihre Beobachtungen ermöglichen, wäre jedoch für eine neue Vorhersage unbrauchbar, da es sowohl das zugrunde liegende "Signal" als auch das damit verbundene Rauschen erfasst. Adjusted ist ein Versuch, dieses Problem durch Einstellen des zu lösenR2R2R2R2R2 Wert entsprechend der Anzahl der Parameter im Modell.

Sie haben daher leicht unterschiedliche Zwecke. beschreibt, wie gut unterschiedliche Datensätze zu einem Modell passen. Sie schreiben vielleicht etwas wie "Das oben beschriebene Modell sagt die Leistung von Teil A ( = 0,9) genau voraus , aber nicht Widget B ( = 0,05) unter Standardtestbedingungen." Adjusted beschreibt, wie gut verschiedene Modelle zu denselben Daten (oder ähnlichen Daten) passen. Beispiel: "Die Ergebnisse des Kurz- und Langfragebogens haben die jährlichen Ausgaben des Kunden gleichermaßen gut vorhergesagt (Bereinigter = 0,8 für beide)."R2r2r2R2R2

Matt Krause
quelle
2
Vielen Dank, ich fand das eine sehr klare Erklärung für den Unterschied zwischen R-Quadrat und angepasstem R-Quadrat. Wie passt aus Ihrer Sicht das unbefangene R-Quadrat in dieses Bild?
user1205901
5
Es gibt in der Tat verschiedene Formeln, um die Population R ^ 2 zu schätzen. Siehe zum Beispiel studyforquals.pbworks.com/f/yin.pdf . Fisher's (= Wherry's) "Adjusted R ^ 2" soll leicht negativ voreingenommen sein (es ist immer noch abhängig von der Stichprobengröße, aber nicht abhängig von der Anzahl der Prädiktoren), daher ist die Olkin-Pratt-Version wahrscheinlich etwas besser.
TTNPHNS
1
@ttnphns, vielleicht sollte das eine Antwort anstelle eines Kommentars sein. Für mich scheint es, die ursprüngliche Frage mehr als diese Antwort anzusprechen.
gung - Wiedereinsetzung von Monica
1
Der aus einer Stichprobe berechnete Wert ist geringfügig kleiner als der "wahre" Populationswert. Die grafische Darstellung auf Seite 6/138 von uv.es/psicologica/articulos1.03/9.ZUMBO.pdf zeigt, wie sich der Bias mit der Stichprobengröße und dem Wert ändert . Die Olkin-Pratt-Formel korrigiert diese Stichprobengröße. Es scheint zwei Versionen der Olkin-Pratt-Formel zu geben, von denen eine auch die Anzahl der Parameter korrigiert (siehe ttnphns-Link). Tatsächlich enthält dieses Papier mehrere Tabellen, anhand derer Sie eine Korrekturmethode für Ihre spezielle Anwendung auswählen können. Es lohnt sich also, einen Blick darauf zu werfen. R2R2
Matt Krause
1
@ttnphns, ich stimme Gung zu! Sie sollten eine Antwort aufschreiben und etwas Anerkennung finden. Kannst du mir auch bestätigen, was ich geschrieben habe? JStor benimmt sich heute seltsam und lässt mich das Original von Olkin und Pratt nicht lesen.
Matt Krause