Wann werden unsachgemäße lineare Modelle robust schön?

9

Fragen:

  • Werden in der Praxis falsche lineare Modelle verwendet oder werden sie von Zeit zu Zeit in wissenschaftlichen Fachzeitschriften beschrieben? Wenn ja, in welchen Bereichen werden sie eingesetzt?
  • Gibt es andere Beispiele für solche Modelle?
  • Schließlich wären Standardfehler, Werte, usw., die OLS für solche Modelle entnommen wurden, korrekt oder sollten sie irgendwie korrigiert werden?pR2

Hintergrund: In der Literatur werden von Zeit zu Zeit falsche lineare Modelle beschrieben. Im Allgemeinen können solche Modelle als beschrieben werden

y=a+biwixi+ε

was macht sie aus Regression unterscheidet ist , dass ‚s sind nicht - Koeffizienten in dem Modell geschätzt, aber sind Gewichte , die sindwj

  • gleich für jede Variable ( gewichtete Regression ),wi=1
  • basierend auf Korrelationen (Dana und Dawes, 2004),wi=ρ(y,xi)
  • zufällig ausgewählt (Dawes, 1979),
  • 1 für Variablen, die sich negativ auf beziehen , für Variablen, die sich positiv auf beziehen (Wainer, 1976).y1y

Es ist auch üblich, eine Art Merkmalsskalierung zu verwenden, beispielsweise das Konvertieren von Variablen in Punkte. Diese Art von Modell kann also zu einer univariaten linearen Regression vereinfacht werdenZ

y=a+bv+ε

Dabei ist und kann einfach mithilfe der OLS-Regression geschätzt werden.v=wix

Literaturhinweise:
Dawes, Robyn M. (1979). Die robuste Schönheit falscher linearer Modelle bei der Entscheidungsfindung . American Psychologist, 34, 571 & ndash ; 582.

Graefe, A. (2015). Verbesserung der Prognosen mit gleichgewichteten Prädiktoren . Journal of Business Research, 68 (8), 1792-1799.

Wainer, Howard (1976). Schätzen von Koeffizienten in linearen Modellen: Es macht nichts aus . Psychological Bulletin 83 (2), 213.

Dana, J. und Dawes, RM (2004). Die Überlegenheit einfacher Alternativen zur Regression für sozialwissenschaftliche Vorhersagen . Journal of Educational and Behavioral Statistics, 29 (3), 317-331.

Tim
quelle
3
Inwiefern wären die aus diesen Modellen abgeleiteten Statistiken "falsch"?
whuber
1
Wenn die s vorab festgelegt sind und geschätzt, das ist nur eine Datenreduktion auf den Prädiktoren durchgeführt - häufig genug in verschiedenen Formen (siehe zB das Glasgow Coma Scale & die Charlson Komorbidität Index) - was das nicht beeinflussen Gültigkeit der Inferenz im üblichen OLS-Framework. Wenn verwendet wird, um die s zu bestimmen , werden die Standardfehler & c. wird raus sein, in die optimistische Richtung würde ich denken. wibywi
Scortchi - Monica wieder einsetzen
1
Es war kein informierter Kommentar - die Papiere befinden sich immer noch auf meinem Stapel "zum Lesen". Ich habe mich nur gefragt: "Warum 'unpassend'?". Es ist nicht ungewöhnlich, dass ein Prädiktor eine lineare Kombination anderer Variablen ist - ein Durchschnitt aus mehreren Messungen, ein Hauptkomponenten-Score, eine Vorhersage aus einer anderen Regression, das Niveau aus einer exponentiell geglätteten Zeitreihe oder ein berechneter Wert aus einer gut etablierten oder ein Ad-hoc-Index. Wenn die Gewichte nicht anhand der Antwort geschätzt werden, werden Freiheitsgrade geschont, wodurch eine Überanpassung bei kleineren Stichprobengrößen vermieden wird.
Scortchi - Monica wieder einsetzen
1
In z. B. Beddhu (2000) "sagt eine einfache Komorbiditätsskala klinische Ergebnisse und Kosten bei Dialysepatienten voraus" Am. J. Med., 108 , 8 Die Modellgleichung hat dieselbe Form wie Ihre, wobei die s als Indikatorvariablen für Diabetes, Lymphom sind und die s vorgegeben sind. Ich nehme an, ich sage, dass die Unterscheidung zwischen "unangemessenen" und "richtigen" Regressionsmodellen auf der Vorstellung einer von Gott gegebenen Menge von s zu scheint , für die jeweils ein "richtiges" Modell einen Koeffizienten schätzen würde . xiwixi
Scortchi - Monica wieder einsetzen
4
Wenn und & aus denselben Daten geschätzt würden, für die das Modell geeignet ist, wäre das ein ganz anderer Fischkessel. wi=ρ(y,xi)ρ
Scortchi - Monica wieder einsetzen

Antworten:

1

Tatsächlich scheint es mir, dass dies eine Zusammenstellung angenommener Kovarianzstrukturen ist. Mit anderen Worten, dies ist eine Art Bayes'sche Vormodellierung.

Dies gewinnt an Robustheit gegenüber einem gewöhnlichen MLR-Verfahren, da die Anzahl der Parameter ( df) verringert wird, und führt zu einer Ungenauigkeit aufgrund der erhöhten ausgelassenen variablen Vorspannung OVB. Aufgrund des OVB ist die Steigung abgeflacht,wird der Bestimmungskoeffizient reduziert .|β^|<|β|R^2<R2

Meine persönliche Erfahrung ist, dass der Bayes'sche Ansatz darin besteht, eine bessere Modellierung zu verwenden. Parameter transformieren, andere Normen verwenden und / oder nichtlineare Methoden verwenden. Das heißt, sobald die Physik des Problems und die Methoden richtig erforscht und koordiniert sind, verbessern sich die F-Statistiken, der Bestimmungskoeffizient usw. eher, als dass sie sich verschlechtern.

Carl
quelle