Betrachten Sie die folgenden drei Phänomene.
Steins Paradoxon: Angesichts einiger Daten aus der multivariaten Normalverteilung in ist der Stichprobenmittelwert kein sehr guter Schätzer für den wahren Mittelwert. Man kann eine Schätzung mit kleinerem mittleren Fehlerquadrat erhalten, wenn man alle Koordinaten des Stichprobenmittelwerts gegen Null schrumpft [oder gegen ihren Mittelwert oder gegen irgendeinen Wert, wenn ich das richtig verstehe].
Anmerkung: In der Regel wird Steins Paradoxon formuliert, indem nur ein einziger Datenpunkt aus berücksichtigt wird . Bitte korrigieren Sie mich, wenn dies entscheidend ist und meine obige Formulierung nicht korrekt ist.
Ridge-Regression: Bei einigen abhängigen Variablen und einigen unabhängigen Variablen tendiert die Standard-Regression um die Daten zu überbeanspruchen und zu schlechter Out-of-Sample-Leistung zu führen. Man kann die Überanpassung oft reduzieren, indem man gegen Null schrumpft : .
Zufällige Effekte in mehrstufigen / gemischten Modellen: Wenn eine abhängige Variable (z. B. die Größe des Schülers) von bestimmten kategorialen Prädiktoren (z. B. Schulkennung und Geschlecht des Schülers) abhängt, wird häufig empfohlen, einige Prädiktoren als „zufällig“ zu behandeln, dh dies anzunehmen Die durchschnittliche Schülergröße in jeder Schule ergibt sich aus einer bestimmten zugrunde liegenden Normalverteilung. Dies führt dazu, dass die Schätzungen der mittleren Größe pro Schule in Richtung des globalen Mittelwerts gesenkt werden.
Ich habe das Gefühl, dass all dies verschiedene Aspekte desselben "Schrumpfungs" -Phänomens sind, aber ich bin mir nicht sicher und es fehlt mir mit Sicherheit eine gute Intuition dafür. Meine Hauptfrage lautet also: Gibt es tatsächlich eine tiefe Ähnlichkeit zwischen diesen drei Dingen, oder ist es nur ein oberflächlicher Anschein? Was ist das gemeinsame Thema hier? Was ist die richtige Intuition?
Außerdem sind hier einige Teile dieses Puzzles, die für mich nicht wirklich zusammenpassen:
Bei der Gratregression wird nicht gleichmäßig geschrumpft. Die Rippenschrumpfung hängt tatsächlich mit der Singulärwertzerlegung von , wobei Richtungen mit geringer Varianz stärker geschrumpft werden (siehe z. B. Die Elemente des statistischen Lernens 3.4.1). Aber James-Stein-Schätzer nimmt einfach den Stichprobenmittelwert und multipliziert ihn mit einem Skalierungsfaktor. Wie passt das zusammen?X
Update: siehe James-Stein Estimator mit ungleichen Varianzen und hier zB Varianzen von Koeffizienten.
Der Stichprobenmittelwert ist in Dimensionen unter 3 optimal. Bedeutet dies, dass bei nur einem oder zwei Prädiktoren im Regressionsmodell die Kammregression immer schlechter ist als gewöhnliche kleinste Quadrate? Wenn ich es mir so überlege, kann ich mir keine Situation in 1D vorstellen (dh einfache, nicht-multiple Regression), in der ein Schrumpfen des Kamms von Vorteil wäre ...
Update: Nein. Siehe Unter welchen Bedingungen kann die Kammregression eine Verbesserung gegenüber der normalen Regression der kleinsten Quadrate bewirken?
Andererseits ist der Stichprobenmittelwert in Dimensionen über 3 immer suboptimal. Bedeutet dies, dass bei mehr als 3 Prädiktoren die Kammregression immer besser ist als die OLS, auch wenn alle Prädiktoren nicht korreliert sind (orthogonal)? Normalerweise ist die Gratregression durch Multikollinearität und die Notwendigkeit, den Term zu "stabilisieren", motiviert .
Update: Ja! Siehe den gleichen Thread wie oben.
Es gibt oft heftige Diskussionen darüber, ob verschiedene Faktoren in der ANOVA als feste oder zufällige Effekte einbezogen werden sollten. Sollten wir nach der gleichen Logik einen Faktor nicht immer als zufällig behandeln, wenn er mehr als zwei Ebenen hat (oder wenn es mehr als zwei Faktoren gibt? Jetzt bin ich verwirrt)?
Update :?
Update: Ich habe einige exzellente Antworten erhalten, aber keine liefert genug Informationen, so dass ich die Frage "offen" lassen werde. Ich kann versprechen, einer neuen Antwort eine Prämie von mindestens 100 Punkten zu verleihen , die die bestehenden Antworten übertrifft. Ich bin hauptsächlich auf der Suche nach einer einheitlichen Sichtweise, die erklären könnte, wie sich das allgemeine Phänomen des Schrumpfens in diesen verschiedenen Zusammenhängen manifestiert, und die Hauptunterschiede zwischen ihnen aufzeigen könnte.
quelle
Antworten:
Zusammenhang zwischen James-Stein-Schätzer und Gratregression
Verbindung zwischen James-Stein-Schätzer und Zufallseffektmodellen
Lassen Sie uns zuerst die Modelle für gemischte / zufällige Effekte in der Genetik diskutieren. Das Modell ist Wenn es keine festen Wirkungen und ist Z = I , wird das Modell y = θ + e , θ ~ N ( 0 , σ
Zusammenhang zwischen Zufallseffektmodellen und Gratregression
Wenn wir Modelle auf den zufälligen Effekten konzentrieren oben, Die Schätzung entspricht , das Problem zu lösen min θ ‖ y - Z θ ‖ 2 + λ ‖ θ ‖ 2 bei λ = σ 2 / σ
Zusammenhang zwischen (mehrstufigen) Zufallseffektmodellen und denen in der Genetik
In dem Zufallseffekt - Modell über die Abmessung von ist m × 1 , und die von Z ist m × p . Wenn wir vektorisieren Z als ( m p ) × 1 , und wiederholen y entsprechend, dann haben wir die hierarchische / gruppierten Struktur, p - Cluster und jeweils mit m - Einheiten. Wenn wir v e c ( Z ) bei wiederholtem y zurückführen, können wir den zufälligen Effekt von Z auf y erhalteny m × 1 , Z m × p Z ( m p ) × 1 , y p m v e c ( Z ) y Z y für jeden Cluster, obwohl es eine Art umgekehrte Regression ist.
Anerkennung : Die ersten drei Punkte werden größtenteils aus diesen beiden chinesischen Artikeln 1 , 2 gelernt .
quelle
All dies fällt unter die Ägide der Entscheidungstheorie. Eine erschöpfende, aber eher unfreundliche Referenz ist die "Theorie der Punktschätzung" von Lehmann und Casella. Vielleicht können andere mit freundlicheren Referenzen mitreden?
quelle
James-Stein geht davon aus, dass die Dimension der Antwort mindestens 3 beträgt. In der Standard-Ridge-Regression ist die Antwort eindimensional. Sie verwechseln die Anzahl der Prädiktoren mit der Antwortdimension.
Davon abgesehen sehe ich die Ähnlichkeit zwischen diesen Situationen, aber was genau zu tun ist, z. B. ob ein Faktor fest oder zufällig ist, wie viel Schrumpfung angewendet werden soll, hängt, wenn überhaupt, vom jeweiligen Datensatz ab. Je orthogonaler die Prädiktoren sind, desto weniger ist es sinnvoll, die Ridge-Regression der Standard-Regression vorzuziehen. Je größer die Anzahl der Parameter ist, desto sinnvoller ist es, den vorherigen Wert über Empirical Bayes aus dem Datensatz selbst zu extrahieren und dann zum Verkleinern der Parameterschätzungen zu verwenden. Je höher das Signal-Rausch-Verhältnis ist, desto geringer sind die Vorteile des Schrumpfens usw.
quelle
Wie andere gesagt haben, besteht die Verbindung zwischen den drei darin, wie Sie die vorherigen Informationen in die Messung einbeziehen.
Kurz gesagt, die Antwort ist, dass Sie die Unsicherheit einer Messung verringern können, wenn Sie wissen, was Sie zu erwarten haben, und die Daten mit einigen vorherigen Daten (den vorherigen Informationen) kategorisieren. Diese vorherigen Daten schränken Ihre Modellierungsfunktion ein, die Sie zum Anpassen der Messungen verwenden. In einfachen Fällen können Sie Ihr Modell im Bayes'schen Rahmen aufschreiben, aber manchmal ist es unpraktisch, alle möglichen Continuos-Funktionen zu integrieren, um die zu finden, die den Bayes'schen Maximal-A-Posterior-Wert hat.
quelle
James Stein Schätzer und Ridge Regression
Erwägen
Die Lösung mit dem kleinsten Quadrat hat die Form
James Stein
Ridge Regression
Wie warβ^(λ)
Dann bekommen wir
quelle