Einheitliche Sicht auf die Schrumpfung: Welche Beziehung besteht (wenn überhaupt) zwischen Steins Paradoxon, Gratregression und zufälligen Effekten in gemischten Modellen?

64

Betrachten Sie die folgenden drei Phänomene.

  1. Steins Paradoxon: Angesichts einiger Daten aus der multivariaten Normalverteilung in ist der Stichprobenmittelwert kein sehr guter Schätzer für den wahren Mittelwert. Man kann eine Schätzung mit kleinerem mittleren Fehlerquadrat erhalten, wenn man alle Koordinaten des Stichprobenmittelwerts gegen Null schrumpft [oder gegen ihren Mittelwert oder gegen irgendeinen Wert, wenn ich das richtig verstehe].Rn,n3

    Anmerkung: In der Regel wird Steins Paradoxon formuliert, indem nur ein einziger Datenpunkt aus berücksichtigt wird . Bitte korrigieren Sie mich, wenn dies entscheidend ist und meine obige Formulierung nicht korrekt ist.Rn

  2. Ridge-Regression: Bei einigen abhängigen Variablen und einigen unabhängigen Variablen tendiert die Standard-Regression um die Daten zu überbeanspruchen und zu schlechter Out-of-Sample-Leistung zu führen. Man kann die Überanpassung oft reduzieren, indem man gegen Null schrumpft : .yXβ=(XX)1Xyββ=(XX+λI)1Xy

  3. Zufällige Effekte in mehrstufigen / gemischten Modellen: Wenn eine abhängige Variable (z. B. die Größe des Schülers) von bestimmten kategorialen Prädiktoren (z. B. Schulkennung und Geschlecht des Schülers) abhängt, wird häufig empfohlen, einige Prädiktoren als „zufällig“ zu behandeln, dh dies anzunehmen Die durchschnittliche Schülergröße in jeder Schule ergibt sich aus einer bestimmten zugrunde liegenden Normalverteilung. Dies führt dazu, dass die Schätzungen der mittleren Größe pro Schule in Richtung des globalen Mittelwerts gesenkt werden.y

Ich habe das Gefühl, dass all dies verschiedene Aspekte desselben "Schrumpfungs" -Phänomens sind, aber ich bin mir nicht sicher und es fehlt mir mit Sicherheit eine gute Intuition dafür. Meine Hauptfrage lautet also: Gibt es tatsächlich eine tiefe Ähnlichkeit zwischen diesen drei Dingen, oder ist es nur ein oberflächlicher Anschein? Was ist das gemeinsame Thema hier? Was ist die richtige Intuition?

Außerdem sind hier einige Teile dieses Puzzles, die für mich nicht wirklich zusammenpassen:

  • Bei der Gratregression wird nicht gleichmäßig geschrumpft. Die Rippenschrumpfung hängt tatsächlich mit der Singulärwertzerlegung von , wobei Richtungen mit geringer Varianz stärker geschrumpft werden (siehe z. B. Die Elemente des statistischen Lernens 3.4.1). Aber James-Stein-Schätzer nimmt einfach den Stichprobenmittelwert und multipliziert ihn mit einem Skalierungsfaktor. Wie passt das zusammen?XβX

    Update: siehe James-Stein Estimator mit ungleichen Varianzen und hier zB Varianzen von Koeffizienten.β

  • Der Stichprobenmittelwert ist in Dimensionen unter 3 optimal. Bedeutet dies, dass bei nur einem oder zwei Prädiktoren im Regressionsmodell die Kammregression immer schlechter ist als gewöhnliche kleinste Quadrate? Wenn ich es mir so überlege, kann ich mir keine Situation in 1D vorstellen (dh einfache, nicht-multiple Regression), in der ein Schrumpfen des Kamms von Vorteil wäre ...

    Update: Nein. Siehe Unter welchen Bedingungen kann die Kammregression eine Verbesserung gegenüber der normalen Regression der kleinsten Quadrate bewirken?

  • Andererseits ist der Stichprobenmittelwert in Dimensionen über 3 immer suboptimal. Bedeutet dies, dass bei mehr als 3 Prädiktoren die Kammregression immer besser ist als die OLS, auch wenn alle Prädiktoren nicht korreliert sind (orthogonal)? Normalerweise ist die Gratregression durch Multikollinearität und die Notwendigkeit, den Term zu "stabilisieren", motiviert .(XX)1

    Update: Ja! Siehe den gleichen Thread wie oben.

  • Es gibt oft heftige Diskussionen darüber, ob verschiedene Faktoren in der ANOVA als feste oder zufällige Effekte einbezogen werden sollten. Sollten wir nach der gleichen Logik einen Faktor nicht immer als zufällig behandeln, wenn er mehr als zwei Ebenen hat (oder wenn es mehr als zwei Faktoren gibt? Jetzt bin ich verwirrt)?

    Update :?


Update: Ich habe einige exzellente Antworten erhalten, aber keine liefert genug Informationen, so dass ich die Frage "offen" lassen werde. Ich kann versprechen, einer neuen Antwort eine Prämie von mindestens 100 Punkten zu verleihen , die die bestehenden Antworten übertrifft. Ich bin hauptsächlich auf der Suche nach einer einheitlichen Sichtweise, die erklären könnte, wie sich das allgemeine Phänomen des Schrumpfens in diesen verschiedenen Zusammenhängen manifestiert, und die Hauptunterschiede zwischen ihnen aufzeigen könnte.

Amöbe sagt Reinstate Monica
quelle
Ich verstehe, dass die Gratregression (und ihre Verwandten wie das Lasso und das elastische Netz) die Koeffizienten für korrelierte Variablen verringert, die von allen Beobachtungen in der Regression gemeinsam genutzt werden (z. B. sozioökonomischer Status des Schülers und GPA), während ein Zufallseffektmodell die Koeffizienten für schrumpft sich gegenseitig ausschließende Ebenen oder Gruppen von korrelierten Beobachtungen (z. B. sozioökonomischer Status des Schülers, gruppiert nach Schul-ID).
RobertF
3
Ich denke, der beste Ort, um eine einheitliche Antwort zu erhalten, ist das Keyword BLUP (für Best Linear Unbias Predictor) esp. in der Tierzuchtliteratur. Siehe zum Beispiel Robinsons Umfrage in Statistical Science. Oder Marvin Grubers Buch
Xi'an
2
@ Xi'an: Vielen Dank, ich habe Grubers Buch bereits selbst gefunden, und obwohl er mit Sicherheit viel über James-Stein- und Gratregression spricht, habe ich keinen direkten Vergleich zwischen beiden gefunden (das ganze Buch zu lesen) im Moment keine Option für mich ...). Vielen Dank für den Link zu Robinsons Umfrage. Ich werde einen Blick darauf werfen. Tierzucht ! Wer hätte das gedacht. Übrigens, ich habe Ihre Kommentare zu verwandten Themen gesehen und vermute, dass Sie eine der Personen sind, die hier tatsächlich eine zufriedenstellende Antwort geben könnten! Das wäre toll; bisher macht mich keine antwort zufrieden.
Amöbe sagt Reinstate Monica
2
@ Xi'an: Nun, deine hilfreichen Kommentare lassen mich hier keine Antwort von dir verpassen. Wie auch immer, ich habe angefangen, Robinson zu lesen und festgestellt, dass "Best Linear Unbiased Predictor" ein voreingenommener Schätzer ist (offensichtlich, da es Schrumpfung implementiert)! Was für eine schöne Terminologie.
Amöbe sagt Reinstate Monica
4
Sie kennen sich in der Tierzucht gut aus: Nachdem Casella & George 1992 "Gibbs for kids" seinen Titel ändern mussten, um veröffentlicht zu werden, schrieb Wang & Gianola 1993 bei einem Treffen der European Association for Animal Production eine Einführung in "Gibbs for Pigs"!
Xi'an

Antworten:

30

Zusammenhang zwischen James-Stein-Schätzer und Gratregression

yθmyN(θ,σ2I) In Bezugdie ridge regression, können wir abschätzenθviaminθy-θ2+λθ2, wobei die Lösung θ ridge=1

θ^JS=(1(m2)σ2y2)y.
θminθyθ2+λθ2, Es ist leicht zu erkennen, dass die beiden Schätzer in derselben Form vorliegen, aber wir müssenσ2im James-Stein-Schätzerschätzenundλin der Gratregression durch Kreuzvalidierungbestimmen.
θ^ridge=11+λy.
σ2λ

Verbindung zwischen James-Stein-Schätzer und Zufallseffektmodellen

Lassen Sie uns zuerst die Modelle für gemischte / zufällige Effekte in der Genetik diskutieren. Das Modell ist Wenn es keine festen Wirkungen und ist Z = I , wird das Modell y = θ + e , θ ~ N ( 0 , σ

y=Xβ+Zθ+e,θN(0,σθ2I),eN(0,σ2I).
Z=I was der Einstellung des James-Stein-Schätzers mit einer Bayes'schen Idee entspricht.
y=θ+e,θN(0,σθ2I),eN(0,σ2I),

Zusammenhang zwischen Zufallseffektmodellen und Gratregression

Wenn wir Modelle auf den zufälligen Effekten konzentrieren oben, Die Schätzung entspricht , das Problem zu lösen min θy - Z θ 2 + λ θ 2 bei λ = σ 2 / σ

y=Zθ+e,θN(0,σθ2I),eN(0,σ2I).
minθyZθ2+λθ2
. Den Beweis finden Sie in Kapitel 3 derMustererkennung und des maschinellen Lernens.λ=σ2/σθ2

Zusammenhang zwischen (mehrstufigen) Zufallseffektmodellen und denen in der Genetik

In dem Zufallseffekt - Modell über die Abmessung von ist m × 1 , und die von Z ist m × p . Wenn wir vektorisieren Z als ( m p ) × 1 , und wiederholen y entsprechend, dann haben wir die hierarchische / gruppierten Struktur, p - Cluster und jeweils mit m - Einheiten. Wenn wir v e c ( Z ) bei wiederholtem y zurückführen, können wir den zufälligen Effekt von Z auf y erhaltenym×1,Zm×pZ(mp)×1,ypmvec(Z)yZy für jeden Cluster, obwohl es eine Art umgekehrte Regression ist.


Anerkennung : Die ersten drei Punkte werden größtenteils aus diesen beiden chinesischen Artikeln 1 , 2 gelernt .

Randel
quelle
(+1) Vielen Dank! Dies ist sehr hilfreich, und ich werde auf jeden Fall in Bischofs Lehrbuch nachschauen, das ich gut kenne und oft konsultiere. Ich hatte nicht damit gerechnet, bei gemischten Modellen etwas zu finden, aber es sieht so aus, als würde Abschnitt 3.3 "Bayes'sche lineare Regression" tatsächlich etwas anderes sagen, nur eine andere Terminologie. Sehr gut zu wissen! Aber wie sehen Sie meine Kugelfragen?
Amöbe sagt Reinstate Monica
Xpm
y0
2
pIp(1+λ)1Ipyy2
3
λλ
6

1234

All dies fällt unter die Ägide der Entscheidungstheorie. Eine erschöpfende, aber eher unfreundliche Referenz ist die "Theorie der Punktschätzung" von Lehmann und Casella. Vielleicht können andere mit freundlicheren Referenzen mitreden?


1δ1(X)θΩXδ2(X)θΩδ1δ2δ2δ1θδ2 überall im Parameterraum.

2θπδ(X)=E(θ|X)Ω

πθ0={1if θ=θ00θθ0
θ0δ(X)=θ0θ0θ0

3

41/λ2βσ2Der Fehlerterm ist die konstante Funktion (Lebesgue-Maß), die keine richtige (integrierbare) Wahrscheinlichkeitsverteilung ist. Dennoch kann gezeigt werden, dass viele solcher "teilweise" Bayes-Schätzer zulässig sind, indem gezeigt wird, dass sie die "Grenze" einer Folge von Schätzern sind, die richtige Bayes sind. Aber Beweise werden hier ziemlich verworren und heikel. Siehe "Generalized Bayes Estimators".

Andrew M
quelle
1
βN(β0,1/λ2)
2
Aus dem Grund, warum der James-Stein-Schätzer unzulässig ist, finden Sie die Antwort hier . Eine ausführliche und interessante Diskussion findet sich auch in Lehmann & Casella (1998), Theory of Point Estimation .
Randel
@Randel: Ja, ich weiß, dass es unzulässig ist und habe diese Argumentation gesehen. Ich frage mich nur, wie es zu Andrews Aussage passt (vorausgesetzt, ich habe es richtig verstanden), dass alle Bayes-Schätzer zulässig sind, da James-Stein über Empirical verstanden werden kann Bayes ...
Amöbe sagt Reinstate Monica
2
@Amoeba: Ja, jeder Bayes-Schätzer, der nach dem richtigen Stand der Dinge der hintere ist, führt zu einem zulässigen Schätzer. Nach empirischer Einschätzung von Bayes handelt es sich bei solchen Verfahren nicht um echte Bayes, da eine vorherige Abhängigkeit von den Daten zu Pathologien führen kann. Manchmal kann sich herausstellen, dass sie zulässig sind, manchmal ist dies nicht der Fall - normalerweise müssen Sie von Fall zu Fall arbeiten. Ich habe meine Antwort dahingehend angepasst, dass sie etwas käfiger ist, weil ich nicht weiß, ob klassische lineare gemischte Modelle zulässig sind!
Andrew M
3
Ich muss nur darauf hinweisen, dass echte richtige Bayes-Schätzer selten als James-Stein-Schätzer funktionieren, weil sie keine Minimax sind. Bill Strawderman hat zum Beispiel (1975) gezeigt, dass es für das übliche normale mittlere Problem, das alles festlegte, keinen richtigen Minimax-Bayes-Schätzer in Dimensionen von weniger als 5 gibt.
Xi'an
2
  • James-Stein geht davon aus, dass die Dimension der Antwort mindestens 3 beträgt. In der Standard-Ridge-Regression ist die Antwort eindimensional. Sie verwechseln die Anzahl der Prädiktoren mit der Antwortdimension.

  • Davon abgesehen sehe ich die Ähnlichkeit zwischen diesen Situationen, aber was genau zu tun ist, z. B. ob ein Faktor fest oder zufällig ist, wie viel Schrumpfung angewendet werden soll, hängt, wenn überhaupt, vom jeweiligen Datensatz ab. Je orthogonaler die Prädiktoren sind, desto weniger ist es sinnvoll, die Ridge-Regression der Standard-Regression vorzuziehen. Je größer die Anzahl der Parameter ist, desto sinnvoller ist es, den vorherigen Wert über Empirical Bayes aus dem Datensatz selbst zu extrahieren und dann zum Verkleinern der Parameterschätzungen zu verwenden. Je höher das Signal-Rausch-Verhältnis ist, desto geringer sind die Vorteile des Schrumpfens usw.

James
quelle
β
1
Ok, dann sollte JS theoretisch besser funktionieren, vorausgesetzt, es wurde auf den Fall ausgedehnt, dass MSE geschätzt wird und die Varianz-Kovarianz-Matrix von Beta willkürlich ist. In diesem Fall nimmt JS nicht nur die Punktschätzung von Beta und multipliziert sie mit einem Skalierungsfaktor. Ähnlich wie bei der Ridge-Regression werden verschiedene Beta-Komponenten unterschiedlich verkleinert.
James
β
2
Rnpn
2

Wie andere gesagt haben, besteht die Verbindung zwischen den drei darin, wie Sie die vorherigen Informationen in die Messung einbeziehen.

  1. Im Fall des Stein-Paradoxons wissen Sie, dass die wahre Korrelation zwischen den Eingabevariablen Null sein sollte (und alle möglichen Korrelationsmaße, da Sie Unabhängigkeit und nicht nur Unkorreliertheit implizieren möchten), daher können Sie eine Variable besser konstruieren als die einfache Stichprobenmittelwert und Unterdrückung der verschiedenen Korrelationsmaße. Im Bayes'schen Framework können Sie einen Prior erstellen, bei dem die Ereignisse, die zu einer Korrelation zwischen den Stichprobenmitteln führen, buchstäblich abgewogen werden und bei dem die anderen Ereignisse abgewogen werden.
  2. Im Falle einer Gratregression möchten Sie eine gute Schätzung für den bedingten Erwartungswert E (y | x) finden. Im Prinzip ist dies ein unendlich dimensionales Problem und schlecht definiert, da wir nur eine endliche Anzahl von Messungen haben. Es ist jedoch bekannt, dass wir nach einer Continuos-Funktion suchen, die die Daten modelliert. Dies ist immer noch unklar, da es immer noch unendlich viele Möglichkeiten gibt, kontinuierliche Funktionen zu modellieren, aber die Menge ist etwas kleiner. Die Ridge-Regression ist nur eine einfache Möglichkeit, die möglichen Continuos-Funktionen zu sortieren, zu testen und bei einem endgültigen Freiheitsgrad anzuhalten. Eine Interpretation ist das Bild in der VC-Dimension: Während der Kammregression überprüfen Sie, ob ein Modell mit einem bestimmten Freiheitsgrad die den Daten inhärente Unsicherheit beschreibt. Praktisch misst es, wie gut die f (x, p1, p2 ... ) und das empirische P (p1, p2 ...) kann die vollständige P (y | x) -Verteilung und nicht nur E (y | x) rekonstruieren. Auf diese Weise werden die Modelle mit zu vielen Freiheitsgraden (die normalerweise zu stark angepasst werden) abgewogen, da mehr Parameter nach einem bestimmten Freiheitsgrad bedeuten, dass die Korrelationen zwischen den Parametern größer sind und folglich viel breiter P (f (x, p1, p2). ..)) Distributionen. Eine andere Interpretation ist, dass die ursprüngliche Verlustfunktion ebenfalls ein Messwert ist und dass die Bewertung einer bestimmten Stichprobe mit einer Unsicherheit verbunden ist, sodass die eigentliche Aufgabe darin besteht, die Verlustfunktion nicht zu minimieren, sondern ein Minimum zu finden, das erheblich niedriger ist als das andere (praktisch von einem Freiheitsgrad in einen anderen zu wechseln, ist eine Bayes'sche Entscheidung, daher ändert man die Anzahl der Parameter nur, wenn sie die Verlustfunktion signifikant verringern). Die Gratregression kann als Annäherung an diese beiden Bilder interpretiert werden (CV-Dimension, erwarteter Verlust). In einigen Fällen möchten Sie höhere Freiheitsgrade bevorzugen. In der Teilchenphysik untersuchen Sie beispielsweise die Teilchenkollision, bei der Sie erwarten, dass die erzeugte Anzahl von Teilchen eine Poisson-Verteilung ist, und rekonstruieren die Teilchenspur aus einem Bild (z. B. einem Foto) ) in einer Weise, die eine gegebene Anzahl von Spuren bevorzugt und Modelle unterdrückt, die eine kleinere oder höhere Spurnummerninterpretation des Bildes haben.
  3. Der dritte Fall versucht auch, eine vorherige Information in die Messung zu implementieren, nämlich dass aus früheren Messungen bekannt ist, dass die Größe der Schüler sehr gut durch Gauß-Verteilungen und nicht beispielsweise durch einen Cauchy modelliert werden kann.

Kurz gesagt, die Antwort ist, dass Sie die Unsicherheit einer Messung verringern können, wenn Sie wissen, was Sie zu erwarten haben, und die Daten mit einigen vorherigen Daten (den vorherigen Informationen) kategorisieren. Diese vorherigen Daten schränken Ihre Modellierungsfunktion ein, die Sie zum Anpassen der Messungen verwenden. In einfachen Fällen können Sie Ihr Modell im Bayes'schen Rahmen aufschreiben, aber manchmal ist es unpraktisch, alle möglichen Continuos-Funktionen zu integrieren, um die zu finden, die den Bayes'schen Maximal-A-Posterior-Wert hat.

Peter Kövesárki
quelle
2

James Stein Schätzer und Ridge Regression

Erwägen

y=Xβ+ϵ

ϵN(0,σ2I)

Die Lösung mit dem kleinsten Quadrat hat die Form

β^=S1XyS=XX

β^βσ2S1

β^N(β,σ2S1)β^

James Stein

S=Iβ

βN(0,aI)

aa+σ2β^=(1σ2a+σ2)β^1a+σ2p2β^2

β^=(1p2β^2)β^

Ridge Regression

XXβ=(β1,β2,,βp)Sii=1i=1,2,,p

βλ0

β^(λ)=(S+λI)1Xy=(S+λI)1Sβ^β^

Wie war β^(λ)

β^N(β^,σ2S1)

βN(0,σ2λI)

Dann bekommen wir

E(β|β^)=(S+λI)1Sβ^

β^(λ)S=Ia=σ2λ

Chamberlain Foncha
quelle