Wenn die Schrumpfung auf clevere Weise angewendet wird, funktioniert sie für effizientere Schätzer immer besser?

Angenommen , ich habe zwei Schätzern und , die konsistente Schätzer des gleichen Parameters und so , dass $\widehat{\beta}_1$ $\widehat{\beta}_2$ $\beta_0$

\sqrt{n} ({\hat{β}}_{1} - β_{0}) \overset{d}{\to} N (0, V_{1}), \sqrt{n} ({\hat{β}}_{2} - β_{0}) \overset{d}{\to} N (0, V_{2})

$\sqrt{n}(\widehat{\beta}_1 -\beta_0) \stackrel{d}\rightarrow \mathcal{N}(0, V_1), \quad \sqrt{n}(\widehat{\beta}_2 -\beta_0) \stackrel{d}\rightarrow \mathcal{N}(0, V_2)$ mit

V_{1} \leq V_{2}

$V_1 \leq V_2$ in dem psd Sinne. Somit asymptotisch

ist effizienter als

. Diese beiden Schätzer basieren auf unterschiedlichen Verlustfunktionen.

{\hat{β}}_{1}

$\widehat{\beta}_1$

{\hat{β}}_{2}

$\widehat{\beta}_2$

Jetzt möchte ich nach einigen Schrumpftechniken suchen, um die Eigenschaften meiner Schätzer für endliche Stichproben zu verbessern.

Nehmen wir an, dass ich eine Schrumpfung Technik gefunden, die die Schätzer verbessert in einer endlichen Probe und gibt mir den Wert von MSE gleich zu . Bedeutet dies , dass ich eine geeignete Schrumpftechnik findet anwenden , die mir der MSE gibt nicht größer als ? $\widehat{\beta}_2$ $\widehat{\gamma}_2$ $\widehat{\beta}_1$ $\widehat{\gamma}_2$

Mit anderen Worten, wenn die Schrumpfung geschickt angewendet wird, funktioniert sie für effizientere Schätzer immer besser?

regression ridge-regression shrinkage penalized Alik
quelle

Antworten:

Lassen Sie mich ein zugegebenermaßen etwas langweiliges Gegenbeispiel vorschlagen. Sagen Sie, dass ist nicht nur asymptotisch effizienter als , sondern erreicht auch der Cramer Rao Lower Bound. Eine kluge Schrumpfungs Technik für mit . Die asymptotische Varianz von $\hat{\beta}_1$ $\hat{\beta}_2$ $\hat{\beta}_2$

{\hat{β}}_{2}^{*} = w {\hat{β}}_{2} + (1 - w) {\hat{β}}_{1}

$\hat{\beta}_2^\ast = w \hat{\beta}_2 + (1 - w) \hat{\beta}_1$

w \in (0, 1)

$w\in(0,1)$

{\hat{β}}_{2}^{*}

$\hat{\beta}_2^\ast$ ist

wobei die letzte Gleichheit das Lemma in verwendet

V^{*} = A v a r (w {\hat{β}}_{2} + (1 - w) {\hat{β}}_{1}) = A v a r (w ({\hat{β}}_{2} - {\hat{β}}_{1}) + {\hat{β}}_{1}) = V_{1} + w^{2} (V_{2} - V_{1})

$V^\ast = \mathbb{Avar}(w \hat{\beta}_2 + (1 - w) \hat{\beta}_1) = \mathbb{Avar}(w (\hat{\beta}_2 - \hat{\beta}_1) + \hat{\beta}_1 ) = V_1 + w^2 (V_2 - V_1)$ Hausman des Papier . Wir haben

so dass sich das asymptotische Risiko verbessert (es gibt keine Verzerrungsterme). Also haben wir eine Schrumpfung Technik gefundendie einige asymptotisch (und damit hoffentlich endlich Probe) Verbesserungen gegenüber gibt

. Es gibt jedoch keinen ähnlichen Schrumpfungsschätzer

V_{2} - V^{*} = V_{2} (1 - w^{2}) - V_{1} (1 - w^{2}) \geq 0

$V_2 - V^\ast = V_2(1-w^2) - V_1(1-w^2) \geq 0$

{\hat{β}}_{2}

$\hat{\beta}_2$

, die aus diesem Verfahren folgt.

{\hat{β}}_{1}^{*}

$\hat{\beta}_1^\ast$

Der Punkt hier ist natürlich, dass die Schrumpfung in Richtung des effizienten Schätzers erfolgt und daher nicht auf den effizienten Schätzer selbst anwendbar ist. Dies scheint auf hoher Ebene ziemlich offensichtlich zu sein, aber ich würde vermuten, dass dies in einem bestimmten Beispiel nicht so offensichtlich ist ( MLE und Method of Moments Estimator für die gleichmäßige Verteilung können ein Beispiel sein?).

Matthias Schmidtblaicher
quelle

Vielen Dank für das interessante Beispiel! (+1) Allerdings ist es mir nicht klar , dass dies ein Gegenbeispiel in Betracht gezogen werden: es sowohl asymptotisch ist und nicht zeigen , dass

kann nicht das gleiche oder ein geringeres Risiko hat , verbessert werden. (In der Tat, Ihr

automatisch hat, im besten Fall , das gleiche Risiko wie

{\hat{β}}_{1}

$\hat\beta_1$

{\hat{β}}_{2}^{*}

$\hat\beta_2^*$

.) Um ein Gegenbeispiel zur Verfügung zu stellen,das Risikos eines modifizierten Schätzer

wird weniger sein als das Risiko

, und es ist nicht klardass dies mit dieser Regelung möglich ist.

{\hat{β}}_{1}

$\hat\beta_1$

{\hat{β}}_{2}^{*}

$\hat\beta_2^*$

{\hat{β}}_{1}

$\hat\beta_1$

user795305

Vielen Dank und Punkt (e) genommen. Lassen Sie mich darauf hinweisen, jedoch , dass nirgendwo in der Frage war es , dass der MSE der modifizierten angegebenen

benötigen würde , dass niedriger sein als

. So

ist eine gültige Schrumpftechnik in diesem Zusammenhang. Aber ich stimme zu, dass dies nur eine teilweise Antwort ist und ich freue mich darauf zu sehen, was andere Leute zu dieser Frage zu sagen haben.

{\hat{β}}_{2}

$\hat{\beta}_2$

{\hat{β}}_{1}

$\hat{\beta}_1$

{\hat{β}}_{2}^{⋆}

$\hat{\beta}^\star_2$

Matthias Schmidtblaicher

In dem Absatz, der mit "Angenommen, ich habe gefunden ..." beginnt, scheint das OP dies anzugeben. Bin ich falsch verstanden? Im folgenden lassen Sternen die modifizierten Schätzer , so dass bezeichnen

für einige (vielleicht Schrumpfung) Funktionen

. Angenommen , wir finden

, so dass

{\hat{β}}_{j}^{*} = f_{j} ({\hat{β}}_{j})

$\hat\beta_j^* = f_j(\hat\beta_j)$

f_{j}

$f_j$

{\hat{β}}_{2}^{*}

$\hat\beta_2^*$

r i s k ({\hat{β}}_{2}) \geq r i s k ({\hat{β}}_{2}^{*})

$risk(\hat\beta_2) \ge risk(\hat\beta_2^*)$ . In dem referenzierten Absatz, fragt OP , wenn wir einige finden

, so dass

f_{1}

$f_1$

r i s k ({\hat{β}}_{1}^{*}) \leq r i s k ({\hat{β}}_{2}^{*})

$risk(\hat\beta_1^*) \le risk(\hat\beta_2^*)$

user795305

Aha. Wenn dies die Frage ist, ist

einfach die Identität und die Antwort ist im Beispiel positiv. Ich las die Frage : „Wenn wir eine Funktion finden

, so dass

, Gibt es eine

so dass

f_{1}

$f_1$

f (β, x)

$f(\beta, x)$

r i s k (f ({\hat{β}}_{2}, x)) < r i s k ({\hat{β}}_{2})

$risk(f(\hat{\beta}_2,x)) < risk(\hat{\beta}_2)$

g (β, x)

$g(\beta, x)$

?“

r i s k (g ({\hat{β}}_{1}, x)) < r i s k ({\hat{β}}_{1})

$risk(g(\hat{\beta}_1,x)) < risk(\hat{\beta}_1)$

Matthias Schmidtblaicher

Vielen Dank für das Teilen dieser Credits, obwohl ich Ihre Frage nicht wirklich beantwortet habe ...

Matthias Schmidtblaicher

-2

Dies ist eine interessante Frage, bei der ich zunächst auf einige Höhepunkte hinweisen möchte.

Zwei Schätzer sind konsistent
ist effizienter als $\hat{\beta}_1$ da es weniger Variation erreicht $\hat\beta_2$
Verlustfunktionen sind nicht gleich
Eine Schrumpfungsmethode wird auf eine angewendet, um die Variation zu reduzieren, die für sich genommen zu einem besseren Schätzer führt
Frage : Mit anderen Worten, wenn die Schrumpfung geschickt angewendet wird, funktioniert sie für effizientere Schätzer immer besser?

Grundsätzlich ist es möglich, einen Schätzer in einem bestimmten Rahmen zu verbessern, beispielsweise in einer unvoreingenommenen Klasse von Schätzern. Wie Sie jedoch betont haben, erschweren unterschiedliche Verlustfunktionen die Situation, da eine Verlustfunktion den quadratischen Verlust minimieren kann und die andere die Entropie minimiert. Darüber hinaus ist die Verwendung des Wortes "immer" sehr schwierig, da Sie logischerweise keinen besseren Schätzer beanspruchen können, wenn ein Schätzer der beste in der Klasse ist.

Für ein einfaches Beispiel (in dem gleichen Rahmen), ließ zwei Schätzer, nämlich eine Brücke (bestraft Regression mit norm Malus) und Lasso (erste Norm bestraft Wahrscheinlichkeit) und einen spärlichen Satz von Parametern nämlich , ein lineares Modell $l_p$ $\beta$ , Normalität des Fehlerterms, , bekanntes , quadratische Verlustfunktion (kleinste quadratische Fehler) und Unabhängigkeit der Kovariaten in . Wählen Sie für $y=x\beta+e$ $e\sim N(0,\sigma^2<\infty)$ $\sigma$ $x$ $l_p$ $p=3$ für den ersten Schätzer und , um einen besseren Schätzer mit geringerer Varianz zu erhalten. In diesem Beispiel besteht dann die Möglichkeit, den Schätzer zu verbessern. für die zweiten Schätzer. Dann können Sie die Schätzer verbessern, indem Sie wählen $p=2$ $p\rightarrow 1$

Meine Antwort auf Ihre Frage lautet also Ja, vorausgesetzt, Sie nehmen dieselbe Schätzerfamilie und dieselbe Verlustfunktion sowie dieselben Annahmen an.

TPArrow
quelle

Mir ist nicht klar, was du mit

meinst . Gegeben seien zwei Schätzern (sagen wir, aus mit

und

Regularisierung der kleinsten Quadrate, wie Sie in Ihrer Antwort diskutieren), fragt die Frage nach Möglichkeiten , um nachbearbeiten diese Schätzer (über, sagen wir, Schrumpfung). Insbesondere wird gefragt, ob es Methoden gibt, die eine ähnliche Verbesserung (in Bezug auf MSE) bei konsistenten und asymptotisch normalen Schätzern bewirken können. Mir ist nicht klar, was Ihre Antwort in diesem Zusammenhang vermitteln soll.

p \to 1

$p \to 1$

p = 3

$p=3$

p = 2

$p=2$

ℓ_{p}

$\ell_p$

user795305

@ Ben Danke. die Frage ist , Schrumpfung und ich versuchte , ein einfaches Beispiel zu nehmen , wo Schrumpfung durch imposante gilt

Norm Strafe auf dem Schätzer. Ich sehe es ziemlich verwandt. PS: LASSO (

Norm bestrafte Wahrscheinlichkeit) steht für Least Absolute Shrinkage and Selection Operator

l_{p}

$l_p$

l_{1}

$l_1$

TPArrow

Es ist mir immer noch nicht wirklich klar. Schlagen Sie vor, dass wir die ersten Schätzungen nehmen

und

und bewerten dann die

proximalen Betreiber von ihnen, so dass die neuen Schätzungen sind

für

{\hat{β}}_{1}

$\hat\beta_1$

{\hat{β}}_{2}

$\hat\beta_2$

ℓ_{p}

$\ell_p$

{\hat{α}}_{j}^{p} = \arg min_{α} ‖ α - {\hat{β}}_{j} ‖_{2}^{2} + λ ‖ α ‖_{p}

$\hat\alpha^p_j = \arg\min_\alpha \|\alpha-\hat\beta_j\|_2^2 + \lambda \|\alpha\|_p$

j \in {1, 2}

$j \in \{1,2\}$

p = 2, 3

$p=2,3$

danke @Ben, ich glaube, wir haben keinen Konsens in der Definition von Schrumpfung. Sie nehmen es wie eine Nachbearbeitung, aber ich als Inline-Verarbeitung. Ich denke, wir haben beide Recht, da die Frage die Art der Schrumpfung nicht berücksichtigt. PS: Ich denke, was Sie unter Schrumpfen verstehen, ist wie eine harte Schwelle.

TPArrow

{\hat{β}}_{1}

$\hat\beta_1$

{\hat{β}}_{2}

$\hat\beta_2$

{\hat{β}}_{1}

$\hat\beta_1$

{\hat{β}}_{2}

$\hat\beta_2$