Wenn die Schrumpfung auf clevere Weise angewendet wird, funktioniert sie für effizientere Schätzer immer besser?

11

Angenommen , ich habe zwei Schätzern ß 1 und β 2 , die konsistente Schätzer des gleichen Parameters β 0 und so , dass β^1β^2β0

n(β^1β0)dN(0,V1),n(β^2β0)dN(0,V2)
mitV1V2in dem psd Sinne. Somit asymptotisch β 1ist effizienter als β 2. Diese beiden Schätzer basieren auf unterschiedlichen Verlustfunktionen.β^1β^2

Jetzt möchte ich nach einigen Schrumpftechniken suchen, um die Eigenschaften meiner Schätzer für endliche Stichproben zu verbessern.

Nehmen wir an, dass ich eine Schrumpfung Technik gefunden, die die Schätzer verbessert β 2 in einer endlichen Probe und gibt mir den Wert von MSE gleich zu & gamma; 2 . Bedeutet dies , dass ich eine geeignete Schrumpftechnik findet anwenden ß 1 , die mir der MSE gibt nicht größer als γ 2 ? β^2γ^2β^1 γ^2

Mit anderen Worten, wenn die Schrumpfung geschickt angewendet wird, funktioniert sie für effizientere Schätzer immer besser?

Alik
quelle

Antworten:

4

Lassen Sie mich ein zugegebenermaßen etwas langweiliges Gegenbeispiel vorschlagen. Sagen Sie, dass β 1 ist nicht nur asymptotisch effizienter als β 2 , sondern erreicht auch der Cramer Rao Lower Bound. Eine kluge Schrumpfungs Technik für ß 2 wäre: β * 2 = w β 2 + ( 1 - w ) β 1 mit w ( 0 , 1 ) . Die asymptotische Varianz von β * 2β^1β^2β^2

β^2=wβ^2+(1w)β^1
w(0,1)β^2ist wobei die letzte Gleichheit das Lemma in verwendet
V=Avar(wβ^2+(1w)β^1)=Avar(w(β^2β^1)+β^1)=V1+w2(V2V1)
Hausman des Papier . Wir haben so dass sich das asymptotische Risiko verbessert (es gibt keine Verzerrungsterme). Also haben wir eine Schrumpfung Technik gefundendie einige asymptotisch (und damit hoffentlich endlich Probe) Verbesserungen gegenüber gibt β 2 . Es gibt jedoch keinen ähnlichen Schrumpfungsschätzer
V2V=V2(1w2)V1(1w2)0
β^2 , die aus diesem Verfahren folgt.β^1

Der Punkt hier ist natürlich, dass die Schrumpfung in Richtung des effizienten Schätzers erfolgt und daher nicht auf den effizienten Schätzer selbst anwendbar ist. Dies scheint auf hoher Ebene ziemlich offensichtlich zu sein, aber ich würde vermuten, dass dies in einem bestimmten Beispiel nicht so offensichtlich ist ( MLE und Method of Moments Estimator für die gleichmäßige Verteilung können ein Beispiel sein?).

Matthias Schmidtblaicher
quelle
Vielen Dank für das interessante Beispiel! (+1) Allerdings ist es mir nicht klar , dass dies ein Gegenbeispiel in Betracht gezogen werden: es sowohl asymptotisch ist und nicht zeigen , dass β 1 kann nicht das gleiche oder ein geringeres Risiko hat , verbessert werden. (In der Tat, Ihr β * 2 automatisch hat, im besten Fall , das gleiche Risiko wie ββ^1β^2 .) Um ein Gegenbeispiel zur Verfügung zu stellen,das Risikos eines modifizierten Schätzer β * 2 wird weniger sein als das Risiko , β 1 , und es ist nicht klardass dies mit dieser Regelung möglich ist. β^1β^2β^1
user795305
Vielen Dank und Punkt (e) genommen. Lassen Sie mich darauf hinweisen, jedoch , dass nirgendwo in der Frage war es , dass der MSE der modifizierten angegebenen β 2 benötigen würde , dass niedriger sein als β 1 . So & bgr;2 ist eine gültige Schrumpftechnik in diesem Zusammenhang. Aber ich stimme zu, dass dies nur eine teilweise Antwort ist und ich freue mich darauf zu sehen, was andere Leute zu dieser Frage zu sagen haben. β^2β^1β^2
Matthias Schmidtblaicher
In dem Absatz, der mit "Angenommen, ich habe gefunden ..." beginnt, scheint das OP dies anzugeben. Bin ich falsch verstanden? Im folgenden lassen Sternen die modifizierten Schätzer , so dass bezeichnen β * j = f j ( β j ) für einige (vielleicht Schrumpfung) Funktionen f j . Angenommen , wir finden β * 2 , so dass r i s k ( β 2 ) r i s k ( β * 2 )β^j=fj(β^j)fjβ^2risk(β^2)risk(β^2). In dem referenzierten Absatz, fragt OP , wenn wir einige finden , so dass r i s k ( β * 1 ) r i s k ( β * 2 ) . f1risk(β^1)risk(β^2)
user795305
Aha. Wenn dies die Frage ist, ist einfach die Identität und die Antwort ist im Beispiel positiv. Ich las die Frage : „Wenn wir eine Funktion finden f ( β , x ) , so dass r i s k ( f ( β 2 , x ) ) < r i s k ( β 2 ) , Gibt es eine g ( β , x ), so dass r i s kf1f(β,x)risk(f(β^2,x))<risk(β^2)g(β,x) ?“risk(g(β^1,x))<risk(β^1)
Matthias Schmidtblaicher
1
Vielen Dank für das Teilen dieser Credits, obwohl ich Ihre Frage nicht wirklich beantwortet habe ...
Matthias Schmidtblaicher
-2

Dies ist eine interessante Frage, bei der ich zunächst auf einige Höhepunkte hinweisen möchte.

  • Zwei Schätzer sind konsistent
  • ist effizienter alsβ^1da es weniger Variation erreichtβ^2
  • Verlustfunktionen sind nicht gleich
  • Eine Schrumpfungsmethode wird auf eine angewendet, um die Variation zu reduzieren, die für sich genommen zu einem besseren Schätzer führt
  • Frage : Mit anderen Worten, wenn die Schrumpfung geschickt angewendet wird, funktioniert sie für effizientere Schätzer immer besser?

Grundsätzlich ist es möglich, einen Schätzer in einem bestimmten Rahmen zu verbessern, beispielsweise in einer unvoreingenommenen Klasse von Schätzern. Wie Sie jedoch betont haben, erschweren unterschiedliche Verlustfunktionen die Situation, da eine Verlustfunktion den quadratischen Verlust minimieren kann und die andere die Entropie minimiert. Darüber hinaus ist die Verwendung des Wortes "immer" sehr schwierig, da Sie logischerweise keinen besseren Schätzer beanspruchen können, wenn ein Schätzer der beste in der Klasse ist.

Für ein einfaches Beispiel (in dem gleichen Rahmen), ließ zwei Schätzer, nämlich eine Brücke (bestraft Regression mit norm Malus) und Lasso (erste Norm bestraft Wahrscheinlichkeit) und einen spärlichen Satz von Parametern nämlich β , ein lineares Modell y = x β +lpβ , Normalität des Fehlerterms, e N ( 0 , σ 2 < ) , bekanntes σ , quadratische Verlustfunktion (kleinste quadratische Fehler) und Unabhängigkeit der Kovariaten in x . Wählen Sie l p für p = 3y=xβ+eeN(0,σ2<)σxlpp=3für den ersten Schätzer und 1 , um einen besseren Schätzer mit geringerer Varianz zu erhalten. In diesem Beispiel besteht dann die Möglichkeit, den Schätzer zu verbessern. für die zweiten Schätzer. Dann können Sie die Schätzer verbessern, indem Sie p wählenp=2p1

Meine Antwort auf Ihre Frage lautet also Ja, vorausgesetzt, Sie nehmen dieselbe Schätzerfamilie und dieselbe Verlustfunktion sowie dieselben Annahmen an.

TPArrow
quelle
Mir ist nicht klar, was du mit meinst . Gegeben seien zwei Schätzern (sagen wir, aus mit p = 3 und p = 2 in p Regularisierung der kleinsten Quadrate, wie Sie in Ihrer Antwort diskutieren), fragt die Frage nach Möglichkeiten , um nachbearbeiten diese Schätzer (über, sagen wir, Schrumpfung). Insbesondere wird gefragt, ob es Methoden gibt, die eine ähnliche Verbesserung (in Bezug auf MSE) bei konsistenten und asymptotisch normalen Schätzern bewirken können. Mir ist nicht klar, was Ihre Antwort in diesem Zusammenhang vermitteln soll. p1p=3p=2p
user795305
@ Ben Danke. die Frage ist , Schrumpfung und ich versuchte , ein einfaches Beispiel zu nehmen , wo Schrumpfung durch imposante gilt Norm Strafe auf dem Schätzer. Ich sehe es ziemlich verwandt. PS: LASSO ( l 1 Norm bestrafte Wahrscheinlichkeit) steht für Least Absolute Shrinkage and Selection Operatorlpl1
TPArrow
Es ist mir immer noch nicht wirklich klar. Schlagen Sie vor, dass wir die ersten Schätzungen nehmen ß 1 und ß 2 und bewerten dann die l p proximalen Betreiber von ihnen, so dass die neuen Schätzungen sind α p j = arg min αα - β j 2 2 + λ α p für j { 1 , 2 }β^1β^2pα^jp=argminααβ^j22+λαpj{1,2}p=2,3
danke @Ben, ich glaube, wir haben keinen Konsens in der Definition von Schrumpfung. Sie nehmen es wie eine Nachbearbeitung, aber ich als Inline-Verarbeitung. Ich denke, wir haben beide Recht, da die Frage die Art der Schrumpfung nicht berücksichtigt. PS: Ich denke, was Sie unter Schrumpfen verstehen, ist wie eine harte Schwelle.
TPArrow
β^1β^2 β^1β^2