Sind inkonsistente Schätzer jemals vorzuziehen?

22

Konsistenz ist offensichtlich ein natürlicher und wichtiger Eigenschaftsschätzer, aber gibt es Situationen, in denen es besser ist, einen inkonsistenten Schätzer als einen konsistenten zu verwenden?

Gibt es Beispiele für einen inkonsistenten Schätzer, der einen vernünftigen konsistenten Schätzer für alle endlichen (in Bezug auf eine geeignete Verlustfunktion) übertrifft ?n

MånsT
quelle
1
Es gibt einen interessanten Kompromiss zwischen der Konsistenz der Modellauswahl und der Parameterkonsistenz bei Schätzungsproblemen mit dem Lasso und seinen (vielen!) Varianten. Dies ist z. B. in Bühlmanns und van der Geers neuestem Text detailliert beschrieben.
Kardinal
Wäre das Argument in meiner jetzt gelöschten Antwort nicht noch gültig? Nämlich: In kleinen Stichproben ist es besser, einen unvoreingenommenen Schätzer mit geringer Varianz zu haben. Oder kann man zeigen, dass ein konsistenter Schätzer immer eine geringere Varianz aufweist als jeder andere unvoreingenommene Schätzer?
Bob Jansen
Vielleicht @Bootvis! Haben Sie ein Beispiel für einen inkonsistenten Schätzer mit niedrigem MSE?
MånsT
3
@Bootvis: Wenn Sie sich die ausführlichen Kommentare zu einer Antwort auf eine kürzlich gestellte Frage nach Konsistenz und Unparteilichkeit ansehen, werden Sie feststellen, dass ein konsistenter Schätzer willkürlich wildes Verhalten sowohl der Varianz als auch der Voreingenommenheit haben kann (sogar gleichzeitig!). . Das sollte alle Zweifel in Bezug auf Ihren Kommentar beseitigen.
Kardinal
Ich dachte, ich hätte eines von zwei Büchern, aber anscheinend habe ich mich auch geirrt! Das Beispiel ist nirgends zu finden. @ Kardinal: Hört sich interessant an, werde es überprüfen
Bob Jansen

Antworten:

25

Diese Antwort beschreibt ein realistisches Problem, bei dem ein natürlicher konsistenter Schätzer von einem inkonsistenten Schätzer dominiert wird (übertroffen für alle möglichen Parameterwerte für alle Stichprobengrößen). Die Überlegung, dass Konsistenz am besten für quadratische Verluste geeignet ist, ist eine Motivation. Daher sollte die Verwendung eines davon stark abweichenden Verlusts (z. B. eines asymmetrischen Verlusts) die Konsistenz bei der Bewertung der Leistung von Schätzern nahezu unbrauchbar machen.


Angenommen, Ihr Kunde möchte den Mittelwert einer Variablen (bei der von einer symmetrischen Verteilung ausgegangen wird) aus einer iid-Stichprobe abschätzen , kann ihn jedoch weder (a) unterschätzen noch (b) stark überschätzen es.(x1,,xn)

Um zu sehen, wie dies funktionieren könnte, nehmen wir eine einfache Verlustfunktion an und verstehen, dass der Verlust in der Praxis quantitativ (aber nicht qualitativ) von dieser Funktion abweichen kann. Wählen Sie die Maßeinheiten so, dass die größte tolerierbare Überschätzung ist, und legen Sie den Verlust einer Schätzung t fest, wenn der wahre Mittelwert μ gleich 0 ist, wenn μ t μ + 1 und ansonsten gleich 1 ist .1tμ0μtμ+11

Besonders einfach sind die Berechnungen für eine Normalverteilungsfamilie mit Mittelwert und Varianz σ 2 > 0 , für die dann der Stichprobenmittelwert ˉ x = 1 istμσ2>0hat eine Normalverteilung(μ,σ2/n). Der Stichprobenmittelwert istbekanntlich (und offensichtlich)ein konsistenter Schätzer fürμ. SchreibenΦfür die Standardnormal CDF, der erwartete Verlust der Probe Mittelwert gleich1/2+Φ(-x¯=1nixi(μ,σ2/n)μΦ:1/2kommt von der 50% ige Chancedass die Probe Mittelwert wird den wahren Mittelwert und unterschätztΦ(-1/2+Φ(n/σ)1/2ergibt sich aus der Möglichkeit, den wahren Mittelwert um mehr als1 zuüberschätzen.Φ(n/σ)1

Verluste

Der erwartete Verlust von entspricht dem blauen Bereich unter diesem normalen PDF-Standard. Der rote Bereich gibt den erwarteten Verlust des alternativen Schätzers unten an. Sie unterscheiden sich durch Ersetzen des durchgehend blauen Bereichs zwischen - x¯und0durch den kleineren durchgezogenen roten Bereich zwischenn/(2σ)0undn/(2σ). Dieser Unterschied wächst mitzunehmendemn.n/σn

Ein gegebener alternativer Schätzer durch hat einen erwarteten Verlust von 2 Φ ( - x¯+1/2. Die Symmetrie und Unimodalität der Normalverteilungen impliziert, dass der erwartete Verlust immer besser ist als der des Stichprobenmittelwerts. (Dies macht den Stichprobenmittelwertunzulässigfür diesen Verlust.)Tat, der erwartete Verlust des Stichprobenmittelwertes eine untere Grenze von1/2während die die alternativen konvergent zu0alsnwächst. Jedoch ist die alternative eindeutig inkonsistent: alsnwächst, konvergiert es in Wahrscheinlichkeitμ+1/2& ne;μ.2Φ(n/(2σ))1/20nnμ+1/2μ

Verlustfunktionen

Blaue Punkte zeigen Verlust für und rote Punkte zeigen Verlust für ˉ x + 1 / 2 als Funktion der Probengröße n .x¯x¯+1/2n

whuber
quelle
2
L2L2
5
@Macro Das Denken ist etwas indirekt und soll nicht streng sein, aber ich halte es für natürlich: Quadratischer Verlust impliziert die Minimierung der Varianz, die (über Chebyshev) zu einer Konvergenz der Wahrscheinlichkeit führt. Daher sollte sich eine Heuristik zum Auffinden eines Gegenbeispiels auf Verluste konzentrieren, die so weit vom Quadrat entfernt sind, dass solche Manipulationen nicht erfolgreich sind.
Whuber
1
1/20n
3
@Michael OK, danke, dass du das erklärt hast. In diesem Zusammenhang wird bei einem nicht quadratischen Verlust ein "Vorteil" nicht als Verzerrung ausgedrückt. Man könnte diese Verlustfunktion kritisieren, aber ich möchte sie nicht direkt ablehnen: Sie modelliert Situationen, in denen die Daten beispielsweise Messungen eines Artikels sind, der mit bestimmten Toleranzen hergestellt wurde, und die katastrophal wären (wie bei einem Ausfall des Shuttle-O-Rings) oder Geschäftsinsolvenz katastrophal) für den wahren Mittelweg außerhalb dieser Toleranzen fallen.
Whuber
1
(+1) Gute Antwort, @whuber! Mir gefällt besonders, dass es sich nicht allzu pathologisch anfühlt - ich kann mir viele Situationen vorstellen, in denen diese Art von Verlust zutreffen würde.
MånsT