Bei welchen Modellen fällt die Vorspannung von MLE schneller als die Varianz?

14

θ^θn Sie ‖ θ - θ *θ^θO ( 1 / n )O(1/n)E θ -θ*Eθ^θE θ - θEθ^θ^O(1/n )O(1/n)

Ich interessiere mich für Modelle mit einer Abweichung , die schneller als schrumpft, bei der der Fehler jedoch nicht schneller schrumpft, da die Abweichung immer noch als schrumpft . Insbesondere würde ich gerne ausreichende Bedingungen kennen, unter denen die Abweichung eines Modells mit der Rate schrumpft .O ( 1 / n )O(1/n)O(1/n )O(1/n)O(1/n)O(1/n)

Mike Izbicki
quelle
Ist ? Oder? ˆθθ=(ˆθθ)2θ^θ=(θ^θ)2
Alecos Papadopoulos
Ich habe speziell nach der L2-Norm gefragt, ja. Aber ich würde mich auch für andere Normen interessieren, wenn dies die Beantwortung der Frage erleichtert.
Mike Izbicki
(ˆθθ)2(θ^θ)2 ist . Op(1/n)Op(1/n)
Alecos Papadopoulos
Entschuldigung, ich habe Ihren Kommentar falsch verstanden. Für die L2-Norm in Dimensionen ist , und daher ist die Konvergenz bei der Rate vonddab=d i = 1 ( a i - b i ) 2ab=di=1(aibi)2 O ( 1 / n )O(1/n). Ich bin damit einverstanden, dass wenn wir es quadrieren, es alsO(1/n)konvergieren würdeO(1/n).
Mike Izbicki
Haben Sie die Zeitschrift Ridge Regression (Hoerl & Kennard 1970) gesehen? Ich glaube, es gibt Bedingungen für die Entwurfsmatrix + Strafe, wo dies erwartet wird.
dcl

Antworten:

5

Im Allgemeinen benötigen Sie Modelle, bei denen die MLE nicht asymptotisch normal ist, sondern zu einer anderen Verteilung konvergiert (und dies schneller). Dies geschieht normalerweise, wenn sich der zu schätzende Parameter an der Grenze des Parameterraums befindet. Intuitiv bedeutet dies, dass sich der MLE dem Parameter "nur von einer Seite" nähert, wodurch sich die Konvergenzgeschwindigkeit "verbessert", da er nicht durch "Hin- und Herbewegen" des Parameters "abgelenkt" wird.

Ein Standardbeispiel ist die MLE für θ in einer iid-Stichprobe von U ( 0 , θ ) gleichförmigen rvs. Die MLE ist hier die Statistik maximaler Ordnung.θU(0,θ)

Θ n=u(n)

θ^n=u(n)

Seine endliche Probenverteilung ist

F θ n = ( θ n ) nθ n ,f θ = n ( θ n ) , n - 1θ n

Fθ^n=(θ^n)nθn,fθ^=n(θ^n)n1θn

E ( θ n ) = nn + 1 θB ( θ ) = - 1n + 1 θ

E(θ^n)=nn+1θB(θ^)=1n+1θ

So B ( θ n ) = O ( 1 / n ) . Die gleiche erhöhte Rate gilt jedoch auch für die Varianz.B(θ^n)=O(1/n)

Man kann auch überprüfen , dass eine Grenzverteilung zu erhalten, müssen wir die Variable aussehen n ( θ - θ n ) , ( das heißt , wir müssen Skala von n ) dan(θθ^n)n

P [ n ( θ - θ n ) z ] = 1 - P [ θ nθ - ( Z / n ) ]

P[n(θθ^n)z]=1P[θ^nθ(z/n)]

= 1 - 1θ n(θ+-zn )n=1-θnθ n(1+-z / θn )n

=11θn(θ+zn)n=1θnθn(1+z/θn)n

1 - e - z / θ

1ez/θ

Das ist die CDF der Exponentialverteilung.

Ich hoffe, das gibt eine Richtung vor.

Alecos Papadopoulos
quelle
Dies rückt näher, aber ich interessiere mich speziell für Situationen, in denen die Abweichung schneller abnimmt als die Varianz.
Mike Izbicki
2
@MikeIzbicki Hmm ... die Bias-Konvergenz hängt vom ersten Moment der Verteilung ab, und die (Quadratwurzel der) Varianz ist ebenfalls eine Größe "erster Ordnung". Ich bin mir dann nicht sicher, ob dies möglich ist, da es den Anschein hat, dass die Momente der Grenzverteilung mit Konvergenzraten "auftauchen", die nicht miteinander kompatibel sind ... Ich werde es mir aber überlegen.
Alecos Papadopoulos
2

Nach den Kommentaren in meiner anderen Antwort (und dem Titel der OP-Frage!) Folgt hier eine nicht sehr strenge theoretische Untersuchung des Problems.

Wir wollen , um zu bestimmen , ob Bias B ( θ n ) = E ( θ n ) - θ unterschiedliche Konvergenzrate als die Quadratwurzel der Varianz aufweisen kann,B(θ^n)=E(θ^n)θ

B ( θ n ) = O ( 1 / n δ ) ,Var ( θ n ) =O(1/n γ ),γ δ? ? ?

B(θ^n)=O(1/nδ),Var(θ^n)=O(1/nγ),γδ???

Wir haben

B ( θ n ) = O ( 1 / n δ )lim n δ E ( θ n ) < Klim n 2 δ [ E ( θ n ) ] 2 < K '

B(θ^n)=O(1/nδ)limnδE(θ^n)<Klimn2δ[E(θ^n)]2<K

[ E ( θ n ) ] 2 = O ( 1 / n 2 δ )

[E(θ^n)]2=O(1/n2δ)(1)

während

Var(ˆθn)=O(1/nγ)limnγE(ˆθ2n)[E(ˆθn)]2<M

Var(θ^n)=O(1/nγ)limnγE(θ^2n)[E(θ^n)]2<M

limn2γE(ˆθ2n)n2γ[E(ˆθn)]2<M

limn2γE(θ^2n)n2γ[E(θ^n)]2<M

limn2γE(ˆθ2n)limn2γ[E(ˆθn)]2<M

limn2γE(θ^2n)limn2γ[E(θ^n)]2<M(2)

We see that (2)(2) may hold happen if

A) both components are O(1/n2γ)O(1/n2γ), in which case we can only have γ=δγ=δ.

B) But it may also hold if

limn2γ[E(ˆθn)]20[E(ˆθn)]2=o(1/n2γ)

limn2γ[E(θ^n)]20[E(θ^n)]2=o(1/n2γ)(3)

For (3)(3) to be compatible with (1)(1), we must have

n2γ<n2δδ>γ

n2γ<n2δδ>γ(4)

So it appears that in principle it is possible to have the Bias converging at a faster rate than the square root of the variance. But we cannot have the square root of the variance converging at a faster rate than the Bias.

Alecos Papadopoulos
quelle
How would you reconcile this with the existence of unbiased estimators like ordinary least squares? In that case, B(ˆθ)=0B(θ^)=0, but Var(ˆθ)=O(1/n)Var(θ^)=O(1/n).
Mike Izbicki
@MikeIzbicki Is the concept of convergence/big-O applicable in this case? Because here B(ˆθ)B(θ^) is not "O()O()-anything" to begin with.
Alecos Papadopoulos
In this case, Eˆθ=θEθ^=θ, so B(ˆθ)=Eˆθθ=0=O(1)=O(1/n0)B(θ^)=Eθ^θ=0=O(1)=O(1/n0).
Mike Izbicki
@MikeIzbicki But also B(ˆθ)=O(n)B(θ^)=O(n) or B(ˆθ)=O(1/n)B(θ^)=O(1/n) or any other you care to write down. So which one is the rate of convergence here?
Alecos Papadopoulos
@MikeIzbicki I have corrected my answer to show that it is possible in principle to have the Bias converging faster, although I still think the "zero-bias" example is problematic.
Alecos Papadopoulos