Ich interessiere mich für Modelle mit einer Abweichung , die schneller als schrumpft, bei der der Fehler jedoch nicht schneller schrumpft, da die Abweichung immer noch als schrumpft . Insbesondere würde ich gerne ausreichende Bedingungen kennen, unter denen die Abweichung eines Modells mit der Rate schrumpft .O ( 1 / √n )
variance
estimation
maximum-likelihood
bias
Mike Izbicki
quelle
quelle
Antworten:
Im Allgemeinen benötigen Sie Modelle, bei denen die MLE nicht asymptotisch normal ist, sondern zu einer anderen Verteilung konvergiert (und dies schneller). Dies geschieht normalerweise, wenn sich der zu schätzende Parameter an der Grenze des Parameterraums befindet. Intuitiv bedeutet dies, dass sich der MLE dem Parameter "nur von einer Seite" nähert, wodurch sich die Konvergenzgeschwindigkeit "verbessert", da er nicht durch "Hin- und Herbewegen" des Parameters "abgelenkt" wird.
Ein Standardbeispiel ist die MLE für θ in einer iid-Stichprobe von U ( 0 , θ ) gleichförmigen rvs. Die MLE ist hier die Statistik maximaler Ordnung.θ U(0,θ)
Θ n=u(n)
Seine endliche Probenverteilung ist
F θ n = ( θ n ) nθ n ,f θ = n ( θ n ) , n - 1θ n
E ( θ n ) = nn + 1 θ⟹B ( θ ) = - 1n + 1 θ
So B ( θ n ) = O ( 1 / n ) . Die gleiche erhöhte Rate gilt jedoch auch für die Varianz.B(θ^n)=O(1/n)
Man kann auch überprüfen , dass eine Grenzverteilung zu erhalten, müssen wir die Variable aussehen n ( θ - θ n ) , ( das heißt , wir müssen Skala von n ) dan(θ−θ^n) n
P [ n ( θ - θ n ) ≤ z ] = 1 - P [ θ n ≤ θ - ( Z / n ) ]
= 1 - 1θ n ⋅(θ+-zn )n=1-θnθ n ⋅(1+-z / θn )n
→ 1 - e - z / θ
Das ist die CDF der Exponentialverteilung.
Ich hoffe, das gibt eine Richtung vor.
quelle
Nach den Kommentaren in meiner anderen Antwort (und dem Titel der OP-Frage!) Folgt hier eine nicht sehr strenge theoretische Untersuchung des Problems.
Wir wollen , um zu bestimmen , ob Bias B ( θ n ) = E ( θ n ) - θ unterschiedliche Konvergenzrate als die Quadratwurzel der Varianz aufweisen kann,B(θ^n)=E(θ^n)−θ
B ( θ n ) = O ( 1 / n δ ) ,√Var ( θ n ) =O(1/n γ ),γ ≠ δ? ? ?
Wir haben
B ( θ n ) = O ( 1 / n δ )⟹lim n δ E ( θ n ) < K⟹lim n 2 δ [ E ( θ n ) ] 2 < K '
⟹[ E ( θ n ) ] 2 = O ( 1 / n 2 δ )
während
√Var(ˆθn)=O(1/nγ)⟹limnγ√E(ˆθ2n)−[E(ˆθn)]2<M
⟹lim√n2γE(ˆθ2n)−n2γ[E(ˆθn)]2<M
⟹limn2γE(ˆθ2n)−limn2γ[E(ˆθn)]2<M′
We see that (2)(2) may hold happen if
A) both components are O(1/n2γ)O(1/n2γ) , in which case we can only have γ=δγ=δ .
B) But it may also hold if
limn2γ[E(ˆθn)]2→0⟹[E(ˆθn)]2=o(1/n2γ)
For (3)(3) to be compatible with (1)(1) , we must have
n2γ<n2δ⟹δ>γ
So it appears that in principle it is possible to have the Bias converging at a faster rate than the square root of the variance. But we cannot have the square root of the variance converging at a faster rate than the Bias.
quelle