Was ist die maximale Wahrscheinlichkeitsschätzung der Kovarianz bivariater Normaldaten, wenn Mittelwert und Varianz bekannt sind?

10

Angenommen, wir haben eine Zufallsstichprobe aus einer bivariaten Normalverteilung, die Nullen als Mittelwerte und Einsen als Varianzen enthält. Der einzige unbekannte Parameter ist also die Kovarianz. Was ist die MLE der Kovarianz? Ich weiß, es sollte so etwas wie aber woher wissen wir das?1nj=1nxjyj

Stacy
quelle
1
Glauben Sie nicht, dass es als Anfänger ein bisschen unkonventionell ist, die Mittelwerte mit und zu schätzen, wenn wir tatsächlich wissen, dass sie 0 und 0 sind? x¯y¯
Wolfgang
Sehr Onkel, reparierte es. Ich sehe immer noch nicht, wie dies leicht folgen kann. Es ist analog zur Stichprobenvarianz, aber warum ist es die MLE (es sei denn, es ist nicht so und ich habe einen weiteren Fehler gemacht)
Stacy
Haben Sie ? Wenn Sie diese Formel verwenden, bedeutet dies nicht, dass Sie und als Schätzungen der Mittelwerte betrachten . 1ni=1n(xix¯)(yiy¯)x¯y¯
Stéphane Laurent
@ StéphaneLaurent Ja, im ersten Beitrag wurde die Formel so angegeben, wie Sie sie geschrieben haben.
Wolfgang

Antworten:

11

Der Schätzer für den Korrelationskoeffizienten (der im Fall einer bivariaten Standardnormalen gleich der Kovarianz ist)

r~=1ni=1nxiyi

ist der Method-of-Moments-Schätzer, die Stichproben-Kovarianz. Mal sehen, ob es mit dem Maximum-Likelihood-Schätzer übereinstimmt .ρ^

Die Gelenkdichte einer bivariaten Standardnormalen mit dem Korrelationskoeffizienten beträgtρ

f(x,y)=12π1ρ2exp{x2+y22ρxy2(1ρ2)}

und so die log-Wahrscheinlichkeit einer iid Stichprobe der Größe ist ,n

lnL=nln(2π)n2ln(1ρ2)12(1ρ2)i=1n(xi2+yi22ρxiyi)

(hier bezieht sich die iid-Annahme natürlich auf jede Ziehung aus der zweidimensionalen Population)

Wenn man die Ableitung in Bezug auf und sie auf Null setzt, erhält man ein 3D-Polynom in :ρρ

ρ^:nρ^3(i=1nxiyi)ρ^2(11ni=1n(xi2+yi2))nρ^i=1nxiyi=0

Dass die Berechnungen korrekt sind, kann überprüft werden, wenn man den erwarteten Wert der Ableitung nimmt, die mit dem wahren Koeffizienten -it gleich Null bewertet wird.ρ

Für die Kompaktheit schreiben Sie , was die Summe der Stichprobenvarianzen von und . Wenn wir den Ausdruck der 1. Ableitung durch teilen, erscheint spezifisch der MoM-Schätzer(1/n)i=1n(xi2+yi2)=(1/n)S2XYn

ρ^:ρ^3r~ρ^2+[(1/n)S21]ρ^r~=0

ρ^(ρ^2r~ρ^+[(1/n)S21])=r~

Bei der Algebra ist es nicht schwer zu schließen, dass wir genau dann wenn und nur wenn , dh nur dann, wenn die Summe der Stichprobenvarianzen gleich ist die Summe der wahren Abweichungen. Also im Allgemeinenρ^=r~(1/n)S2=2

ρ^r~

Was passiert hier? Jemand, der klüger ist, wird es erklären. Lassen Sie uns zunächst eine Simulation versuchen: Ich habe eine iid-Stichprobe von zwei Standardnormalen mit dem Korrelationskoeffizienten generiert . Die Stichprobengröße betrug . Die Probenwerte warenρ=0.6n=1.000

i=1nxiyi=522.05,S2=1913.28

Der Momentenschätzer gibt uns

r~=522.051000=0.522

Was passiert mit der Log-Wahrscheinlichkeit? Optisch haben wir

Geben Sie hier die Bildbeschreibung ein

Numerisch haben wir

ρ1st derivlnL0.570.92783.650.5159.41782.470.5247.7781.480.5335.78780.680.5423.64780.10.5511.29779.750.561.29779.640.5714.1779.810.5827.15780.270.5940.44781.050.653.98782.18

und wir sehen, dass die log-Wahrscheinlichkeit ein Maximum ein bisschen vor wobei auch die 1. Ableitung Null wird . Keine Überraschungen für die Werte von nicht gezeigt. Auch die 1. Ableitung hat keine andere Wurzel.ρ=0.56(ρ^=0.558985)ρ

Diese Simulation stimmt also mit dem Ergebnis überein, dass der Maximum-Likelihood-Schätzer nicht der Methode des Momentenschätzers entspricht (bei der es sich um die Stichproben-Kovarianz zwischen den beiden RVs handelt).

Aber es scheint, dass "jeder" sagt, dass es ... also sollte jemand eine Erklärung finden.

AKTUALISIEREN

Eine Referenz, die beweist, dass der MLE der Schätzer für die Methode der Momente ist: Anderson, TW & Olkin, I. (1985). Maximum-Likelihood-Schätzung der Parameter einer multivariaten Normalverteilung. Lineare Algebra und ihre Anwendungen, 70, 147-171.
Ist es wichtig, dass hier alle Mittel und Abweichungen frei variieren und nicht festgelegt werden können?

... Wahrscheinlich ja, weil der Kommentar von @ guy in einer anderen (jetzt gelöschten) Antwort besagt, dass mit gegebenen Mittelwert- und Varianzparametern die bivariate Normalität ein Mitglied der gekrümmten Exponentialfamilie wird (und sich daher einige Ergebnisse und Eigenschaften ändern) ... Dies scheint der einzige Weg zu sein, um die beiden Ergebnisse in Einklang zu bringen.

Alecos Papadopoulos
quelle
1
Dies ist ein wenig überraschend, aber nach einigen Überlegungen sollte es erwartet werden. Das Problem kann umformuliert werden, indem der Regressionskoeffizient im Modell geschätzt wird, wobei . Dies ist kein lineares Modell, daher gibt es keinen Grund zu der Annahme, dass es sich bei der MLE um ein einfaches Punktprodukt handelt. Die gleiche Logik zeigt (glaube ich!), Dass, wenn wir nur die MLE ist und wenn wir nur . Wenn wir beides nicht wissen, erhalten wir Ihren MOM-Schätzer. ρY=ρX+ϵϵN(0,1ρ22)Var(X)xy/xxxy/yyVar(Y)
Kerl
1
@guy: Sehr interessant. Ich denke, diese Argumente verdienen es, wenn sie leicht erweitert werden, als separate Antwort veröffentlicht zu werden!
Amöbe sagt Reinstate Monica
@guy Ich denke nicht, dass diese Formulierung äquivalent ist, da die Log-Wahrscheinlichkeit in der Regressionseinstellung das Quadrat . Der an gebundene Koeffizient ist in der bivariaten Dichteformulierung nicht vorhanden. ϵ2=(yρx)2=y22ρxy+ρ2x2ρ2x2
Alecos Papadopoulos
Meine Vermutung ist . Stellen Sie sich und , dann wird eine Schätzung von erwartet. 1ni=1n(xix¯)(yiy¯)n=2y1=y20
Stéphane Laurent
1
@AlecosPapadopoulos . Der Term wird durch den Nenner gelöscht. Der einzige Term aus den Daten, der zu Ihrer ursprünglichen Log-Wahrscheinlichkeit beiträgt, ist . Dies ergibt sich aber auch unmittelbar aus der bekannten Faktorisierung , . Meine anderen Behauptungen sind jedoch falsch, da ich es versäumt habe, den Begriff in sie aufzunehmen. x2+y22ρxy=(1ρ2)x2+(yρx)2(1ρ2)x2(1ρ2)(yρx)2/(1ρ2)XN(μX,σX2)[Y|X]N(μY+ρXσYσX(XμX),σY|X21ρ22)σY/σX
Kerl
2

Unter den angegebenen Bedingungen ( und ), der Größe der Likelihood - Funktion für eine Stichprobe istμX=μY=0σX=σY=1n

L(ρ|X,Y)=1(2π[1ρ2])n/2exp[12(1ρ2)(XX2ρXY+YY)].

Finden Sie nun die Log-Wahrscheinlichkeit und nehmen Sie die Ableitung in Bezug auf . Setzen Sie es als Nächstes auf 0 und lösen Sie nach . Sie sollten natürlich einen geeigneten Test durchführen, um zu zeigen, dass das, was Sie gefunden haben, tatsächlich ein globales Maximum ist.& rgr;ρρ^

Dennis
quelle