Benötigt MLE ID-Daten? Oder nur unabhängige Parameter?

16

Das Schätzen von Parametern unter Verwendung der Maximum-Likelihood-Schätzung (MLE) umfasst das Bewerten der Likelihood-Funktion, die die Wahrscheinlichkeit des Auftretens der Stichprobe (X) auf Werte (x) im Parameterraum (θ) bei gegebener Verteilungsfamilie (P (X = x | θ) abbildet Alle Beispiele, die ich gesehen habe, beinhalten die Berechnung von P (X = x | θ), indem das Produkt von F (X) genommen wird, wobei F die Verteilung mit dem lokalen ist Wert für θ und X ist die Stichprobe (ein Vektor).

Folgt daraus, dass die Daten unabhängig sind, da wir nur die Daten multiplizieren? Könnten wir beispielsweise MLE nicht verwenden, um Zeitreihendaten anzupassen? Oder müssen die Parameter nur unabhängig sein?

Felix
quelle

Antworten:

14

Die Wahrscheinlichkeitsfunktion ist definiert als die Wahrscheinlichkeit eines Ereignisses (Datensatz ) in Abhängigkeit von den Modellparameternx θExθ

L(θ;x)P(Event E;θ)=P(observing x;θ).

Es besteht daher keine Vermutung der Unabhängigkeit der Beobachtungen. Im klassischen Ansatz gibt es keine Definition für die Unabhängigkeit von Parametern, da es sich nicht um Zufallsvariablen handelt. einige relevanten Konzepte könnten Identifizierbarkeit , Parameter Orthogonalität , und die Unabhängigkeit des Maximum - Likelihood - Schätzer (die Zufallsvariablen).

Einige Beispiele,

(1). Diskreter Fall . ist eine Probe (unabhängiger) diskreter Beobachtungen mit , dannP ( Beobachtung  x j ; θ ) > 0x=(x1,...,xn)P(beobachten xj;θ)>0

L(θ;x)j=1nP(observing xj;θ).

Insbesondere wenn ist und N bekannt ist, haben wir dasxjBinomial(N,θ)N

L(θ;x)j=1nθxj(1θ)Nxj.

(2). Kontinuierliche Approximation . Let wird , um eine Probe aus einer kontinuierlichen Zufallsvariablen X , mit der Verteilung F und Dichte f , mit Messfehlern ε , ist dies, um die Sätze beobachten ( x j - ε , x j + ϵ ) . Dannx=(x1,...,xn)XFfϵ(xjϵ,xj+ϵ)

L(θ;x)j=1nP[beobachten (xj-ϵ,xj+ϵ);θ]=j=1n[F(xj+ϵ;θ)-F(xj-ϵ;θ)]

Wenn klein ist, kann dies (unter Verwendung des Mittelwertsatzes) durch angenähert werdenϵ

L(θ;x)j=1nf(xj;θ)

Ein Beispiel mit dem Normalfall, werfen Sie einen Blick auf diese .

(3). Abhängiges und Markov-Modell . Nehmen wir an, dass ist eine Reihe von Beobachtungen , möglicherweise abhängig und lassen f die gemeinsame Dichte sein x , dannx=(x1,...,xn)fx

L(θ;x)f(x;θ).

Wenn zusätzlich die Markov-Eigenschaft erfüllt ist, dann

L(θ;x)f(x;θ)=f(x1;θ)j=1n-1f(xj+1|xj;θ).

Nehmen Sie auch einen Blick auf diese .

Gemeinschaft
quelle
3
Wenn Sie die Wahrscheinlichkeitsfunktion als Produkt schreiben, nehmen Sie implizit eine Abhängigkeitsstruktur zwischen den Beobachtungen an. Für MLE braucht man also zwei Annahmen (a) eine über die Verteilung jedes einzelnen Ergebnisses und (b) eine über die Abhängigkeit zwischen den Ergebnissen.
10

(+1) Sehr gute Frage.

Kleinigkeit, MLE steht für Maximum Likelihood Estimation (nicht multipliziert), was bedeutet, dass Sie nur die Wahrscheinlichkeit maximieren. Dies gibt nicht an, dass die Wahrscheinlichkeit durch IID-Abtastung erzeugt werden muss.

Wenn die Abhängigkeit der Stichprobe im statistischen Modell geschrieben werden kann, schreiben Sie einfach die Wahrscheinlichkeit entsprechend und maximieren sie wie gewohnt.

Der ein Fall erwähnenswert , wenn Sie nicht Abhängigkeit davon ausgehen , dass das multivariaten Gauß - Sampling (in der Zeit zum Beispiel Reihenanalyse). Die Abhängigkeit zwischen zwei Gaußschen Variablen kann durch ihren Kovarianzterm modelliert werden, den Sie in die Wahrscheinlichkeit einbeziehen.

Um ein vereinfachtes Beispiel zu geben, nehmen Sie an, dass Sie eine Stichprobe der Größe aus korrelierten Gaußschen Variablen mit dem gleichen Mittelwert und der gleichen Varianz ziehen. Du würdest die Wahrscheinlichkeit schreiben als2

12πσ21ρ2exp(z2σ2(1ρ2)),

wo istz

z=(x1μ)22ρ(x1μ)(x2μ)+(x2μ)2.

Dies ist nicht das Produkt der einzelnen Wahrscheinlichkeiten. Dennoch würden Sie dies mit Parametern maximieren , um deren MLE zu erhalten.(μ,σ,ρ)

gui11aume
quelle
2
Das sind gute Antworten und Beispiele. Das einzige, was ich hinzufügen möchte, um dies in einfachen Worten zu sehen, ist, dass die Wahrscheinlichkeitsschätzung nur erfordert, dass ein Modell für die Erzeugung der Daten in Bezug auf einige unbekannte Parameter in funktionaler Form beschrieben wird.
Michael R. Chernick
(+1) Absolut wahr! Haben Sie ein Beispiel für ein Modell, das in diesen Begriffen nicht angegeben werden kann?
gui11aume
@ gu11aume Ich denke, Sie beziehen sich auf meine Bemerkung. Ich würde sagen, dass ich auf die Frage keine direkte Antwort gab. Die Antwort auf die Frage lautet Ja, da es Beispiele gibt, die gezeigt werden können, wo die Wahrscheinlichkeitsfunktion ausgedrückt werden kann, wenn die Daten durch abhängige Zufallsvariablen erzeugt werden.
Michael R. Chernick
2
Beispiele, bei denen dies nicht möglich ist, sind Daten ohne Beschreibung des Datenerzeugungsmechanismus, oder das Modell wird nicht in einer parametrischen Form dargestellt, z Dieselbe Verteilung, bei der Sie nur angeben, dass die Verteilungen absolut fortlaufend sind.
Michael R. Chernick
4

Natürlich besitzen Gaußsche ARMA-Modelle eine Wahrscheinlichkeit, da ihre Kovarianzfunktion explizit abgeleitet werden kann. Dies ist im Grunde eine Erweiterung der Antwort von gui11ame auf mehr als zwei Beobachtungen. Minimales Googeln erzeugt Papiere wie dieses, bei denen die Wahrscheinlichkeit in der allgemeinen Form angegeben ist.

Eine weitere, in gewissem Maße faszinierendere Klasse von Beispielen sind Modelle mit mehrstufigen Zufallseffekten . Wenn Sie Daten des Formulars haben

yichj=xichjβ+uich+ϵichj,
wo Indizes j sind verschachtelt in ich (Denken Sie an Studenten j in Klassenzimmern ichSagen wir, für eine klassische Anwendung von Mehrebenenmodellen), vorausgesetzt ϵichjuichist die Wahrscheinlichkeit
lnLichlnjf(yichj|β,uich)dF(uich)
und ist eine Summe über die auf der Ebene von Clustern definierten Wahrscheinlichkeitsbeiträge, nicht über einzelne Beobachtungen. (Natürlich können Sie im Gaußschen Fall die Integrale verschieben, um eine analytische ANOVA-ähnliche Lösung zu erstellen. Wenn Sie jedoch ein Logit-Modell für Ihre Antwort angeben,yichjgibt es keinen Ausweg aus der numerischen Integration.)
StasK
quelle
2
Stask und @ gui11aume, diese drei Antworten sind nett, aber ich denke, sie verpassen einen Punkt: Was ist mit der Konsistenz der MLE für abhängige Daten?
Stéphane Laurent