Allgemeine Frage
Nehmen wir an, wir haben iid-Daten , , ... einströmen. Wir möchten die maximale Wahrscheinlichkeitsschätzung von \ boldsymbol {\ theta} rekursiv berechnen. . Das heißt, nachdem
\ hat {\ boldsymbol {\ theta}} _ {n-1} = \ underset {\ boldsymbol {\ theta} \ in \ mathbb {R} ^ p} {\ arg \ max} \ prod_ {berechnet wurde i = 1} ^ {n-1} f (x_i \, | \, \ boldsymbol {\ theta}),
wir beobachten ein neues x_n und möchten irgendwie unsere Schätzung inkrementell aktualisieren
\ hat {\ boldsymbol {\ theta}} _ {n-1}, \, x_n \ bis \ hat {\ boldsymbol {\ theta}} _ {n},
ohne von vorne beginnen zu müssen. Gibt es dafür generische Algorithmen?θ n - 1 ,
Spielzeugbeispiel
Wenn , , ... , dann hat
so
Antworten:
Siehe das Konzept der Suffizienz und insbesondere der minimal ausreichenden Statistik . In vielen Fällen benötigen Sie die gesamte Stichprobe, um die Schätzung bei einer bestimmten Stichprobengröße zu berechnen, ohne die einfache Möglichkeit, eine Aktualisierung von einer um eine Größe kleineren Stichprobe durchzuführen (dh es gibt kein geeignetes allgemeines Ergebnis).
Wenn es sich bei der Verteilung um eine exponentielle Familie handelt (und in einigen anderen Fällen auch, die Uniform ist ein gutes Beispiel), gibt es eine ausreichende Statistik, die in vielen Fällen auf die von Ihnen gewünschte Weise aktualisiert werden kann (dh mit einer Reihe häufig verwendeter Verteilungen) ein schnelles Update).
Ein Beispiel, für das mir keine direkte Möglichkeit zur Berechnung oder Aktualisierung bekannt ist, ist die Schätzung des Standorts der Cauchy-Verteilung (z. B. mit Maßeinheit, um das Problem zu einem einfachen Ein-Parameter-Problem zu machen). Möglicherweise gibt es jedoch ein schnelleres Update, das ich einfach nicht bemerkt habe - ich kann nicht sagen, dass ich wirklich mehr getan habe, als einen Blick darauf zu werfen, um den Update-Fall zu prüfen.
Andererseits wäre bei MLEs, die über numerische Optimierungsmethoden erhalten werden, die vorherige Schätzung in vielen Fällen ein guter Ausgangspunkt, da die vorherige Schätzung in der Regel sehr nahe an der aktualisierten Schätzung liegt. zumindest in diesem sinne sollte eine schnelle aktualisierung oft möglich sein. Auch dies ist jedoch nicht der allgemeine Fall - bei multimodalen Wahrscheinlichkeitsfunktionen (siehe auch das Cauchy-Beispiel) kann eine neue Beobachtung dazu führen, dass der höchste Modus einen gewissen Abstand zum vorherigen Modus aufweist (auch wenn die Positionen der einzelnen Modi unterschiedlich sind) von den größten wenigen Modi hat sich nicht viel verschoben, der höchste könnte sich ändern).
quelle
Im maschinellen Lernen wird dies als Online-Lernen bezeichnet .
Wie @Glen_b hervorhob, gibt es spezielle Fälle, in denen die MLE aktualisiert werden kann, ohne auf alle vorherigen Daten zugreifen zu müssen. Wie er auch betont, glaube ich nicht, dass es eine generische Lösung gibt, um die MLE zu finden.
Ein ziemlich allgemeiner Ansatz, um die ungefähre Lösung zu finden, besteht darin, so etwas wie einen stochastischen Gradientenabstieg zu verwenden. In diesem Fall berechnen wir bei jeder eingehenden Beobachtung den Gradienten in Bezug auf diese einzelne Beobachtung und verschieben die Parameterwerte um einen sehr kleinen Betrag in diese Richtung. Unter bestimmten Bedingungen können wir zeigen, dass dies mit hoher Wahrscheinlichkeit zu einer Nachbarschaft der MLE konvergiert; Die Nachbarschaft wird immer enger, wenn wir die Schrittgröße verringern. Für die Konvergenz sind jedoch mehr Daten erforderlich. Diese stochastischen Methoden erfordern jedoch im Allgemeinen viel mehr Fummelei, um eine gute Leistung zu erzielen, als beispielsweise Aktualisierungen in geschlossener Form.
quelle