Vergleich zwischen MaxEnt, ML, Bayes und anderen statistischen Inferenzmethoden

21

Ich bin in keiner Weise Statistiker (ich hatte einen Kurs in mathematischer Statistik, aber nichts anderes als das), und vor kurzem, als ich Informationstheorie und statistische Mechanik studierte, traf ich dieses Ding, das "Unsicherheitsmaß" / "Entropie" genannt wurde. Ich habe die Khinchin-Ableitung als Maß für die Unsicherheit gelesen und es ergab für mich einen Sinn. Eine andere Sache, die Sinn machte, war Jaynes Beschreibung von MaxEnt, um eine Statistik zu erhalten, wenn Sie das arithmetische Mittel einer oder mehrerer Funktionen in der Stichprobe kennen (vorausgesetzt, Sie akzeptieren als Maß für die Unsicherheit natürlich). -pichlnpich

Also suchte ich im Netz, um die Beziehung zu anderen Methoden der statistischen Inferenz zu finden, und Gott war ich verwirrt. In diesem Artikel wird beispielsweise unter der Annahme, dass ich es richtig verstanden habe, vorgeschlagen, dass Sie nur einen ML-Schätzer unter einer geeigneten Neuformulierung des Problems erhalten. MacKey sagt in seinem Buch, dass MaxEnt Ihnen seltsame Dinge geben kann, und Sie sollten es nicht einmal für eine Startschätzung in einer Bayes'schen Folgerung verwenden. etc .. Ich habe Probleme, gute Vergleiche zu finden.

Meine Frage ist, ob Sie eine Erklärung und / oder eine gute Referenz für die Stärken und Schwächen von MaxEnt als statistische Inferenzmethode mit quantitativen Vergleichen zu anderen Methoden liefern können (zum Beispiel bei Spielzeugmodellen).

Francesco
quelle

Antworten:

19

Die Inferenzmethoden nach MaxEnt und Bayes entsprechen unterschiedlichen Methoden zur Einbeziehung von Informationen in Ihre Modellierungsprozedur. Beide können auf axiomatischen Grund gestellt werden (John Skillings "Axioms of Maximum Entropy" und Coxs "Algebra of Probable Inference" ).

Der Bayes'sche Ansatz ist einfach anzuwenden, wenn Ihr Vorwissen in Form einer messbaren reellen Wertfunktion über Ihrem Hypothesenraum vorliegt, die als "vor" bezeichnet wird. MaxEnt ist unkompliziert, wenn die Informationen als eine Reihe von harten Einschränkungen für Ihren Hypothesenraum vorliegen. Im wirklichen Leben gibt es Wissen weder in "vorheriger" Form noch in "eingeschränkter" Form. Daher hängt der Erfolg Ihrer Methode von Ihrer Fähigkeit ab, Ihr Wissen in der entsprechenden Form darzustellen.

Bei einem Spielzeugproblem ergibt die Bayes'sche Modellmittelung den niedrigsten durchschnittlichen Log-Verlust (gemittelt über viele Modellzeichnungen), wenn der Prior der wahren Verteilung der Hypothesen entspricht. Der MaxEnt-Ansatz ergibt den niedrigsten log-Verlust im ungünstigsten Fall, wenn seine Einschränkungen erfüllt sind (der schlechteste aller möglichen Prioritäten).

ETJaynes, der als Vater der "MaxEnt" -Methoden gilt, stützte sich ebenfalls auf Bayes'sche Methoden. Auf Seite 1412 seines Buches gibt er ein Beispiel, in dem der Bayes'sche Ansatz zu einer guten Lösung führte, gefolgt von einem Beispiel, in dem der MaxEnt-Ansatz natürlicher ist.

Die maximale Wahrscheinlichkeit besteht im Wesentlichen darin, dass das Modell in einem vorgegebenen Modellbereich liegt und versucht, ihn "so genau wie möglich" anzupassen, sodass es die höchste Sensitivität für Daten aus allen auf ein solches Modell beschränkten Modellauswahlmethoden aufweist Platz. Während MaxEnt und Bayesian Frameworks sind, ist ML eine konkrete Modellanpassungsmethode, und für einige bestimmte Entwurfsentscheidungen kann ML die Methode verwenden, die sich aus dem Bayesian- oder MaxEnt-Ansatz ergibt. Zum Beispiel entspricht MaxEnt mit Gleichheitsbeschränkungen der Maximum-Likelihood-Anpassung einer bestimmten Exponentialfamilie. Ebenso kann eine Annäherung an die Bayes'sche Inferenz zu einer regularisierten Maximum-Likelihood-Lösung führen. Wenn Sie vorab festlegen, dass Ihre Schlussfolgerungen maximal datenempfindlich sind, entspricht das Ergebnis der Bayes'schen Inferenz der Anpassung mit maximaler Wahrscheinlichkeit. Zum Beispiel,p über Bernoulli-Studien, so vor wäre die Grenzverteilung Beta (0,0)

Real-Life-Erfolge beim maschinellen Lernen sind oft eine Mischung aus verschiedenen Philosophien. Zum Beispiel, „Random Fields“ wurden abgeleitet aus MaxEnt Prinzipien. Bei der gängigsten Implementierung der Idee, der regularisierten CRF, wird den Parametern ein "Prior" hinzugefügt. Infolgedessen ist die Methode weder wirklich MaxEnt noch Bayesianisch, sondern wird von beiden Denkrichtungen beeinflusst.

Ich habe hier und hier einige Links zu philosophischen Grundlagen der Bayes- und MaxEnt-Ansätze gesammelt .

Anmerkung zur Terminologie: Manchmal wird die Methode Bayesian genannt , wenn irgendwann die Bayes-Regel verwendet wird. Ebenso wird "MaxEnt" manchmal für eine Methode verwendet, die Lösungen mit hoher Entropie bevorzugt. Dies ist nicht dasselbe wie "MaxEnt-Inferenz" oder "Bayes'sche Inferenz", wie oben beschrieben

Jaroslaw Bulatow
quelle
1
Vielen Dank. Ich dachte nicht, dass "Die Logik der Wissenschaft" auch über dieses Zeug sprach, ich werde dieses Buch definitiv lesen.
Francesco
19

Für eine unterhaltsame Kritik der Maximum-Entropy-Methoden würde ich empfehlen, einige alte Newsgroup-Beiträge zu sci.stat.math und sci.stat.consult zu lesen, insbesondere die von Radford Neal:

Ich kenne keine Vergleiche zwischen maxent und anderen Methoden: Ein Teil des Problems scheint zu sein, dass maxent nicht wirklich ein Framework ist, sondern eine mehrdeutige Anweisung ("wenn man mit einem Unbekannten konfrontiert ist, maximiere einfach die Entropie") auf unterschiedliche Weise von verschiedenen Menschen interpretiert.

Simon Byrne
quelle
4
(+1) Dieser Thread von 2002 ist eine Hölle des Gedankenaustauschs.
Whuber
1
Man beachte, dass die von Edwin Jaynes in Probability Theory: The Logic of Science angegebene "Wallis-Ableitung" von Maxent eine "experimentelle" Begründung für die Maximierung der Entropie liefert. Wenn wir bei diskreten Verteilungen vom Prinzip der Indifferenz (PID) ausgehen und dann im Grunde genommen eine Zurückweisungsabtastung für die Wahrscheinlichkeiten durchführen, verwenden wir die Einschränkungen, um die zufälligen einheitlichen Abtastwerte zu akzeptieren oder zurückzuweisen. Die resultierende Wahrscheinlichkeit liegt dann beliebig nahe an der (diskreten) Maximalverteilung.
Wahrscheinlichkeit
3

Es ist richtig, dass sich MaxEnt und Bayes in der Vergangenheit mit unterschiedlichen Arten oder Formen von Informationen befasst haben. Ich würde sagen, dass Bayes auch "harte" Bedingungen verwendet, die Wahrscheinlichkeit.

In jedem Fall ist dies kein Problem mehr, da die Bayes-Regel (nicht die Produktregel) von Maximum Relative Entropy (MrE) bezogen werden kann und dies nicht mehr eindeutig ist:

Es ist eine neue Welt ...


quelle