Aus dem elementaren Wahrscheinlichkeitskurs haben die Wahrscheinlichkeitsverteilungen wie Gauß, Poisson oder Exponential alle eine gute Motivation. Nachdem ich lange auf die Formel der exponentiellen Familienverteilungen gestarrt habe, bekomme ich immer noch keine Intuition.
Kann mir jemand helfen zu verstehen, warum wir es überhaupt brauchen? Was sind einige Vorteile der Modellierung einer Antwortvariablen als exponentielle Familie gegenüber normal?
EDIT: Mit der exponentiellen Familie meinte ich die hier beschriebene allgemeine Klasse von Verteilungen .
exponential-family
Bewohner des Nordens
quelle
quelle
Antworten:
Die exponentielle Familie ist viel breiter als die normale. Was ist zum Beispiel der Vorteil der Verwendung eines Poisson oder eines Binomials anstelle eines normalen? Ein Normaler nützt nicht viel, wenn Sie mit einem niedrigen Mittelwert gezählt haben. Was ist, wenn Ihre Daten kontinuierlich, aber sehr richtig sind - vielleicht mal oder in Geldbeträgen? Die exponentielle Familie umfasst das Normal-, das Binomial-, das Poisson- und das Gamma als Sonderfälle (unter vielen anderen)
Es enthält eine Vielzahl von Varianz-Mittelwert- Beziehungen.
Es ergibt sich aus dem Versuch, eine Frage im Sinne von "Welche Verteilungen sind Funktionen einer ausreichenden Statistik? " Zu beantworten. Daher können Modelle über ML unter Verwendung sehr einfacher ausreichender Statistiken geschätzt werden. Dies schließt die üblichen Modelle ein, die in Programmen verfügbar sind, die für verallgemeinerte lineare Modelle geeignet sind. Tatsächlich ist die ausreichende Statistik ( ) in der Exponentialfamiliendichtefunktion explizit.T.( x )
Es macht es einfach, die Beziehung zwischen der Antwort und dem Prädiktor von der bedingten Verteilung der Antwort (über Verbindungsfunktionen) zu entkoppeln. Beispielsweise könnten Sie eine lineare Beziehung zu einem Modell anpassen, das angibt, dass die bedingte Antwort eine Gammaverteilung aufweist , oder eine exponentielle Beziehung zu einer bedingten Gaußschen Antwort in einem GLM-Framework.
Für Bayesianer ist die exponentielle Familie sehr interessant, da alle Mitglieder der exponentiellen Familie konjugierte Prioritäten haben.
quelle
Für mich ist die Hauptmotivation für exponentielle Familienverteilungen, dass sie die Familien mit maximaler Entropieverteilung sind, wenn eine Reihe ausreichender Statistiken und eine Unterstützung vorliegen. Mit anderen Worten, sie sind eine minimale angenommene Verteilung.
Wenn Sie beispielsweise nur den Mittelwert und die Varianz der reellen Größe messen, ist die Normalverteilung die am wenigsten angenommene Modellierungsoption.
Vom Standpunkt der Berechnung aus gibt es weitere Vorteile:
Sie werden unter "Beweiskombination" geschlossen. Das heißt, die Kombination zweier unabhängiger Wahrscheinlichkeiten aus derselben Exponentialfamilie befindet sich immer in derselben Exponentialfamilie, und ihre natürlichen Parameter sind lediglich die Summe der natürlichen Parameter ihrer Komponenten. Dies ist praktisch für die Bayes'sche Statistik.
Der Gradient der Kreuzentropie zwischen zwei exponentiellen Familienverteilungen ist die Differenz ihrer Erwartungsparameter. Dies bedeutet, dass eine Verlustfunktion, bei der es sich um eine solche Kreuzentropie handelt, eine sogenannte Matching-Loss-Funktion ist , die für die Optimierung geeignet ist.
quelle
Glen's Liste ist gut. Ich werde eine weitere Anwendung hinzufügen, um seine Antwort zu ergänzen: Ableiten konjugierter Prioritäten für die Bayes'sche Folgerung.
Ein Kernteil der Bayes'schen Inferenz ist die Ableitung der posterioren Verteilungenp ( θ | y) ∝ p ( y| θ)p(θ) p ( θ ) p ( y| θ) p ( y| θ) p ( θ )
wir können einfach ein Konjugat vorher als schreiben
und dann arbeitet der hintere als
Warum ist diese Konjugation nützlich? Weil es sowohl unsere Interpretation als auch unsere Berechnung bei der Durchführung der Bayes'schen Inferenz vereinfacht. Dies bedeutet auch, dass wir leicht analytische Ausdrücke für den Seitenzahn entwickeln können, ohne zu viel Algebra ausführen zu müssen.
quelle
Sie möchten, dass Ihr Datenmodell den Generierungsprozess widerspiegelt. Der 'Prozess', der Gaußsche Variablen erzeugt, hat ganz andere Eigenschaften als der, der das Exponential regelt, und es ist nicht immer intuitiv, warum. Manchmal müssen Sie andere Verteilungsmerkmale schätzen. Betrachten Sie als ein Beispiel, dass die Hazard-Funktion für Gauß zunimmt, während die Exponentialfunktion flach ist. Nehmen wir als einfaches praktisches Beispiel an, ich werde Sie in Intervallen stupsen, und das 'Inter-Poke-Intervall' wird durch die Gaußsche oder exponentielle Erzeugungsfunktion ausgewählt. Unter einem Gaußschen würden Sie feststellen, dass Stöße vorhersehbar sind und sich nach langen Intervallen sehr wahrscheinlich anfühlen. Unter Exponential würden sie sich sehr unberechenbar fühlen. Der Grund dafür liegt in der Erzeugungsfunktion, die vom zugrunde liegenden Phänomen abhängt.
quelle