Was ist der Grund, warum eine Likelihood-Funktion kein PDF ist?

57

Was ist der Grund, warum eine Wahrscheinlichkeitsfunktion kein PDF ist (Wahrscheinlichkeitsdichtefunktion)?

likelihood pdf John Doe
quelle

6

Die Wahrscheinlichkeitsfunktion ist eine Funktion des unbekannten Parameters

θ

$\theta$ (abhängig von den Daten). Als solches hat es typischerweise keinen Bereich 1 (dh das Integral über alle möglichen Werte von

θ

$\theta$ ist nicht 1) und ist daher per Definition kein PDF.

MånsT

3

Dieselbe

Douglas Zare

3

Interessante Referenz, @Douglas. Die Antworten sind meiner Meinung nach eher unbefriedigend. Der Akzeptierte nimmt Dinge an, die einfach nicht wahr sind ("sowohl

p (X | m)

$p(X|m)$ als auch

p (m | X)

$p(m|X)$ sind pdfs": nicht !) Und die anderen verstehen die statistischen Fragen nicht wirklich.

Whuber

2

+1 whuber. Es ist erstaunlich, dass die Mathoverflow-Site trotz ihres hohen mathematischen Niveaus so schlechte Antworten liefert!

Stéphane Laurent

1

@Stephane: Das ist wahr, aber Statistiker und sogar Probabilisten scheinen auf MO ziemlich selten zu sein, mit einigen bemerkenswerten Ausnahmen. Diese Frage war ziemlich früh in der Existenz von MO, als sowohl die allgemein zulässigen Fragen als auch die Qualität der Antworten erheblich voneinander abwichen.

Kardinal

61

Wir beginnen mit zwei Definitionen:

Eine Wahrscheinlichkeitsdichtefunktion (pdf) ist eine nicht negative Funktion, die zu integriert wird . $1$
Die Wahrscheinlichkeit ist definiert als die gemeinsame Dichte der beobachteten Daten als Funktion des Parameters. Wie jedoch aus dem Verweis auf Lehmann von @whuber in einem Kommentar unten hervorgeht, ist die Wahrscheinlichkeitsfunktion nur eine Funktion des Parameters, wobei die Daten als feste Konstante gehalten werden. Die Tatsache, dass es sich um eine Dichte in Abhängigkeit von den Daten handelt, spielt also keine Rolle.

Daher ist die Likelihood-Funktion kein PDF, da ihr Integral in Bezug auf den Parameter nicht unbedingt 1 entspricht (und möglicherweise überhaupt nicht integrierbar ist, wie in einem anderen Kommentar von @whuber ausgeführt).

Um dies zu sehen, verwenden wir ein einfaches Beispiel. Angenommen , Sie haben eine einzige Beobachtung, , von einer Verteilung. Dann ist die Wahrscheinlichkeitsfunktion $x$ ${\rm Bernoulli}(\theta)$

L (θ) = θ^{x} (1 - θ)^{1 - x}

$L(\theta) = \theta^{x} (1 - \theta)^{1-x}$

Es ist eine Tatsache , dass . Insbesondere wenn , dann ist ; ;, also $\int_{0}^{1} L(\theta) d \theta = 1/2$ $x = 1$ $L(\theta) = \theta$

\int_{0}^{1} L (θ) d θ = \int_{0}^{1} θ d θ = 1 / 2

$\int_{0}^{1} L(\theta) d \theta = \int_{0}^{1} \theta \ d \theta = 1/2$

und eine ähnliche Berechnung gilt, wenn . Daher ist $x = 0$ $L(\theta)$ keine Dichtefunktion sein.

Noch wichtiger als dieses technische Beispiel, das zeigt, warum die Wahrscheinlichkeit keine Wahrscheinlichkeitsdichte ist, ist der Hinweis, dass die Wahrscheinlichkeit nicht die Wahrscheinlichkeit ist, dass der Parameterwert korrekt ist, oder etwas Ähnliches - es ist die Wahrscheinlichkeit (Dichte) der Daten Angesichts des Parameterwertes ist das eine ganz andere Sache. Daher sollte man nicht erwarten, dass sich die Wahrscheinlichkeitsfunktion wie eine Wahrscheinlichkeitsdichte verhält.

Makro
quelle

12

+1 Ein subtiler Punkt ist, dass sogar das Erscheinen von "

" im Integral nicht Teil der Wahrscheinlichkeitsfunktion ist; es kommt aus dem Nichts. Unter den vielen Möglichkeiten, dies zu sehen, ist zu berücksichtigen, dass eine Neuparametrisierung nichts Wesentliches an der Wahrscheinlichkeit ändert - es ist lediglich eine Umbenennung des Parameters -, sondern das Integral ändert. Wenn wir zum Beispiel die Bernoulli-Verteilungen mit der log-Quote

parametrisieren, würde das Integral nicht einmal konvergieren.

d θ

$d\theta$

ψ = \log (θ / (1 - θ))

$\psi=\log(\theta/(1-\theta))$

whuber

3

Das ist eine Möglichkeit: MLEs sind bei monotonen Transformationen unveränderlich , Wahrscheinlichkeitsdichten jedoch nicht, QED! Dies war genau das Argument von Fisher, das ich in einem Kommentar zu @Michael Chernicks Antwort skizziert habe.

Whuber

4

+1 für den Kommentar von whuber. Das "

" hat im Allgemeinen nicht einmal einen Sinn, weil es nicht einmal ein

Feld im Parameterraum gibt!

d θ

$d\theta$

σ

$\sigma$

Stéphane Laurent

1

@PatrickCaldon Die einzige Kontinuitätsbeschränkung ist die cdf, für die Rechtskontinuität erforderlich ist. Sie brauchen dies, damit Ihre Wahrscheinlichkeit nicht von definiert zu undefiniert und (möglicherweise) wieder zurück geht, was seltsam wäre. Ich bin mir nicht 100% sicher, aber ich denke, solange Sie Ihr cdf haben und so eine Wahrscheinlichkeit, müssen Sie nicht einmal in der Lage sein,

zu lösen . Wenn Sie das können, stellen Sie einfach sicher, dass das Wohnmobil durchgehend ist.

\int_{D} f

$\int_D f$

Joey

1

(+1) Ich beglückwünsche Sie als Erster zum Erreichen der 10-km-Wiederholung! Gute Antwort; Ich mag insbesondere das Beispiel, das Sie geben. Prost. :)

Kardinal

2

Okay, aber die Wahrscheinlichkeitsfunktion ist die gemeinsame Wahrscheinlichkeitsdichte für die beobachteten Daten bei gegebenem Parameter . Als solches kann es normalisiert werden, um eine Wahrscheinlichkeitsdichtefunktion zu bilden. Es ist also im Wesentlichen wie ein PDF. $θ$

Michael Chernick
quelle

3

Sie weisen also nur darauf hin, dass die Wahrscheinlichkeit in Bezug auf den Parameter integrierbar ist (ist das immer wahr?). Ich nehme an, dass Sie auf die Beziehung der Wahrscheinlichkeit zur posterioren Verteilung anspielen, wenn ein flacher Prior verwendet wird, aber ohne weitere Erklärung bleibt diese Antwort mir rätselhaft.

Makro

6

Die Integration in die Einheit ist nebensächlich. Fisher beobachtete in einem Aufsatz von 1922 über die mathematischen Grundlagen der theoretischen Statistik, dass tatsächlich gewöhnlich die Wahrscheinlichkeit

"normalisiert" werden kann, um bei Multiplikation mit einer geeigneten Funktion

zu einer Einheit zu integrieren, so dass

. Was er beanstandete, war die Willkür : Es gibt viele

L (θ)

$L(\theta)$

p (θ)

$p(\theta)$

\int L (θ) p (θ) d θ = 1

$\int L(\theta)p(\theta)d\theta=1$

p

$p$ diese Arbeit. "... das Wort Wahrscheinlichkeit wird in einem solchen Zusammenhang falsch verwendet: Wahrscheinlichkeit ist ein Verhältnis von Frequenzen, und über die Frequenzen solcher Werte können wir überhaupt nichts wissen."

Whuber

1

@ Néstor (und Michael) - es scheint, dass whuber und ich diese Frage dahingehend interpretierten, dass sie fragten, warum die Wahrscheinlichkeit keine Dichtefunktion ist, als Funktion von $\theta$ also scheinen wir unterschiedliche Fragen zu beantworten. Die Wahrscheinlichkeit ist natürlich die Dichtefunktion der Beobachtungen (bei gegebenem Parameterwert) - so ist es definiert.

Makro

2

Michael, ich denke, wir haben es so interpretiert, weil die Wahrscheinlichkeit eine Funktion von

ist. Wenn es also eine Dichte wäre, dann wäre es eine Dichte in

. Ich kann mir vorstellen, es so zu interpretieren, wie Sie es getan haben, aber diese Möglichkeit ist mir erst eingefallen, nachdem ich Nestors Kommentar gelesen habe.

θ

$\theta$

θ

$\theta$

Makro

4

Ich finde, dass die Mehrdeutigkeit durch diese Antwort erzeugt wird, aber in der Frage nicht vorhanden ist. Wie @Macro betont, ist die Wahrscheinlichkeit , dass eine Funktion nur des Parameters. ( ZB "Die Dichte

, betrachtet für festes

als Funktion von

f (x_{1}, θ) \dots f (x_{n}, θ)

$f(x_1,\theta)\cdots f(x_n,\theta)$

x

$x$

θ

$\theta$ , wird Wahrscheinlichkeitsfunktion genannt : EL Lehmann, Theorie der Punktschätzung , Abschnitt 6.2.) Somit ist die Frage klar: Die Antwort darauf, dass die "Wahrscheinlichkeit die gemeinsame Wahrscheinlichkeitsdichte ist", klärt das Problem nicht, sondern verwirrt es.

Whuber

1

Ich bin kein Statistiker, aber ich verstehe, dass die Wahrscheinlichkeitsfunktion selbst in Bezug auf die Parameter kein PDF ist, sie jedoch nach Bayes-Regel in direktem Zusammenhang mit diesem PDF steht. Die Wahrscheinlichkeitsfunktion P (X | Theta) und die hintere Verteilung f (Theta | X) sind eng miteinander verbunden. überhaupt nicht "eine ganz andere Sache".

Santayana
quelle

1

Willkommen auf unserer Webseite! Möglicherweise finden Sie in den Kommentaren zu anderen Antworten in diesem Thread interessantes Material. Einige von ihnen weisen darauf hin, warum die Bayes-Regel nur anwendbar ist, wenn zusätzliche mathematische Maschinen explizit eingeführt werden (z. B. ein Sigma-Feld für den Parameter).

whuber

Danke @whuber. Ich habe keine Hinweise auf die Bayes-Regel an anderer Stelle im Thread bemerkt, aber ich nehme an, dass die Kommentare Anspielungen enthalten, vorausgesetzt, man spricht mit hinreichender Wahrscheinlichkeit auf der Graduiertenebene fließend darüber (was ich nicht bin). Würden Sie nicht zustimmen, dass die Platzierung der Wahrscheinlichkeitsfunktion in den Kontext der Bayes-Regel eine nützliche Intuition für die Frage des OP darstellt?

Santayana

θ

$\theta$

θ

$\theta$

Ich entschuldige mich, auf den ersten Blick schien dieser Thread nicht viel mehr als ein Missverständnis zu sein, aber jetzt sehe ich die relevanten Kommentare, auf die Sie sich beziehen, insbesondere Ihr Zitat von Fisher. Kommt es nicht zu einer Debatte zwischen Bayesian und Frequentist? Gibt es nicht eine große Anzahl von Praktizierenden der Bayes'schen Folgerung, die sich für eine Wahrscheinlichkeitsverteilung für Theta aussprechen würden? (ob Sie mit ihnen einverstanden sind, ist eine andere Sache ...)

Santayana

1

θ

$\theta$

1

$\mathcal{L}(\theta; x_1,...,x_n) = f(x_1,...,x_n; \theta)$ , wo , wenn f (x, θ) ist eine Wahrscheinlichkeitsfunktion, dann die Wahrscheinlichkeit ist immer kleiner als eins, aber wenn f (x; & thgr;) eine Wahrscheinlichkeitsdichtefunktion ist, dann kann die Wahrscheinlichkeit größer als eins sein, da Dichten größer als eins sein können.

$\mathcal{L}(\theta; x_1,...,x_n) = f(x_1,...,x_n; \theta) = \prod_{j} f(x_j; \theta)$

Sehen wir uns die ursprüngliche Form an:

$f(x_1,...,x_n; \theta) = \frac{f(\theta; x_1,...,x_n) * f(x_1,...,x_n)}{f(\theta)}$ $\hat{\mathcal{L}} = \frac{posterior * evidence}{prior}$ $\hat{\mathcal{L}}$ $\mathcal{L}$ $\mathcal{L}$ $\hat{\mathcal{L}}$

Zum Beispiel kenne ich den Mittelwert und die Standardvarianz einer Gaußschen Verteilung nicht und möchte sie durch Training mit vielen Proben aus dieser Verteilung erhalten. Ich initialisiere zuerst den Mittelwert und die Standardvarianz zufällig (was eine Gaußsche Verteilung definiert), nehme dann eine Stichprobe und passe sie in die geschätzte Verteilung an, und ich kann eine Wahrscheinlichkeit aus der geschätzten Verteilung erhalten. Dann setze ich die Stichprobe fort und erhalte viele, viele Wahrscheinlichkeiten. Dann multipliziere ich diese Wahrscheinlichkeiten und erhalte eine Punktzahl. Diese Art von Punktzahl ist die Wahrscheinlichkeit. Es kann kaum eine Wahrscheinlichkeit für ein bestimmtes PDF sein.

Lerner Zhang
quelle

Was ist der Grund, warum eine Likelihood-Funktion kein PDF ist?

Antworten: