Was bedeutet es, einen Wahrscheinlichkeitsvektor aus einer Dirichlet-Verteilung abzutasten?

8

Ich lerne im Wesentlichen etwas über Latent Dirichlet Allocation. Ich schaue mir hier ein Video an: http://videolectures.net/mlss09uk_blei_tm/ und stecke in Minute 45 fest, als er anfing, die Stichproben aus der Distribution zu erklären.

Außerdem habe ich versucht, ein Buch über maschinelles Lernen zu konsultieren, das keine detaillierte Einführung in die Dirichelt-Distribution enthält. In dem Buch, das ich lese, wurde ein Beispiel zum Abtasten von "Wahrscheinlichkeitsvektoren" aus der Dirichlet-Verteilung erwähnt, aber was bedeutet das?

Ich verstehe Stichproben aus einer Verteilung als Zufallswerte für die Zufallsvariablen entsprechend der Verteilung. Lassen Sie also p_X, Y (x, y), aber die pmf einer Verteilung, Stichproben aus dieser Verteilung bedeuten, dass ich einen Zufall (x, y) erhalte (dh Zufallswerte für x und y). Um die Wahrscheinlichkeit des Erhaltens des Ereignisses (X = x UND Y = y) zu erhalten, bewerten wir die pmf der Verteilung ... also erhalten wir nur eine Zahl. Aber was sind hier "Wahrscheinlichkeitsvektoren" !!

Ich habe einen Screenshot für das Buch angehängt. Ich hoffe wirklich, dass Sie helfen können!

Geben Sie hier die Bildbeschreibung ein

Jack Twain
quelle
2
Ich denke, der Wahrscheinlichkeitsvektor ist genau das, was Sie mit der Dirichlet-Verteilung abtasten. Beispiel: (0,5, 0,4, 0,1) ist ein Vektor und wird verwendet, um die Proportionen / Wahrscheinlichkeiten einer Verteilung einer Variablen mit 3 Klassen darzustellen.
Scratch
@Scratch Wenn Sie 3 Klassen sagten, bedeutet das eine Zufallsvariable, die nur für 3 diskrete Werte definiert ist, oder?
Jack Twain
1
Grundsätzlich repräsentiert also jede Probe aus einem Dirichlet eine Verteilung über K Klassen.
Jack Twain
2
Ja, die Dirichlet-Verteilung wurde für diese Art von Problemen erstellt: Simulation einer Verteilung über Klassen.
Scratch
@Scratch können Sie bitte meine Frage hier sehen stats.stackexchange.com/questions/81136/…
Jack Twain

Antworten:

8

Eine Dirichlet-Verteilung wird häufig verwendet, um Ereignisse wahrscheinlich in mehrere Kategorien einzuteilen. Angenommen, Wetterereignisse nehmen eine Dirichlet-Verteilung an. Wir könnten dann denken, dass das Wetter von morgen eine Wahrscheinlichkeit von 0,25, eine Regenwahrscheinlichkeit von 0,5 und eine Schneewahrscheinlichkeit von 0,25 hat. Durch das Sammeln dieser Werte in einem Vektor wird ein Vektor von Wahrscheinlichkeiten erstellt.

Eine andere Möglichkeit, über eine Dirichlet-Verteilung nachzudenken, ist das Brechen eines Sticks. Stellen Sie sich einen Stab mit Einheitslänge vor. Brechen Sie diesen Stock irgendwo und behalten Sie eines der beiden Teile. Brechen Sie dann das verbleibende Stück in zwei Teile und setzen Sie dies so lange fort, wie Sie möchten. Alle Teile zusammen müssen sich zu einer Längeneinheit summieren, und die Zuordnung von Teilen unterschiedlicher Länge zu verschiedenen Ereignissen repräsentiert die Wahrscheinlichkeit dieses Ereignisses.

θθθθθB(α,β)α>ββ>α

P(θ<0.25)=0.5P(θ0.25)=0.5

Wenn wir die Beta-Verteilung auf drei oder mehr Kategorien erweitern, erhalten wir die Dirichlet-Verteilung. In der Tat ist das PDF des Dirichlets für zwei Gruppen genau das gleiche wie die Beta-Distribution.

Sycorax sagt Reinstate Monica
quelle