Wird der Missbrauch durch die maschinelle Lerngemeinschaft "bedingt" und "parametrisiert durch"?

13

Angenommen, ist abhängig von . Genau genommenXα

  • wenn und beide Zufallsvariablen sind, könnten wir schreiben ;α p ( X α )Xαp(Xα)

  • Wenn jedoch X eine Zufallsvariable und α ein Parameter ist, müssen wir schreiben p(X;α).

Ich stelle mehrmals fest, dass die Community für maschinelles Lernen die Unterschiede zu ignorieren scheint und die Begriffe missbraucht.

Zum Beispiel im berühmten LDA-Modell, bei dem α der Dirichlet-Parameter anstelle einer Zufallsvariablen ist.

Bildbeschreibung hier eingeben

Sollte es nicht ? Ich sehe viele Leute, einschließlich der ursprünglichen Autoren des LDA-Papiers, die es als p ( θ α ) schreiben .p(θ;α)p(θα)

Spielende Geschwister
quelle
6
Mathematisch gesehen können Sie immer an eine Konstante konditionieren, da dies ein Grenzfall für Zufallsvariablen ist. Aus Bayes-Sicht werden alle Unbekannten als Zufallsvariablen behandelt, daher ist es sinnvoll, die Konditionierungsnotation überall zu verwenden.
Xi'an,
1
@ Xi'an Ich verstehe Ihren Punkt auf "Konditionierung auf einer Konstanten". Aber stellen Sie sich vor, ich ziehe aus einer kategorialen Verteilung von Parameter θ , dh X C a t ( θ ) . Kann ich die Verteilung als p ( X θ ) schreiben ? Das kommt mir komisch vor, da man immer ein festes θ setzen kann . p ( X ; θ ) sieht für mich angenehmer aus. XθXCeint(θ)p(Xθ)θp(X;θ)
Sibbs Gambling
4
Ich sehe das Problem nicht, wenn ich in diesem speziellen Fall schreibe . Erneut ebnet die Verwendung von bedingten Notationen die Möglichkeit, vorherige Verteilungen für jeden unbekannten Parameter einzuführen. p(Xθ)
Xi'an

Antworten:

14

Ich denke, das ist mehr über Bayesian / Nicht-Bayesian-Statistiken als über maschinelles Lernen vs. Statistik.

In der Bayes'schen Statistik werden Parameter ebenfalls als Zufallsvariablen modelliert. Wenn Sie eine gemeinsame Verteilung für , p ( X α ) eine bedingte Verteilung, unabhängig von der physikalischen Interpretation von X und α . Wenn man nur feste αs berücksichtigt oder auf andere Weise keine Wahrscheinlichkeitsverteilung über α legt , sind die Berechnungen mit p ( X ; α ) genau die gleichen wie mit p ( X α ) mit p ( αX,αp(Xα)Xαααp(X;α)p(Xα) . Darüber hinaus kann man jederzeit entscheiden, das Modell mit festen Werten von α auf einenWert zu erweitern, bei demeine vorherige Verteilung über α vorliegt . Für mich zumindest scheint es seltsamdass die Notation für die Verteilung-given- α an dieser Stelle ändern sollte, weshalb einige Bayesianer bevorzugen auch die Konditionierung Schreibweise zu benutzenwenn man nicht hat (noch?) Gestört alle Parameter als Zufallsvariablen zu definieren .p(α)ααα

Argumente dafür, ob man als p ( X α ) schreiben kann, wurden auch in Kommentaren von Andrew Gelmans Blog-Post Misunderstanding the p- value laut . Zum Beispiel war Larry Wasserman der Meinung, dass nicht erlaubt ist, wenn es keine Konditionierung von der Fuge gibt, während Andrew Gelman der gegenteiligen Meinung war.p(X;α)p(Xα)p

Juho Kokkala
quelle