In Bishops Mustererkennung und maschinellem Lernen las ich Folgendes, unmittelbar nachdem die Wahrscheinlichkeitsdichte eingeführt wurde:
Bei einer nichtlinearen Änderung der Variablen transformiert sich eine Wahrscheinlichkeitsdichte aufgrund des Jacobi-Faktors anders als eine einfache Funktion. Wenn wir zum Beispiel eine Änderung der Variablen , wird eine Funktion zu . Betrachten Sie nun eine Wahrscheinlichkeitsdichte , die einer Dichte in Bezug auf die neue Variable , wobei die die Tatsache bezeichnen, dass und unterschiedliche Dichten sind. Beobachtungen, die in den Bereich , werden für kleine Werte von in den Bereich transformiert ) wobei und damit .
Was ist der Jacobi-Faktor und was genau bedeutet alles (vielleicht qualitativ)? Bischof sagt, dass eine Konsequenz dieser Eigenschaft ist, dass das Konzept des Maximums einer Wahrscheinlichkeitsdichte von der Wahl der Variablen abhängt. Was bedeutet das?
Für mich kommt das alles aus heiterem Himmel (wenn man bedenkt, dass es im Einführungskapitel steht). Ich würde mich über einige Hinweise freuen, danke!
Antworten:
Ich schlage vor, dass Sie die Lösung von Frage 1.4 lesen, die eine gute Intuition bietet.
Kurz gesagt, wenn Sie eine beliebige Funktion und zwei Variablen und die durch die Funktion , können Sie das Maximum der Funktion entweder durch direkte Analyse von : oder die transformierte Funktion : . Nicht überraschend, und werden als miteinander verknüpft (hier habe ich angenommen, dass .f(x) x y x=g(y) f(x) x^=argmaxx(f(x)) f(g(y)) y^=argmaxy(f(g(y)) x^ y^ x^=g(y^) ∀y:g′(y)≠0)
Dies ist bei Wahrscheinlichkeitsverteilungen nicht der Fall. Wenn Sie eine Wahrscheinlichkeitsverteilung und zwei Zufallsvariablen haben, die durch . Dann gibt es keine direkte Beziehung zwischen und . Dies geschieht aufgrund des Jacobi-Faktors, ein Faktor, der zeigt, wie das Volumen durch eine Funktion wie Relativ verändert wird .px(x) x=g(y) x^=argmaxx(px(x)) y^=argmaxy(py(y)) g(.)
quelle