Diese Frage ist also etwas umständlich, aber ich habe sorgfältig versucht, sie so einfach wie möglich zu gestalten.
Ziel: Kurz gesagt, es gibt eine Ableitung von Negentropie, die keine Kumulanten höherer Ordnung beinhaltet, und ich versuche zu verstehen, wie sie abgeleitet wurde.
Hintergrund: (Ich verstehe das alles)
Ich lerne selbst das Buch 'Independent Component Analysis' , das hier zu finden ist. (Diese Frage stammt aus Abschnitt 5.6, falls Sie das Buch "Approximation der Entropie durch nichtpolynomielle Funktionen" haben.)
Wir haben , eine Zufallsvariable, und deren Negentropie wir aus einigen Beobachtungen abschätzen möchten. Das PDF von ist gegeben durch . Negentropie ist einfach die Differenz zwischen der Differentialentropie einer standardisierten Gaußschen Zufallsvariablen und der Differentialentropie von . Die Differentialentropie ist hier durch , so dass:
und so ist die Negentropie gegeben durch
wobei ein standardisiertes Gaußsches rv ist, wobei PDF durch .
Als Teil dieser neuen Methode hat mein Buch eine Schätzung des PDF von , die gegeben ist durch:
(Wobei . By the way, ich bin nicht eine Macht, sondern ein Index statt).
Im Moment 'akzeptiere' ich diese neue PDF-Formel und werde sie an einem anderen Tag danach fragen. Dies ist nicht mein Hauptproblem. Was er jetzt tut, ist, diese Version des PDFs von wieder in die Negentropie-Gleichung einzubinden und am Ende Folgendes zu erhalten:
Denken Sie daran, dass das Sigma (hier und für den Rest des Beitrags) nur den Index . Wenn wir zum Beispiel nur zwei Funktionen hätten, würde sich das Signal für i = 2 und i = 2 schleifen . Natürlich sollte ich Ihnen etwas über die Funktionen erzählen, die er verwendet. Offensichtlich sind diese Funktionen F i wie folgt definiert:
Die Funktionen sind nicht Polynomfunktionen in diesem Fall. (Wir nehmen an, dass rv x der Mittelwert Null und die Einheitsvarianz ist.) Nehmen wir nun einige Einschränkungen vor und geben Sie die Eigenschaften dieser Funktionen an:
Zur Vereinfachung der Berechnungen, lassen Sie uns machen eine andere, rein technische Annahme: Die Funktionen , bilden ein orthonormales System als solches:
und
Fast dort! OK, all das war der Hintergrund und nun zur Frage. Die Aufgabe besteht darin, dieses neue PDF einfach in die Differential-Entropie-Formel einzufügen . Wenn ich das verstehe, werde ich den Rest verstehen. Jetzt gibt das Buch die Herleitung (und ich stimme dem zu), aber ich stecke gegen Ende fest, weil ich nicht weiß / sehe, wie es sich aufhebt. Außerdem weiß ich nicht, wie ich die Small-O-Notation aus der Taylor-Erweiterung interpretieren soll.
Das ist das Ergebnis:
Verwenden der Taylor - Erweiterung , fürH(x) erhaltenwir:
und so
Die Frage: (Ich verstehe das nicht)
Also, mein Problem: Mit Ausnahme des verstehe ich nicht, wie er die letzten 4 Terme in der letzten Gleichung erhalten hat. (dh die 0, die 0 und die letzten 2 Terme). Ich verstehe alles vorher. Er sagt, er habe die in den obigen Eigenschaften angegebenen Orthogonalitätsbeziehungen ausgenutzt, aber ich verstehe nicht, wie. (Ich verstehe auch die Kleinschreibung hier nicht im Sinne der Verwendung?)
VIELEN DANK!!!!
BEARBEITEN:
Ich habe die Bilder aus dem Buch, das ich gerade lese, hinzugefügt. Es sagt so ziemlich alles, was ich oben gesagt habe, aber nur für den Fall, dass jemand zusätzlichen Kontext benötigt.
Und hier, rot markiert, ist genau der Teil, der mich verwirrt. Wie verwendet er die Orthogonalitätseigenschaften, um den letzten Teil, in dem sich die Dinge aufheben, und die letzten Summierungen mit c 2 zu erhalten ?
quelle
Antworten:
>> So erhalten Sie die Nullterme:
Von hier aus ist zu beachten, dass in (5.39) angegeben ist, dass∫φ ( ξ) Fich( ξ) ξk ist 0 zum k = 0 , 1 , 2 . Das Integral im ersten Term rechts von Gl.( 1 ) ist von dieser Form (mit k = 2 ) und das Integral auch im zweiten Term (mit k = 0 ). Sie müssen nur diese Tatsache auf den Summen ausnutzen und Sie sind fertig!
>> Um die zu erhalten∑c2i terms:
Note that the integral to be obtained to obtain these terms is:
>> About theo(whatever) notation
I think this is pretty confusing from the authors, but I recall that they use it just to mean that there are terms of orderwhatever every time they put o(whatever) (i.e., just like the big-O notation). However, as @Macro commented on this same answer, there is a difference between the big-O notation and the little-O one. Maybe you should check by yourself and see which one suits the problem in this Wikipedia article.
PS: This is a great book by the way. The papers of the authors on the subject are also very good and are a must read if you are trying to understand and implement ICA.
quelle