Wenn eine konvexe Funktion ist, dann besagt Jensens Ungleichung, dass ist und mutatis mutandis, wenn konkav ist. Natürlich kann man im schlimmsten Fall in Bezug auf für ein konvexes , aber gibt es eine Grenze, die in diese Richtung geht, wenn ist konvex, aber "nicht zu konvex"? Gibt es eine Standardgrenze, die Bedingungen für eine konvexe Funktion f liefert(und möglicherweise auch die Verteilung, falls erforderlich), anhand derer Sie schließen können, dass , wobei eine Funktion der Krümmung / des Konvexitätsgrades von ? Vielleicht so etwas wie ein Lipschitz-Zustand?
21
Antworten:
EDIT: Originalversion hat einen absoluten Wert verfehlt. Es tut uns leid!!
Hallo Ian. Ich werde kurz zwei Beispielungleichungen skizzieren, eine mit einer Lipschitz-Bindung, die andere mit einer Bindung an die zweite Ableitung, und dann einige Schwierigkeiten in diesem Problem diskutieren. Obwohl ich überflüssig bin, stellt sich heraus, dass die Version der zweiten Ableitung recht gut ist, da ein Ansatz mit einer Ableitung erklärt, was mit mehr Ableitungen (über Taylor) passiert.
Erstens mit einer Lipschitz-Bindung: Überarbeiten Sie einfach die standardmäßige Jensen-Ungleichung. Der gleiche Trick gilt: Berechnen Sie die Taylor-Erweiterung zum erwarteten Wert.
Insbesondere sei das entsprechende Maß μ und setze m : = E ( x ) . Wenn f die Lipschitz-Konstante L hat , dann nach Taylors TheoremX μ m:=E(x) f L
wobei (beachte , dass x ≤ m , und x > m sind möglich). Verwenden Sie dies und überarbeiten Sie den Jensen-Beweis (ich bin paranoid und habe überprüft, dass der Standard tatsächlich auf Wikipedia ist).z∈ [ m , x ] x≤m x>m
Nun nehmen wir . In diesem Fall,|f′′(x)|≤λ
und so
Ich möchte kurz ein paar Dinge erwähnen. Entschuldigung, wenn sie offensichtlich sind.
Zum einen kann man nicht einfach "wlog " sagen, indem man die Verteilung verschiebt, weil man die Beziehung zwischen f und μ ändert .E(X)=0 f μ
Als nächstes muss die Grenze in irgendeiner Weise von der Verteilung abhängen. Um dies zu sehen, stellen Sie sich vor, dass und f ( x ) = x 2 sind . Unabhängig vom Wert von σ erhalten Sie immer noch f ( E ( X ) ) = f ( 0 ) = 0 . Andererseits ist E ( f ( X ) ) = E ( XX∼Gaussian(0,σ2) f(x)=x2 σ f(E(X))=f( 0 ) = 0 . Durch Ändern von σ können Sie also die Lücke zwischen den beiden Größen beliebig machen! Intuitiv wird mehr Masse vom Mittelwert weggedrückt und somit für jede streng konvexe Funktion E ( f ( X ) )E( f( X) ) = E( X2) = σ2 σ E( f( X) ) zu.
Schließlich verstehe ich nicht, wie man eine Multiplikationsgrenze erhält, wie Sie vorschlagen. Alles, was ich in diesem Beitrag verwendet habe, ist Standard: Taylors Theorem und Derivatgrenzen sind in Statistikgrenzen Brot und Butter, und sie ergeben automatisch additive, nicht multiplikative Fehler.
Ich werde aber darüber nachdenken und etwas posten. Vage Intuition ist, dass es sehr anstrengende Bedingungen sowohl für die Funktion als auch für die Verteilung erfordert und dass der gebundene Zusatzstoff tatsächlich das Herzstück ist.
quelle
Betrachten Sie eine Verteilung, die sich auf zwei Werte konzentriert. sagen wir mit gleichen Wahrscheinlichkeiten von 1/2, dass es gleich 1 oder 3 ist, woher . Nehmen N > > 0 und ε > 0 . Betrachten Sie Funktionen f, für die f ( 1 ) = f ( 3 ) = N ϵ und f ( E [ x ] ) = f ( 2 ) = ϵ . IndemE [x]=2 N> > 0 ϵ > 0 f f( 1 ) = f( 3 ) = Nϵ f( E [ x ] ) = f( 2 ) = ϵ ausreichend klein und f stetig zwischen diesen drei Punkten verbindend, können wir die Krümmung von f so klein wie gewünscht machen. Dannϵ f f
, dennochE [f( x ) ] = Nϵ
.N= Nϵ / ϵ = E [ f( x ) ] / f( E [ x ] ) ≤ φ ( f)
Dies zeigt, dass beliebig groß sein muss.φ ( f)
quelle