Definition und Konvergenz iterativ neu gewichteter kleinster Quadrate

16

Ich habe iterativ die kleinsten Quadrate (IRLS) neu gewichtet, um Funktionen der folgenden Form zu minimieren:

J(m)=i=1Nρ(|xim|)

Dabei ist die Anzahl der Instanzen von , die robuste Schätzung, die ich möchte, und ist eine geeignete robuste Straffunktion. Nehmen wir an, es ist konvex (wenn auch nicht unbedingt streng) und vorerst differenzierbar. Ein gutes Beispiel für eine solche ist die Huber-Verlustfunktion .NxiRmRρρ

Was ich getan habe, ist, in Bezug auf differenzieren (und zu manipulieren), um zu erhalten,J(m)m

dJdm=i=1Nρ(|xim|)|xim|(xim)

und iteratives Lösen, indem es gleich 0 gesetzt und die Gewichte bei der Iteration auf (beachte, dass die wahrgenommene Singularität bei wirklich eine entfernbare Singularität in allen , die mich interessieren könnten). Dann erhalte ich,kwi(k)=ρ(|xim(k)|)|xim(k)|xi=m(k)ρ

i=1Nwi(k)(xim(k+1))=0

und ich löse, um zu erhalten, .m(k+1)=i=1Nwi(k)xii=1Nwi(k)

Ich wiederhole diesen Fixpunktalgorithmus bis zur "Konvergenz". Ich werde feststellen, dass Sie optimal sind, wenn Sie an einen festen Punkt gelangen, da Ihre Ableitung 0 ist und es sich um eine konvexe Funktion handelt.

Ich habe zwei Fragen zu diesem Verfahren:

  1. Ist dies der Standard-IRLS-Algorithmus? Nach dem Lesen mehrerer Artikel zum Thema (und sie waren sehr verstreut und vage darüber, was IRLS ist) ist dies die konsistenteste Definition des Algorithmus, den ich finden kann. Ich kann die Papiere posten, wenn die Leute wollen, aber ich wollte eigentlich niemanden hier voreingenommen machen. Natürlich können Sie diese grundlegende Technik auf viele andere Arten von Problemen verallgemeinern, die Vektor und andere Argumente als betreffen Die Angabe des Arguments ist eine Norm einer affinen Funktion Ihrer Parameter. Jede Hilfe oder Einsicht wäre großartig.| x i - m ( k ) |xi|xim(k)|
  2. Konvergenz scheint in der Praxis zu funktionieren, aber ich habe einige Bedenken. Ich habe noch keinen Beweis dafür zu sehen. Nach einigen einfachen Matlab-Simulationen sehe ich, dass eine Iteration davon keine Kontraktionsabbildung ist (ich habe zwei zufällige Instanzen von generiert und und sah, dass dies gelegentlich größer als 1 ist). Auch das durch mehrere aufeinanderfolgende Iterationen definierte Mapping ist nicht unbedingt ein Kontraktions-Mapping, aber die Wahrscheinlichkeit, dass die Lipschitz-Konstante über 1 liegt, wird sehr gering. Gibt es also eine Vorstellung von einer Kontraktionskartierung der Wahrscheinlichkeit ? Mit welcher Maschinerie würde ich beweisen, dass dies konvergiert? Konvergiert es überhaupt?| m 1 ( k + 1 ) - m 2 ( k + 1 ) |m|m1(k+1)m2(k+1)||m1(k)m2(k)|

Jede Anleitung ist hilfreich.

Edit: Ich mag das Papier über IRLS für die sparsame Wiederherstellung / Druckmessung von Daubechies et al. 2008 "Iterativ neu gewichtete Minimierung der kleinsten Quadrate für eine sparsame Wiederherstellung" auf dem arXiv. Es scheint sich jedoch hauptsächlich auf Gewichte für nicht konvexe Probleme zu konzentrieren. Mein Fall ist wesentlich einfacher.

Chris A.
quelle
Wenn ich mir die Wiki-Seite über IRWLS ansehe, habe ich Probleme mit dem Unterschied zwischen der von Ihnen beschriebenen Prozedur und IRWLS (sie verwenden einfach als ihre spezielle Funktion). Können Sie erklären , auf welche Weise denken Sie der Algorithmus Sie vorschlagen , ist verschieden von IRWLS? ρ|yixxiββ|2ρ
user603
Ich habe nie gesagt, dass es anders ist, und wenn ich es andeute, wollte ich es nicht.
Chris A.

Antworten:

10

Bei Ihrer ersten Frage sollte man "Standard" definieren oder anerkennen, dass nach und nach ein "kanonisches Modell" erstellt wurde. Wie ein Kommentar zeigt, scheint es zumindest so, als ob die Art und Weise, wie Sie IRWLS verwenden, eher Standard ist.

Was Ihre zweite Frage betrifft, könnte "Kontraktionsabbildung in der Wahrscheinlichkeit" (jedoch informell) mit der Konvergenz von "rekursiven stochastischen Algorithmen" verbunden sein. Nach allem, was ich lese, gibt es eine riesige Literatur zu diesem Thema, hauptsächlich im Ingenieurwesen. In Economics verwenden wir ein winziges Stück davon, insbesondere die wegweisenden Arbeiten von Lennart Ljung - das erste Papier war Ljung (1977) -, die zeigten, dass die Konvergenz (oder nicht) eines rekursiven stochastischen Algorithmus durch die Stabilität (oder nicht) einer verwandten gewöhnlichen Differentialgleichung.

(Das Folgende wurde nach einer fruchtbaren Diskussion mit dem OP in den Kommentaren überarbeitet.)

Konvergenz

Ich werde Sabre Elaydi "An Introduction to Difference Equations", 2005, 3d ed als Referenz verwenden . Die Analyse hängt von einer bestimmten Datenstichprobe ab, sodass die Werte als fest behandelt werden. xs

Die Bedingung erster Ordnung für die Minimierung der Zielfunktion, betrachtet als rekursive Funktion in , m ( k + 1 ) = N Σ i = 1 v i [ m ( k ) ] x i ,m

m(k+1)=ich=1Nvich[m(k)]xich,vich[m(k)]wich[m(k)]ich=1Nwich[m(k)][1]

hat einen festen Punkt (das Argmin der Zielfunktion). Nach Theorem 1.13, S. 27-28 von Elaydi ist, wenn die erste Ableitung in Bezug auf der RHS von , die am Fixpunkt ausgewertet wird , , kleiner als Eins in Absolutwert, dann ist asymptotisch stabil (AS). Weiter haben wir nach Satz 4.3 S.179, dass dies auch impliziert, dass der Fixpunkt einheitlich AS (UAS) ist. "Asymptotisch stabil" bedeutet, dass für einen gewissen Wertebereich um den Fixpunkt, eine Nachbarschaft , die nicht notwendigerweise klein ist, der Fixpunkt attraktiv ist[ 1 ] m * A ' ( m * ) m * ( m * ± γ ) γ = m[1]mEIN(m)m
(m±γ)Wenn der Algorithmus also Werte in dieser Nachbarschaft angibt, konvergiert er. Die Eigenschaft "einheitlich" bedeutet, dass die Grenze dieser Nachbarschaft und damit ihre Größe unabhängig vom Anfangswert des Algorithmus ist. Der Fixpunkt wird global UAS, wenn . Also in unserem Fall, wenn wir das beweisenγ=

|EIN(m)||ich=1Nvich(m)mxich|<1[2]

Wir haben die UAS-Eigenschaft bewiesen, jedoch ohne globale Konvergenz. Dann können wir entweder versuchen festzustellen, dass die Nachbarschaft der Anziehung tatsächlich die ganzen erweiterten reellen Zahlen sind, oder dass der spezifische Startwert, den das OP verwendet, wie in den Kommentaren erwähnt (und er ist Standard in der IRLS-Methodik), dh der Stichprobenmittelwert von den 's gehört immer zur Nachbarschaft der Anziehungskraft des Fixpunktes.ˉ xxx¯

Wir berechnen die Ableitung

vich(m)m=wich(m)mich=1Nwich(m)-wich(m)ich=1Nwich(m)m(ich=1Nwich(m))2

=1ich=1Nwich(m)[wich(m)m-vich(m)ich=1Nwich(m)m]
Dann

EIN(m)=1ich=1Nwich(m)[ich=1Nwich(m)mxich-(ich=1Nwich(m)m)ich=1Nvich(m)xich]

=1ich=1Nwich(m)[ich=1Nwich(m)mxich-(ich=1Nwich(m)m)m]

und

|EIN(m)|<1|ich=1Nwich(m)m(xich-m)|<|ich=1Nwich(m)|[3]

wir haben

wich(m)m=-ρ(|xich-m|)xich-m|xich-m||xich-m|+xich-m|xich-m|ρ(|xich-m|)|xich-m|2=xich-m|xich-m|3ρ(|xich-m|)-ρ(|xich-m|)xich-m|xich-m|2=xich-m|xich-m|2[ρ(|xich-m|)|xich-m|-ρ(|xich-m|)]=xich-m|xich-m|2[wich(m)-ρ(|xich-m|)]

Einfügen in wir[3]

|ich=1Nxich-m|xich-m|2[wich(m)-ρ(|xich-m|)](xich-m)|<|ich=1Nwich(m)|

|ich=1Nwich(m)-ich=1Nρ(|xich-m|)|<|ich=1Nwich(m)|[4]

Dies ist die Bedingung, die erfüllt sein muss, damit der Festpunkt UAS ist. Da in unserem Fall die Straffunktion konvex ist, sind die Beträge positiv. Bedingung ist also äquivalent zu[4]

ich=1Nρ(|xich-m|)<2ich=1Nwich(m)[5]

Wenn Huberts Verlustfunktion ist, dann haben wir einen quadratischen ( ) und einen linearen ( ) Zweig,ρ(|xich-m|)ql

ρ(|xich-m|)={(1/2)|xich-m|2|xich-m|δδ(|xich-m|-δ/2)|xich-m|>δ

und

ρ(|xich-m|)={|xich-m||xich-m|δδ|xich-m|>δ

ρ(|xich-m|)={1|xich-m|δ0|xich-m|>δ

{wich,q(m)=1|xich-m|δwich,l(m)=δ|xich-m|<1|xich-m|>δ

Da wir nicht wissen, wie viele der uns in den quadratischen Zweig und wie viele in den linearen, zerlegen wir Bedingung als ( )|xich-m|[5]Nq+Nl=N

ich=1Nqρq+ich=1Nlρl<2[ich=1Nqwich,q+ich=1Nlwich,l]

Nq+0<2[Nq+ich=1Nlwich,l]0<Nq+2ich=1Nlwich,l

was gilt. Für die Huber-Verlustfunktion ist der Fixpunkt des Algorithmus also unabhängig von den -Werten gleichmäßig asymptotisch stabil . Wir stellen fest, dass die erste Ableitung für jedes kleiner als die absolute Einheit ist , nicht nur für den festen Punkt. xm

Was wir jetzt tun sollten, ist entweder zu beweisen, dass die UAS-Eigenschaft auch global ist, oder dass, wenn dann zur Nachbarschaft der Anziehungskraft von .m(0)=x¯m(0)m

Alecos Papadopoulos
quelle
Danke für die Antwort. Geben Sie mir etwas Zeit, um diese Antwort zu analysieren.
Chris A.
Bestimmt. Immerhin wartete die Frage 20 Monate.
Alecos Papadopoulos
Ja, ich wurde an das Problem erinnert und beschloss, ein Kopfgeld zu zahlen. :)
Chris A.
Ich Glückspilz. Ich war vor 20 Monaten nicht dort - ich hätte diese Frage aufgegriffen, Kopfgeld oder nicht.
Alecos Papadopoulos
Vielen Dank für diese Antwort. Es sieht so aus, als hättest du dir das Kopfgeld verdient. Übrigens, Ihre Indizierung auf die Ableitung von wrt ist merkwürdig. Konnten die Summierungen in der zweiten Zeile dieses Dokuments keine andere Variable wie ? vichmj
Chris A.