Nachteile der Newton-Raphson-Näherung mit angenäherter numerischer Ableitung

Angenommen, ich habe eine Funktion $f$ und möchte $x$ so finden, dass $f(x)\approx 0$ . Ich könnte die Newton-Raphson-Methode verwenden. Dies setzt aber voraus, dass ich die Ableitungsfunktion kenne $f'(x)$ . Ein analytischer Ausdruck für $f$ möglicherweise nicht verfügbar. Zum Beispiel kann $f$ durch ein kompliziertes Stück Computercode definiert werden, das eine Datenbank von experimentellen Werten konsultiert.

Aber selbst wenn $f'$ kompliziert ist, kann ich $f'(a)$ für jedes bestimmte approximieren $a$ indem ich eine kleine Zahl $\epsilon$ wähle und berechne. $f'(a) \approx {f(a+\epsilon) - f(a)\over\epsilon}$ .

Ich habe gehört, dass dieser Ansatz deutliche Nachteile hat, weiß aber nicht, um welche es sich handelt. Wikipedia weist darauf hin, dass "die Verwendung dieser Näherung zu so etwas wie der Sekantenmethode führen würde, deren Konvergenz langsamer ist als die der Newtonschen Methode."

Kann jemand dies näher erläutern und eine Referenz bereitstellen, in der insbesondere die Probleme mit dieser Technik erörtert werden?

reference-request approximation Mark Dominus
quelle

Die Sekantenmethode ist eine hervorragende Alternative, wenn die Berechnung des Derivats teuer ist. Drei Schritte Sekante entsprechen im Allgemeinen in etwa zwei Schritten Newton, und Schritte sind billiger.

Wann immer Sie eine Ableitung numerisch nach endlicher Differenz berechnen (wie Sie vorschlagen), wird jegliches Rauschen in der Funktion verstärkt, daher müssen Sie Ihr Epsilon sorgfältig auswählen. Eine Möglichkeit ist, wenn Sie sich der Lösung nähern, zu einer binären Unterteilungsmethode zu wechseln, die garantiert konvergiert, solange f lokal monoton ist.

Mike Dunlavey

Wie von André erwähnt, entsprechen numerische Zweipunktableitungen, wie Sie vorschlagen, einer neu gestarteten Secant-Methode . Für eine schnellere Konvergenz würde ich jedoch den sogenannten Illinois-Algorithmus vorschlagen , der ein enger Verwandter der Secant-Methode ist und nur einen Punkt pro Schritt verwendet, im Gegensatz zu zwei in Ihrem Fall, und nicht so hängen bleibt wie der Falsche Positionsmethode.

Pedro

Was ist die Dimension von

? Je höher die Dimension, desto wertvoller wird ein Derivat. Jacobian-freies Newton-Krylov ist eine Option, die keine expliziten Ableitungen benötigt (obwohl Vorkonditionierung für schlecht konditionierte Systeme wichtig ist).

x

$x$

Jed Brown

Nehmen wir aus Gründen der Notation an, dass (dh, es ist eine Vektorfunktion, die einen Vektor als Eingabe annimmt und einen Vektor derselben Größe ausgibt). Es gibt zwei Bedenken: Rechenaufwand und numerische Genauigkeit. $f: \mathbb{R}^{n} \rightarrow \mathbb{R}^{n}$

Die Berechnung der Ableitung (der Jacobi-Matrix, oder oder was auch immer Sie bevorzugen) unter Verwendung endlicher Differenzen erfordert Funktionsbewertungen. Wenn Sie die Ableitung mit Gleitkomma-Arithmetik direkt aus der Definition berechnen könnten, müssten Sie den Differenzquotienten berechnen $\mathrm{D}f(x)$ $J(x)$ $(\nabla f(x))^{T}$ $n$

\begin{aligned} D f (x) e_{ich} = lim_{ε \to 0} \frac{f (x + ε e_{ich}) - f (x)}{ε} \end{aligned}

$\begin{align} \mathrm{D}f(x)e_{i} = \lim_{\varepsilon \rightarrow 0} \frac{f(x + \varepsilon e_{i}) - f(x)}{\varepsilon} \end{align}$

für jedes , vorausgesetzt, Sie führen keine "intelligente finite Differenzierung" (wie Curtis-Powell-Reid) durch, weil Sie das Sparsity-Muster von kennen (oder erkennen können) . Wenn groß ist, kann dies eine Menge von Funktionsbewertungen sein. Wenn Sie einen analytischen Ausdruck für , kann die Berechnung billiger sein. In einigen Fällen können auch automatische (auch als algorithmische bezeichnete) Differenzierungsmethoden verwendet werden, um mit etwa dem 3- bis 5-fachen der Kosten einer Funktionsbewertung zu berechnen . $i = 1, \ldots, n$ $\mathrm{D}f$ $n$ $\mathrm{D}f$ $\mathrm{D}f$

Es gibt auch numerische Bedenken. Offensichtlich können wir auf einem Computer die Grenze eines Skalars nicht nehmen, wenn es auf Null geht. Wenn wir also approximieren, wir wirklich als "klein" und berechnen $\mathrm{D}f$ $\varepsilon$

\begin{aligned} D f (x) e_{ich} \approx \frac{f (x + ε e_{ich}) - f (x)}{ε}, \end{aligned}

$\begin{align} \mathrm{D}f(x)e_{i} \approx \frac{f(x + \varepsilon e_{i}) - f(x)}{\varepsilon}, \end{align}$

Dabei bedeutet dass es sich um eine Annäherung handelt, und wir hoffen, dass es sich um eine wirklich gute Annäherung handelt. Diese Annäherung Berechnung Punktarithmetik in floating ist hart , weil , wenn Sie wählen zu groß ist , Ihre Annäherung schlecht sein könnte, aber wenn Sie wählen zu klein ist , könnte es erhebliche Rundungsfehler sein. Diese Effekte werden im Wikipedia-Artikel zur numerischen Unterscheidung in oberflächlichen Details behandelt. Detailliertere Referenzen finden Sie im Artikel. $\approx$ $\varepsilon$ $\varepsilon$

Wenn der Fehler in der Jacobi-Matrix nicht zu groß ist, konvergieren die Newton-Raphson-Iterationen. Eine detaillierte theoretische Analyse finden Sie in Kapitel 25 ( Genauigkeit und Stabilität numerischer Algorithmen) von Nick Higham oder in der ihr zugrunde liegenden Arbeit von Françoise Tisseur . $\mathrm{D}f$

Bibliotheken kümmern sich im Allgemeinen um diese algorithmischen Details, und in der Regel laufen Bibliotheksimplementierungen des Newton-Raphson-Algorithmus (oder von Varianten davon) recht gut zusammen, aber von Zeit zu Zeit gibt es ein Problem, das aufgrund der Nachteile einige Probleme verursacht über. Im skalaren Fall würde ich wegen seiner Robustheit und guten Konvergenzrate in der Praxis die Brent-Methode verwenden. $(n = 1)$

Geoff Oxberry
quelle

Nachteile der Newton-Raphson-Näherung mit angenäherter numerischer Ableitung

Antworten: