Vertrauensform und Vorhersageintervalle für nichtlineare Regression

13

Sollen die Konfidenz- und Vorhersagebänder einer nichtlinearen Regression symmetrisch zur Regressionslinie sein? Das heißt, sie nehmen nicht die Sanduhrform an, wie im Fall der Bänder für die lineare Regression. Warum das?

Hier ist das fragliche Modell:

F(x)=(AD1+(xC)B)+D
Hier ist die Abbildung:

http://i57.tinypic.com/2q099ok.jpg

und hier ist die Gleichung:

Bildbeschreibung hier eingeben

Serge
quelle
Ihre Frage ist unklar, weil Sie sich von der Frage, ob sie "symmetrisch sein sollen" im 1. Satz zu der Annahme, dass sie nicht in Satz 2 sind, und der Frage (vermutlich), warum sie nicht in Satz 3 sind, bewegen Ist dies konsistenter / klarer?
gung - Reinstate Monica
OK, lassen Sie es mich so fragen - warum sind die Vertrauens- und Vorhersagebänder symmetrisch um die Regressionslinie, wenn die Regression nicht linear ist, aber eine Sanduhrform annehmen, wenn sie linear ist?
Serge
Nur ein paar Kommentare, falls sie sind keine Hilfe: es sieht aus wie Ihre Antworten nicht negativ sein muss und konvergieren auf (oder nahe daran) auf , während diese Bänder offenbar errichtet werden , ein Modell unabhängiger additiver Fehler verwenden. Das macht sie unrealistisch, besonders auf der linken Seite. Darüber hinaus legen die Muster der blauen Punkte nahe, dass der Fehler eine starke serielle Korrelation aufweist, die auch bei der Konstruktion dieser Bänder berücksichtigt werden muss. Obwohl Sie mit dieser zusätzlichen Komplexität Ihrer Daten möglicherweise nicht fertig werden möchten, um die Anpassung durchzuführen, weist dies darauf hin, dass die von Ihnen gezeichneten Bänder nicht viel wert sind. 00
Whuber
Du hast recht. Die Band überschreitet das negative Territorium. Ich interessiere mich jedoch nicht für die Werte der Bänder selbst, sondern für die EC50-Werte, die den Bandgrenzen entsprechen. Gibt es eine Alternative zum Aufbau der Bands auf diese Weise?
Serge
Ja, aber wie ich angedeutet habe, können sie kompliziert werden. Verallgemeinerte kleinste Quadrate und Zeitreihenmethoden können mit der seriellen Korrelation fertig werden. Nichtlineare Transformationen der abhängigen Variablen sind ein Werkzeug zur Behandlung nichtadditiver Fehler. Ein komplexeres Werkzeug ist ein verallgemeinertes lineares Modell. Die Auswahl hängt zum Teil von der Art der abhängigen Variablen ab. Übrigens, obwohl ich nicht sicher bin, was Sie mit "EC50-Werten" meinen (es klingt, als würden Sie Dosis-Wirkungs-Beziehungen modellieren), ist alles, was aus den abgebildeten Bändern berechnet wird, verdächtig.
Whuber

Antworten:

8

Es ist zu erwarten, dass die Konfidenz- und Vorhersagebänder in der Regel in der Nähe der Endpunkte breiter werden - und zwar aus dem gleichen Grund, aus dem sie dies bei einer normalen Regression immer tun. Im Allgemeinen führt die Parameterunsicherheit zu größeren Intervallen in der Nähe der Enden als in der Mitte

Sie können dies leicht genug durch Simulation sehen, entweder durch Simulieren von Daten aus einem gegebenen Modell oder durch Simulieren aus der Stichprobenverteilung des Parametervektors.

Die üblichen (ungefähr korrekten) Berechnungen für die nichtlineare Regression beinhalten eine lokale lineare Approximation (wie in Harveys Antwort angegeben), aber auch ohne diese können wir eine Vorstellung davon bekommen, was vor sich geht.

Das Durchführen der tatsächlichen Berechnungen ist jedoch nicht trivial und es kann sein, dass Programme eine Verknüpfung in der Berechnung verwenden, die diesen Effekt ignoriert. Es ist auch möglich, dass bei einigen Daten und Modellen der Effekt relativ gering und schwer zu erkennen ist. In der Tat kann es bei Vorhersageintervallen, insbesondere bei großen Varianzen, aber vielen Daten, manchmal schwierig sein, die Kurve in einer normalen linearen Regression zu sehen - sie können fast gerade aussehen und es ist relativ einfach, Abweichungen von der Geradheit zu erkennen.

Hier ist ein Beispiel dafür, wie schwierig es sein kann, nur mit einem Konfidenzintervall für den Mittelwert zu sehen (Vorhersageintervalle können viel schwerer zu erkennen sein, da ihre relative Variation so viel geringer ist). Hier sind einige Daten und eine nichtlineare Anpassung der kleinsten Quadrate mit einem Konfidenzintervall für den Populationsmittelwert (in diesem Fall generiert aus der Stichprobenverteilung, da ich das wahre Modell kenne, aber etwas sehr Ähnliches könnte durch asymptotische Approximation oder durch Bootstrapping erfolgen):

Bildbeschreibung hier eingeben

Die violetten Grenzen sehen fast parallel zu den blauen Vorhersagen aus ... sind es aber nicht. Hier ist der Standardfehler der Stichprobenverteilung dieser mittleren Vorhersagen:

Bildbeschreibung hier eingeben

was eindeutig nicht konstant ist.


Bearbeiten:

Diese "sp" -Ausdrücke, die Sie gerade gepostet haben, stammen direkt aus dem Vorhersageintervall für die lineare Regression!

Glen_b - Setzen Sie Monica wieder ein
quelle
Wollen Sie auch sagen, dass die Zunahme der Parameterunsicherheit, wenn man sich von der Mitte entfernt, dazu führen sollte, dass sich das Band auch bei nichtlinearer Regression an den Enden verbreitert, dies aber nicht so offensichtlich ist? Oder gibt es einen theoretischen Grund, warum diese Erweiterung bei nichtlinearer Regression nicht auftritt? Meine Bands sehen auf jeden Fall sehr symmetrisch aus.
Serge
1
Diese Verbreiterung sollte typisch sein, aber sie wird nicht bei jedem nichtlinearen Modell auf die gleiche Weise auftreten und wird nicht bei jedem Modell so offensichtlich sein, und weil dies nicht so einfach ist, kann sie von einem bestimmten Programm möglicherweise nicht auf diese Weise berechnet werden . Ich weiß nicht, wie die Bands, die Sie ansehen, berechnet wurden - ich bin kein Gedankenleser, und ich kann den Code eines Programms nicht sehen, dessen Namen Sie nicht einmal erwähnt haben.
Glen_b -Reinstate Monica
@ user1505202, diese Frage ist schwer zu beantworten. Können Sie angeben, was Ihr Modell ist (seine funktionale Form)? Können Sie ein Bild der Figur anhängen, das Sie verwirrt?
gung - Reinstate Monica
1
Vielen Dank. Ich habe die Zahlen und sie sind im Wesentlichen konstant - die Differenz zwischen der Regressionslinie und jeder Vorhersagegrenze reicht von 18,21074 in der Mitte bis 18,24877 an den Enden. Also eine leichte Verbreiterung, aber sehr geringfügig. Übrigens, @gung, ich habe die Gleichung, die das Vorhersageintervall berechnet. Es ist:Y-hat +/- sp(Y-hat)
Serge
1
Das ist ungefähr die Art von Variation, die Sie bei einem Vorhersageintervall mit großen Stichproben sehen können. Was ist sp?
Glen_b -Reinstate Monica
5

Die Mathematik der Berechnung des Vertrauens und der Vorhersagebänder von Kurven, die durch nichtlineare Regression angepasst werden, werden auf dieser Seite mit Kreuzvalidierung erläutert . Es zeigt, dass die Bänder nicht immer / normalerweise symmetrisch sind.

Und hier ist eine Erklärung mit mehr Worten und weniger Mathematik:

Definieren wir zunächst G | x, das ist der Gradient der Parameter bei einem bestimmten Wert von X und unter Verwendung aller am besten passenden Werte der Parameter. Das Ergebnis ist ein Vektor mit einem Element pro Parameter. Für jeden Parameter wird er als dY / dP definiert, wobei Y der Y-Wert der Kurve ist, wenn der jeweilige Wert von X und alle am besten passenden Parameterwerte angegeben sind, und P einer der Parameter ist.)

G '| x ist der transponierte Gradientenvektor, es handelt sich also eher um eine Spalte als um eine Reihe von Werten. Cov ist die Kovarianzmatrix (inverses Hessisch aus der letzten Iteration). Es ist eine quadratische Matrix mit der Anzahl der Zeilen und Spalten, die der Anzahl der Parameter entspricht. Jedes Element in der Matrix ist die Kovarianz zwischen zwei Parametern. Wir verwenden Cov, um auf die normalisierte Kovarianzmatrix Bezug zu nehmen , wobei jeder Wert zwischen -1 und 1 liegt.

Jetzt rechnen

c = G '| x * Cov * G | x.

Das Ergebnis ist eine einzelne Zahl für einen beliebigen Wert von X.

Die Konfidenz- und Vorhersagebänder sind auf die Best-Fit-Kurve zentriert und erstrecken sich über und unter der Kurve um den gleichen Betrag.

Die Konfidenzbänder erstrecken sich über und unter der Kurve um:

= sqrt (c) * sqrt (SS / DF) * CriticalT (Konfidenz%, DF)

Die Vorhersagebänder erstrecken sich über und unter der Kurve um eine weitere Strecke, die gleich ist:

= sqrt (c + 1) * sqrt (SS / DF) * CriticalT (Konfidenz%, DF)

In diesen beiden Gleichungen hängt der Wert von c (oben definiert) vom Wert von X ab, so dass die Vertrauens- und Vorhersagebänder keine konstante Entfernung von der Kurve sind. Der Wert von SS ist die Summe der Quadrate für die Anpassung, und DF ist die Anzahl der Freiheitsgrade (Anzahl der Datenpunkte minus Anzahl der Parameter). CriticalT ist eine Konstante aus der t-Verteilung, die auf dem gewünschten Konfidenzniveau (traditionell 95%) und der Anzahl der Freiheitsgrade basiert. Bei 95% -Grenzen und einem relativ großen df liegt dieser Wert nahe bei 1,96. Wenn DF klein ist, ist dieser Wert höher.

Harvey Motulsky
quelle
Danke, Harvey. Ich arbeite daran, den Gradienten der Parameter für meine Funktion zu ermitteln. Kennen Sie vielleicht ein Beispiel, denn ich bin mir auch nicht sicher, wie die Kovarianzmatrix erhalten wird.
Serge
Wenn Sie die GraphPad Prism-Demo verwenden, können Sie Daten an jedes gewünschte Modell anpassen und die Kovarianzmatrix (ein optionales Ergebnis, das auf der Registerkarte Diagnose ausgewählt wurde) sowie die Konfidenz- oder Vorhersagebänder (sowohl als Zahlen als auch als Diagramm) anzeigen Registerkarte Diagnose). Das ist zwar kein gutes Beispiel, aber Sie können die Kovarianzmatrix zumindest vergleichen und feststellen, ob das Problem vorher oder nachher
auftritt
Zwei Dinge jedoch. 1. Prisma hat mir die Cov-Matrix gegeben. Es ist jedoch nur eine Zahl für den gesamten Datensatz. Soll ich nicht einen Wert pro X-Wert bekommen? 2. Ich erhalte das Vorhersageband in der Grafik, möchte aber, dass die Ausgabe die Werte enthält. Prisma scheint das nicht zu tun. Ich bin sehr neu bei Prism und habe vielleicht nicht überall nachgesehen, aber ich habe es versucht!
Serge
1. Die Kovarianzmatrix zeigt den Grad der Verflechtung der Parameter. Es gibt also einen Wert für jedes Parameterpaar, dessen Anpassung nichtlineare Regression erfordert. 2. Suchen Sie auf der Registerkarte Bereich nach Prism, um eine Tabelle der XY-Koordinaten der Kurve mit Plus- / Minuswerten für die Vertrauens- oder Vorhersagebänder zu erstellen. 3. Für technischen Support mit Prism senden Sie eine E-Mail an [email protected]. Verwenden Sie dieses Forum für statistische Fragen, nicht für technischen Support.
Harvey Motulsky