Wann wird die nichtparametrische Regression verwendet?

9

Ich verwende PROC GLM in SAS, um eine Regressionsgleichung der folgenden Form anzupassen

Y=b0+b1X1+b2X2+b3X3+b4t

Das QQ-Diagramm der resultierenden Redsiduals zeigt eine Abweichung von der Normalität an. Eine Transformation von ist nicht nützlich, um die Residuen normal zu machen.Y

Kann ich an dieser Stelle sicher auf nicht parametrische Methoden wie PROC LOESS umsteigen?

Ich habe bereits PROC LOESS verwendet und die Passform sieht besser aus als bei PROC GLM. Aber ich habe nicht viel Wissen über nichtparametrische Regression. Ich weiß nicht, wann ich die nichtparametrische Regression der parametrischen Regression vorziehen soll.

Kann mir jemand dabei helfen?

Ich werde weitermachen und eine weitere Frage hinzufügen. Es folgt die Beschreibung meiner Variablen im Modell. Manchmal bekomme ich negative prognostizierte Kosten. Das macht keinen Sinn. Wie kann ich dieses Problem beheben?

Y=cost of medical careX1=number of injectionsX2=number of surgeriesX3=number of physical therapiest=time
ann
quelle
2
Sie können natürlich vermeiden, negative Kosten vorherzusagen, indem Sie das Protokoll davon modellieren:log(Y)=b0+b1X1+b2X2+b3X3+b4t
Dirk Horsten

Antworten:

10

Bevor Sie sich QQ-Diagramme von Residuen ansehen, sollten Sie die Qualität der Anpassung bewerten, indem Sie Residuen gegen die Prädiktoren im Modell (und möglicherweise auch gegen andere Variablen, die Sie nicht verwendet haben) zeichnen. In diesen Darstellungen sollte Nichtlinearität auftreten. Wenn der Effekt der Variablen wirklich linear ist, erwarten Sie, dass die Darstellung der Residuen gegen "horizontal" ist, ohne sichtbare Struktur:xxx

                                                                   *
*                 *
      *                               *
        *   
                                                  *
--------------------------------------*------------------------------x
   *     
           *

                                     *
       *                                                    *
                                *

Das heißt, ein zufälliger horizontaler "Blob" von Punkten, zentriert um den Linienrest = 0.

Wenn der Effekt nicht linear ist, erwarten Sie in diesem Diagramm eine gewisse Krümmung. (und bitte ignorieren Sie die QQ-Diagramme, bis Sie Nichtlinearitäten mithilfe der oben beschriebenen Diagramme aussortiert haben!)

Sie sollten auch über mögliche Interaktionen nachdenken (in der Regel anhand von Produktbegriffen modelliert), dh, die Auswirkung einer Variablen hängt von den Ebenen einer anderen ab. (Wenn alle drei Variablen gleichzeitig hohe Werte aufweisen, zeigt dies möglicherweise einige besonders schwierige Wenn ja, könnten Interaktionen erforderlich sein.

Wenn Sie sich für ein nichtlineares Modell entschieden haben, nachdem Sie Interaktionen und Transformationen versucht haben (haben Sie es versucht log(Cost)?) Haben Sie einige Box-Cox-Transformationen versucht? Da Sie eine multiple Regression haben, denke ich nicht, dass loessSie danach suchen sollten gam(verallgemeinerte additive Modelle, SAS sollte das haben, in R ist es im Paket mgcv).

kjetil b halvorsen
quelle
1
Vielen Dank für die wertvollen Informationen. Ich habe das Protokoll (Kosten) mit der linearen Regression ausprobiert, aber es hat nicht viel geholfen. Ich werde die Interaktionseffekte hinzufügen und beobachten, was passiert. Ich werde auch wieder mit Transformationen experimentieren. Ich werde alle über meine Entwicklungen und Erkenntnisse auf dem Laufenden halten.
Ann
6

Ein LOESS passt immer besser als eine Regression, es sei denn, die Daten liegen wirklich entlang einer geraden Linie. LOESS ist eine lokal lineare Näherung, die so konzipiert ist, dass sie nahe an den Daten verläuft. Diese Methoden sind grundsätzlich explorativ. Und während es gefährlich ist, ein lineares Modell über die Grenzen der Anpassung hinaus zu extrapolieren, wäre eine Extrapolation im Fall von LOESS rücksichtslos.

Wenn Ihr Modell negative Kosten verursacht, ist dies ein ziemlich gutes Zeichen dafür, dass eine lineare Regression für Ihre Variablen nicht angemessen ist. Sie sagen, Sie haben Transformationen versucht. Haben Sie das Kostenprotokoll gegen Ihre Prädiktoren erstellt?

In der Natur der Dinge ist es unwahrscheinlich, dass es einen einfachen Zusammenhang zwischen den Kosten und den von Ihnen genannten Variablen gibt. Manchmal besteht der Zweck einer linearen Regression einfach darin, zu demonstrieren, dass eine Korrelation besteht, und möglicherweise einen vernünftigen Satz von Prädiktoren auszuwählen.

Placidia
quelle
1
Es ist so sinnvoll, wenn Sie erwähnen, dass negative Kosten darauf hinweisen, dass eine lineare Regression möglicherweise nicht angemessen ist. Ich werde meine Analyse fortsetzen und einige Interaktionen hinzufügen. Vielen Dank.
Ann
3

Bravo für die Restanalyse. Damit sind Sie dem typischen Analysten weit voraus. (Ihre Beschreibung des Modells ist jedoch unzureichend darin, die Fehlerstruktur nicht zu beschreiben.) Sie sollten Transformationen der X sowie Transformationen der Ys in Betracht ziehen. Mir ist klar, dass SAS bei der Modellierung mit Spline-Anpassungen hinter R steht, aber ich verstehe, dass neuere Versionen diese Kapazität bieten. Erwägen Sie das Hinzufügen eingeschränkter kubischer Spline-Anpassungen für die X-Terme. Als Referenz ist Frank Harrells Text "Regression Modeling Strategies" schwer zu übertreffen. Es gibt solide statistische Argumente für diesen Ansatz. Es ist ein parametrischer Ansatz, der die Entdeckung von Strukturen in den Daten ermöglicht, die sonst übersehen würden.

DWin
quelle
Vielen Dank für die Anerkennung DWin. Ich habe gerade meinen Abschluss gemacht und dies ist mein erster Job als Analyst. Zufälligerweise ist diese Art der Analyse auch für das Unternehmen neu. Ich versuche nur, eine Analyse zu erstellen, die kein völliger Unsinn ist. Ich werde Ihren Vorschlag annehmen und Transformationen sowohl für als auch für Variablen versuchen . Ich werde auch die Referenz durchgehen. Ich habe gerade eine PDF-Version online gefunden. Danke für deinen Beitrag. X.YX
Ann
Bei der Protokolltransformation und den Ausgaben, die intuitiv linear abhängen, stimmt etwas nicht. Wenn Sie wobei Injektionen im rechten Arm und Injektionen im linken Arm sind, prognostizieren Sie völlig unterschiedliche Kosten für jemanden, der alle Injektionen im selben Arm hat und jemand, der die Hälfte von ihnen auf jeder Seite hatX 1 X 2log(Y)=b0+b1log(X1)+b2log(X2)X1X2
Dirk Horsten
Ihr Kommentar scheint eher tangential zu meiner Antwort zu sein (und zu der Frage, da die Aufteilung der Injektionen nach Arm nie erwähnt wurde). Ich hoffe, Sie glauben nicht, dass Spline-Funktionen Protokolltransformationen entsprechen. Die logarithmische Transformation des Y erstellt ein Modell, bei dem das Modell in den Prädiktoren multiplikativ ist, wenn es zurück in die Kostenskala transformiert wird. Das ist eine ziemlich große Veränderung und eine, deren Probleme Sie dem Fragesteller nicht angemessen beschrieben haben.
DWin
2

Ich denke, kjetil hat Ihnen einige gute Vorschläge gemacht. Ich würde hinzufügen, dass nicht normale Residuen nicht bedeuten, dass Sie von der linearen oder nichtlinearen Regression zur nichtparametrischen Regression springen müssen. Wenn Sie zur nichtparametrischen Regression gehen, geben Sie die Struktur einer funktionalen Form auf. Es gibt eine robuste Regressionsalternative zur OLS-Regression, zu der Sie zuerst wechseln können. Dann verallgemeinerte lineare Modelle und verallgemeinerte additive Modelle, wenn die nächsten Schritte erforderlich sind. LOESS sollte meiner Meinung nach Ihr letzter Ausweg sein. Ich denke, dass ich kjetil darin zustimme.

Michael R. Chernick
quelle