Ich verwende PROC GLM in SAS, um eine Regressionsgleichung der folgenden Form anzupassen
Das QQ-Diagramm der resultierenden Redsiduals zeigt eine Abweichung von der Normalität an. Eine Transformation von ist nicht nützlich, um die Residuen normal zu machen.
Kann ich an dieser Stelle sicher auf nicht parametrische Methoden wie PROC LOESS umsteigen?
Ich habe bereits PROC LOESS verwendet und die Passform sieht besser aus als bei PROC GLM. Aber ich habe nicht viel Wissen über nichtparametrische Regression. Ich weiß nicht, wann ich die nichtparametrische Regression der parametrischen Regression vorziehen soll.
Kann mir jemand dabei helfen?
Ich werde weitermachen und eine weitere Frage hinzufügen. Es folgt die Beschreibung meiner Variablen im Modell. Manchmal bekomme ich negative prognostizierte Kosten. Das macht keinen Sinn. Wie kann ich dieses Problem beheben?
Antworten:
Bevor Sie sich QQ-Diagramme von Residuen ansehen, sollten Sie die Qualität der Anpassung bewerten, indem Sie Residuen gegen die Prädiktoren im Modell (und möglicherweise auch gegen andere Variablen, die Sie nicht verwendet haben) zeichnen. In diesen Darstellungen sollte Nichtlinearität auftreten. Wenn der Effekt der Variablen wirklich linear ist, erwarten Sie, dass die Darstellung der Residuen gegen "horizontal" ist, ohne sichtbare Struktur:xx x
Das heißt, ein zufälliger horizontaler "Blob" von Punkten, zentriert um den Linienrest = 0.
Wenn der Effekt nicht linear ist, erwarten Sie in diesem Diagramm eine gewisse Krümmung. (und bitte ignorieren Sie die QQ-Diagramme, bis Sie Nichtlinearitäten mithilfe der oben beschriebenen Diagramme aussortiert haben!)
Sie sollten auch über mögliche Interaktionen nachdenken (in der Regel anhand von Produktbegriffen modelliert), dh, die Auswirkung einer Variablen hängt von den Ebenen einer anderen ab. (Wenn alle drei Variablen gleichzeitig hohe Werte aufweisen, zeigt dies möglicherweise einige besonders schwierige Wenn ja, könnten Interaktionen erforderlich sein.
Wenn Sie sich für ein nichtlineares Modell entschieden haben, nachdem Sie Interaktionen und Transformationen versucht haben (haben Sie es versucht
log(Cost)
?) Haben Sie einige Box-Cox-Transformationen versucht? Da Sie eine multiple Regression haben, denke ich nicht, dassloess
Sie danach suchen solltengam
(verallgemeinerte additive Modelle, SAS sollte das haben, in R ist es im Paketmgcv
).quelle
Ein LOESS passt immer besser als eine Regression, es sei denn, die Daten liegen wirklich entlang einer geraden Linie. LOESS ist eine lokal lineare Näherung, die so konzipiert ist, dass sie nahe an den Daten verläuft. Diese Methoden sind grundsätzlich explorativ. Und während es gefährlich ist, ein lineares Modell über die Grenzen der Anpassung hinaus zu extrapolieren, wäre eine Extrapolation im Fall von LOESS rücksichtslos.
Wenn Ihr Modell negative Kosten verursacht, ist dies ein ziemlich gutes Zeichen dafür, dass eine lineare Regression für Ihre Variablen nicht angemessen ist. Sie sagen, Sie haben Transformationen versucht. Haben Sie das Kostenprotokoll gegen Ihre Prädiktoren erstellt?
In der Natur der Dinge ist es unwahrscheinlich, dass es einen einfachen Zusammenhang zwischen den Kosten und den von Ihnen genannten Variablen gibt. Manchmal besteht der Zweck einer linearen Regression einfach darin, zu demonstrieren, dass eine Korrelation besteht, und möglicherweise einen vernünftigen Satz von Prädiktoren auszuwählen.
quelle
Bravo für die Restanalyse. Damit sind Sie dem typischen Analysten weit voraus. (Ihre Beschreibung des Modells ist jedoch unzureichend darin, die Fehlerstruktur nicht zu beschreiben.) Sie sollten Transformationen der X sowie Transformationen der Ys in Betracht ziehen. Mir ist klar, dass SAS bei der Modellierung mit Spline-Anpassungen hinter R steht, aber ich verstehe, dass neuere Versionen diese Kapazität bieten. Erwägen Sie das Hinzufügen eingeschränkter kubischer Spline-Anpassungen für die X-Terme. Als Referenz ist Frank Harrells Text "Regression Modeling Strategies" schwer zu übertreffen. Es gibt solide statistische Argumente für diesen Ansatz. Es ist ein parametrischer Ansatz, der die Entdeckung von Strukturen in den Daten ermöglicht, die sonst übersehen würden.
quelle
Ich denke, kjetil hat Ihnen einige gute Vorschläge gemacht. Ich würde hinzufügen, dass nicht normale Residuen nicht bedeuten, dass Sie von der linearen oder nichtlinearen Regression zur nichtparametrischen Regression springen müssen. Wenn Sie zur nichtparametrischen Regression gehen, geben Sie die Struktur einer funktionalen Form auf. Es gibt eine robuste Regressionsalternative zur OLS-Regression, zu der Sie zuerst wechseln können. Dann verallgemeinerte lineare Modelle und verallgemeinerte additive Modelle, wenn die nächsten Schritte erforderlich sind. LOESS sollte meiner Meinung nach Ihr letzter Ausweg sein. Ich denke, dass ich kjetil darin zustimme.
quelle