Ich bin ein wenig verwirrt darüber, wann Sie einem multiplen linearen Regressionsmodell Polynomterme hinzufügen sollten oder nicht. Ich weiß, dass Polynome verwendet werden, um die Krümmung in den Daten zu erfassen, aber es scheint immer die Form zu haben:
Was ist, wenn Sie wissen, dass es eine lineare Beziehung zwischen und , aber eine nichtlineare Beziehung zwischen und ? Können Sie ein Modell verwenden in Form von:
Ich denke meine Frage ist, ist es gültig, den Term und den Term löschen, oder müssen Sie der generischen Form eines polynomiellen Regressionsmodells folgen?
Antworten:
Zusätzlich zu der hervorragenden Antwort von @ mkt dachte ich, ich würde Ihnen ein konkretes Beispiel geben, damit Sie eine gewisse Intuition entwickeln können.
Generieren Sie Daten zum Beispiel
In diesem Beispiel habe ich einige Daten mit R wie folgt generiert:
Wie Sie oben sehen können, stammen die Daten aus dem Modelly= β0+ β1∗ x1+ β2∗ x2+ β3∗ x22+ ϵ , wobei ϵ ein normalverteilter Zufallsfehlerterm mit ist Mittelwert 0 und unbekannte Varianz σ2 . Weiterhin ist β0= 1 , β1= 10 , β2= 0,4 undβ3= 0,8 , währendσ= 1 .
Visualisieren Sie die generierten Daten über Coplots
Mit den simulierten Daten zur Ergebnisvariablen y und den Prädiktorvariablen x1 und x2 können wir diese Daten mithilfe von Coplots visualisieren :
Die resultierenden Coplots sind unten gezeigt.
Das erste Coplot zeigt Streudiagramme von y gegen x1, wenn x2 zu vier verschiedenen Bereichen beobachteter Werte gehört (die sich überlappen), und erweitert jedes dieser Streudiagramme mit einer glatten, möglicherweise nichtlinearen Anpassung, deren Form aus den Daten geschätzt wird.
Das zweite Coplot zeigt Streudiagramme von y gegen x2, wenn x1 zu vier verschiedenen Bereichen beobachteter Werte gehört (die sich überlappen), und verbessert jedes dieser Streudiagramme mit einer glatten Anpassung.
Der erste Coplot legt nahe, dass anzunehmen ist, dass x1 bei der Steuerung von x2 einen linearen Effekt auf y hat und dass dieser Effekt nicht von x2 abhängt.
Der zweite Coplot legt nahe, dass anzunehmen ist, dass x2 bei der Steuerung von x1 einen quadratischen Effekt auf y hat und dass dieser Effekt nicht von x1 abhängt.
Passen Sie ein korrekt angegebenes Modell an
Die Coplots schlagen vor, das folgende Modell an die Daten anzupassen, was einen linearen Effekt von x1 und einen quadratischen Effekt von x2 ermöglicht:
Erstellen Sie Component Plus-Restdiagramme für das korrekt angegebene Modell
Sobald das korrekt angegebene Modell an die Daten angepasst ist, können wir die Komponenten- und Restdiagramme für jeden im Modell enthaltenen Prädiktor untersuchen :
Diese Komponenten plus Restdiagramme sind unten gezeigt und legen nahe, dass das Modell korrekt spezifiziert wurde, da sie keine Hinweise auf Nichtlinearität usw. aufweisen. In der Tat gibt es in jedem dieser Diagramme keine offensichtliche Diskrepanz zwischen der gepunkteten blauen Linie, die auf einen linearen Effekt von hinweist der entsprechende Prädiktor und die durchgezogene Magenta-Linie deuten auf einen nichtlinearen Effekt dieses Prädiktors im Modell hin.
Passen Sie ein falsch angegebenes Modell an
Lassen Sie uns den Anwalt des Teufels spielen und sagen, dass unser lm () -Modell tatsächlich falsch spezifiziert (dh falsch spezifiziert) wurde, in dem Sinne, dass es den quadratischen Term I (x2 ^ 2) wegließ:
Erstellen Sie Component Plus-Restdiagramme für das falsch angegebene Modell
Wenn wir Komponenten plus Residuendiagramme für das falsch spezifizierte Modell konstruieren würden, würden wir sofort einen Hinweis auf eine Nichtlinearität des Effekts von x2 im falsch spezifizierten Modell sehen:
Mit anderen Worten, wie unten zu sehen ist, konnte das falsch spezifizierte Modell den quadratischen Effekt von x2 nicht erfassen, und dieser Effekt wird in der Komponente plus Restdiagramm angezeigt, die dem Prädiktor x2 im falsch spezifizierten Modell entspricht.
Die Fehlspezifikation des Effekts von x2 im Modell m.mis wäre auch offensichtlich, wenn Diagramme der mit diesem Modell verbundenen Residuen gegen jeden der Prädiktoren x1 und x2 untersucht werden:
Wie unten zu sehen ist, zeigt die Darstellung der mit m.mis gegen x2 assoziierten Residuen ein klares quadratisches Muster, was darauf hindeutet, dass das Modell m.mis dieses systematische Muster nicht erfassen konnte.
Erweitern Sie das falsch angegebene Modell
Um das Modell m.mis korrekt anzugeben, müssten wir es so erweitern, dass es auch den Term I (x2 ^ 2) enthält:
Hier sind die Diagramme der Residuen gegen x1 und x2 für dieses korrekt angegebene Modell:
Beachten Sie, dass das quadratische Muster, das zuvor in der Darstellung der Residuen gegen x2 für das falsch spezifizierte Modell m.mis zu sehen war, jetzt aus der Darstellung der Residuen gegen x2 für das korrekt spezifizierte Modell m verschwunden ist.
Beachten Sie, dass die vertikale Achse aller hier gezeigten Diagramme der Residuen gegen x1 und x2 als "Residuum" bezeichnet werden sollte. Aus irgendeinem Grund schneidet R Studio dieses Etikett ab.
quelle
Ja, was Sie vorschlagen, ist in Ordnung. In einem Modell ist es vollkommen gültig, die Antwort auf einen Prädiktor als linear und einen anderen als polynomisch zu behandeln. Es ist auch völlig in Ordnung, keine Interaktionen zwischen den Prädiktoren anzunehmen.
quelle
Sie sollten darauf achten, orthogonale Polynome zu verwenden, wenn Sie Polynomterme hinzufügen möchten.
Beobachten:
Zwischen 0 und 1,5 nehmen alle drei Kurven monoton zu, und obwohl sie sich unterschiedlich krümmen, ergeben sie ähnliche Qualitätsanpassungen, wenn x positiv mit y korreliert. Indem Sie alle drei in Ihrem Code verwenden
Sie verwenden im Wesentlichen redundante Formen, um Ihre Daten anzupassen.
Orthogonale Polynome geben Ihnen im Wesentlichen zusätzlichen Spielraum beim Anpassen, und jedes Polynom ist im Wesentlichen unabhängig von den anderen.
Drei Polynome vom Grad 1,2 und 3, die durch die Poly () - Funktion in R erzeugt werden.
Anstatt sie explizit als Polynome zu betrachten, betrachten Sie sie vielleicht stattdessen als "Trendkomponenten" oder so:
Es gibt eine Menge Hardout-Mathematik in orthogonalen Polynomen, aber zum Glück müssen Sie nur zwei Dinge wirklich wissen:
quelle
poly
denn wenn Sie es versuchen,predict
werden die Polynome in der Vorhersagestichprobe angepasst. dh wir bekommen Müll.Es gibt keine Regel, die besagt, dass Sie alle Ihre Variablen verwenden müssen. Wenn Sie versuchen, das Einkommen vorherzusagen, und Ihre Funktionsvariablen SSN, Schuljahre und Alter sind und Sie die SSN löschen möchten, weil Sie erwarten, dass eine Korrelation zwischen ihr und dem Einkommen falsch ist, müssen Sie dies beurteilen. Ein Modell ist nicht einfach ungültig, weil es andere Variablen gibt, die Sie theoretisch hätten einbeziehen können, aber nicht. Die Entscheidung, welche Polynombegriffe eingeschlossen werden sollen, ist nur eine von vielen Entscheidungen bezüglich der Merkmalsauswahl.
Während Polynommodelle häufig damit beginnen, dass alle Begriffe enthalten sind, können sie alle dahingehend bewertet werden, wie viel sie dem Modell hinzufügen. Wenn es so aussieht, als ob ein bestimmter Begriff meist nur überpasst, kann er in späteren Iterationen des Modells gelöscht werden. Durch die Regularisierung wie die Lasso-Regression können weniger nützliche Variablen automatisch gelöscht werden. Im Allgemeinen ist es besser, ein Modell mit zu vielen Variablen zu starten und es auf diejenigen zu reduzieren, die am nützlichsten sind, als nur mit den Variablen zu beginnen, auf die sich das Modell Ihrer Meinung nach verlassen sollte, und möglicherweise eine Beziehung zu verpassen, die Sie haben nicht erwartet.
quelle