Wie sollte man sich zwischen einem linearen oder einem nichtlinearen Regressionsmodell entscheiden?
Mein Ziel ist es, Y vorherzusagen.
Bei einem einfachen und y- Datensatz könnte ich leicht entscheiden, welches Regressionsmodell durch Zeichnen eines Streudiagramms verwendet werden soll.
Bei Multi-Varianten wie und y . Wie kann ich entscheiden, welches Regressionsmodell verwendet werden muss? Das heißt, wie werde ich mich für ein einfaches lineares Modell oder nichtlineare Modelle wie Quadric, Cubic usw. entscheiden?
Gibt es eine Technik oder einen statistischen Ansatz oder grafische Darstellungen, um zu schließen und zu entscheiden, welches Regressionsmodell verwendet werden muss?
Antworten:
Dies ist ein Bereich der Statistik, der als Modellauswahl bezeichnet wird. In diesem Bereich wird viel geforscht, und es gibt keine endgültige und einfache Antwort.
Wenn Ihr Ziel die Nummer 1 ist, empfehle ich den Likelihood Ratio Test (LRT). LRT wird verwendet, wenn Sie verschachtelte Modelle haben und wissen möchten, ob die Daten wesentlich wahrscheinlicher aus dem komplexen Modell stammen als aus dem sparsamen Modell. Auf diese Weise erhalten Sie einen Einblick, welches Modell die Beziehung zwischen Ihren Daten besser erklärt.
quelle
Wenn ich nach "Linearn oder nichtlineares Modell für die Regression" google, erhalte ich einige Links, die zu diesem Buch führen: http://www.graphpad.com/manuals/prism4/RegressionBook.pdf Dieses Buch ist nicht interessant, und ich ziehe es an Ich vertraue ihm nicht zu 100% (aus bestimmten Gründen).
Ich habe auch diesen Artikel gefunden: http://hunch.net/?p=524 mit dem Titel: Fast alle natürlichen Probleme erfordern Nichtlinearität
Ich fand auch eine ähnliche Frage mit ziemlich guter Erklärung: /programming/1148513/difference-between-a-linear-problem-and-a-non-linear-problem-essence-of-dot-pro
Wenn Sie nach meiner Erfahrung nicht wissen, welches Modell verwendet wird, verwenden Sie beide und probieren Sie andere Funktionen aus.
quelle
Wie Sie sagen, sind lineare Modelle in der Regel einfacher als nichtlineare Modelle, dh sie laufen schneller (Erstellen und Vorhersagen), sind leichter zu interpretieren und zu erklären und bei Fehlermessungen in der Regel unkompliziert. Das Ziel ist es also herauszufinden, ob die Annahmen einer linearen Regression mit Ihren Daten übereinstimmen (wenn Sie keine lineare Unterstützung unterstützen, wählen Sie einfach nichtlinear). Normalerweise wiederholen Sie Ihren Einzelvariablen-Plot mit allen Variablen einzeln und halten alle anderen Variablen konstant.
Vielleicht noch wichtiger ist jedoch, dass Sie wissen möchten, ob Sie eine Art Transformation, Variableninteraktion oder Dummy-Variable anwenden können, um Ihre Daten in den linearen Raum zu verschieben. Wenn Sie in der Lage sind, die Annahmen zu validieren, oder wenn Sie Ihre Daten gut genug kennen, um gut motivierte oder auf andere Weise intelligent informierte Transformationen oder Modifikationen anzuwenden, möchten Sie mit dieser Transformation fortfahren und die lineare Regression verwenden. Sobald Sie die Residuen haben, können Sie sie gegen vorhergesagte Werte oder unabhängige Variablen zeichnen, um weiter zu entscheiden, ob Sie zu nichtlinearen Methoden übergehen müssen.
Hier bei Duke gibt es eine hervorragende Aufschlüsselung der Annahmen der linearen Regression . Die vier Hauptannahmen sind aufgelistet, und jede ist in die Auswirkungen auf das Modell, die Diagnose in den Daten und mögliche Möglichkeiten zum "Fixieren" (dh Transformieren oder Hinzufügen) der Daten unterteilt, um die Annahme aufrechtzuerhalten. Hier ist ein kleiner Auszug von oben, der die vier angesprochenen Annahmen zusammenfasst. Sie sollten jedoch dorthin gehen und die Aufschlüsselungen lesen.
quelle