Entscheidung zwischen einem linearen Regressionsmodell oder einem nichtlinearen Regressionsmodell

10

Wie sollte man sich zwischen einem linearen oder einem nichtlinearen Regressionsmodell entscheiden?

Mein Ziel ist es, Y vorherzusagen.

Bei einem einfachen und y- Datensatz könnte ich leicht entscheiden, welches Regressionsmodell durch Zeichnen eines Streudiagramms verwendet werden soll.xy

Bei Multi-Varianten wie und y . Wie kann ich entscheiden, welches Regressionsmodell verwendet werden muss? Das heißt, wie werde ich mich für ein einfaches lineares Modell oder nichtlineare Modelle wie Quadric, Cubic usw. entscheiden?x1,x2,...xny

Gibt es eine Technik oder einen statistischen Ansatz oder grafische Darstellungen, um zu schließen und zu entscheiden, welches Regressionsmodell verwendet werden muss?

Shakthydoss
quelle
"Nichtlineares Modell" ist eine ziemlich breite Kategorie. Hattest du einen im Sinn? Was sind Ihre Analyseziele?
Shadowtalker
Dies hängt von Ihren Zielen ab. Erstellen Sie ein Vorhersage- / Prognosemodell?
Aksakal
Vorhersage ist mein Ziel.
Shakthydoss
1
Wenn Sie nach dem Ansatz "Daten zeichnen" suchen, aber mehrere Prädiktoren verwenden, werden variable Diagramme hinzugefügt, die einen gewissen Wert haben können. Wenn Ihr Ziel jedoch die Vorhersage ist, besteht das Problem darin, dass Sie anhand der angezeigten Daten auswählen, was Sie tun möchten, damit die Daten, die Sie haben, viel besser aussehen als bei anderen Daten (und es gibt mehrere andere Probleme, die mit solchen Daten verbunden sind Ansatz zur Modellauswahl) - Um die Vorhersagefähigkeit der Stichprobe richtig zu bewerten, müssen Sie die Dinge an einer Holdout-Stichprobe bewerten / so etwas wie eine Kreuzvalidierung in Betracht ziehen.
Glen_b -State Monica
1
Möglicherweise finden Sie eine verwandte Diskussion nützlich , die ich vor einiger Zeit begonnen habe.
Aleksandr Blekh

Antworten:

10

Dies ist ein Bereich der Statistik, der als Modellauswahl bezeichnet wird. In diesem Bereich wird viel geforscht, und es gibt keine endgültige und einfache Antwort.

X1,X2X3X32X1,X2X3X1,X2,X3X32(komplexes Modell). Im Modellbau haben Sie (mindestens) eines der folgenden zwei Hauptziele:

  1. X1YX2,...Xp
  2. YY

Wenn Ihr Ziel die Nummer 1 ist, empfehle ich den Likelihood Ratio Test (LRT). LRT wird verwendet, wenn Sie verschachtelte Modelle haben und wissen möchten, ob die Daten wesentlich wahrscheinlicher aus dem komplexen Modell stammen als aus dem sparsamen Modell. Auf diese Weise erhalten Sie einen Einblick, welches Modell die Beziehung zwischen Ihren Daten besser erklärt.

k

TrynnaDoStat
quelle
Könnten Sie bitte den Unterschied zwischen den Zielen (1) und (2) deutlicher machen / erklären? Derzeit gibt es keinen großen Unterschied.
ttnphns
@ttnphns Ich habe eine kurze Beschreibung der beiden Ziele hinzugefügt.
TrynnaDoStat
@TrynnaDoStat Nur verwirrt durch die Aussage Wählen Sie das Modell aus, das die beste Vorhersage ermöglicht. Mit dem besten Modell meinen Sie, zwischen dem linearen (sparsamen) Modell und dem komplexen Modell zu wählen ... richtig? Da ich weiß, dass es sich um ein K-faches handelt, wird ein ausgelassener Lebenslauf verwendet, um die Modellleistung für unsichtbare Daten zu überprüfen. Sie werden nicht zur Modellauswahl verwendet. Ich bin hier verwirrt.
TushaR
1

Wenn ich nach "Linearn oder nichtlineares Modell für die Regression" google, erhalte ich einige Links, die zu diesem Buch führen: http://www.graphpad.com/manuals/prism4/RegressionBook.pdf Dieses Buch ist nicht interessant, und ich ziehe es an Ich vertraue ihm nicht zu 100% (aus bestimmten Gründen).

Ich habe auch diesen Artikel gefunden: http://hunch.net/?p=524 mit dem Titel: Fast alle natürlichen Probleme erfordern Nichtlinearität

Ich fand auch eine ähnliche Frage mit ziemlich guter Erklärung: /programming/1148513/difference-between-a-linear-problem-and-a-non-linear-problem-essence-of-dot-pro

Wenn Sie nach meiner Erfahrung nicht wissen, welches Modell verwendet wird, verwenden Sie beide und probieren Sie andere Funktionen aus.

404pio
quelle
0

Wie Sie sagen, sind lineare Modelle in der Regel einfacher als nichtlineare Modelle, dh sie laufen schneller (Erstellen und Vorhersagen), sind leichter zu interpretieren und zu erklären und bei Fehlermessungen in der Regel unkompliziert. Das Ziel ist es also herauszufinden, ob die Annahmen einer linearen Regression mit Ihren Daten übereinstimmen (wenn Sie keine lineare Unterstützung unterstützen, wählen Sie einfach nichtlinear). Normalerweise wiederholen Sie Ihren Einzelvariablen-Plot mit allen Variablen einzeln und halten alle anderen Variablen konstant.

Vielleicht noch wichtiger ist jedoch, dass Sie wissen möchten, ob Sie eine Art Transformation, Variableninteraktion oder Dummy-Variable anwenden können, um Ihre Daten in den linearen Raum zu verschieben. Wenn Sie in der Lage sind, die Annahmen zu validieren, oder wenn Sie Ihre Daten gut genug kennen, um gut motivierte oder auf andere Weise intelligent informierte Transformationen oder Modifikationen anzuwenden, möchten Sie mit dieser Transformation fortfahren und die lineare Regression verwenden. Sobald Sie die Residuen haben, können Sie sie gegen vorhergesagte Werte oder unabhängige Variablen zeichnen, um weiter zu entscheiden, ob Sie zu nichtlinearen Methoden übergehen müssen.

Hier bei Duke gibt es eine hervorragende Aufschlüsselung der Annahmen der linearen Regression . Die vier Hauptannahmen sind aufgelistet, und jede ist in die Auswirkungen auf das Modell, die Diagnose in den Daten und mögliche Möglichkeiten zum "Fixieren" (dh Transformieren oder Hinzufügen) der Daten unterteilt, um die Annahme aufrechtzuerhalten. Hier ist ein kleiner Auszug von oben, der die vier angesprochenen Annahmen zusammenfasst. Sie sollten jedoch dorthin gehen und die Aufschlüsselungen lesen.

Es gibt vier Hauptannahmen, die die Verwendung linearer Regressionsmodelle zum Zwecke der Inferenz oder Vorhersage rechtfertigen:

(i) Linearität und Additivität der Beziehung zwischen abhängigen und unabhängigen Variablen:

(a) Der erwartete Wert der abhängigen Variablen ist eine lineare Funktion jeder unabhängigen Variablen, die die anderen festhält.

(b) Die Steigung dieser Linie hängt nicht von den Werten der anderen Variablen ab.

(c) Die Auswirkungen verschiedener unabhängiger Variablen auf den erwarteten Wert der abhängigen Variablen sind additiv.

(ii) statistische Unabhängigkeit der Fehler (insbesondere keine Korrelation zwischen> aufeinanderfolgenden Fehlern bei Zeitreihendaten)

(iii) Homoskedastizität (konstante Varianz) der Fehler

(a) gegen die Zeit (im Fall von Zeitreihendaten)

(b) gegen die Vorhersagen

(c) gegen jede unabhängige Variable

(iv) Normalität der Fehlerverteilung.

wwwslinger
quelle