Auswahl eines Regressionsmodells

8

Wie kann man objektiv ("algorithmisch" gelesen) ein geeignetes Modell für eine einfache lineare Regression der kleinsten Quadrate mit zwei Variablen auswählen?

Angenommen, die Daten scheinen einen quadratischen Trend zu zeigen, und es wird eine Parabel generiert, die recht gut zu den Daten passt. Wie rechtfertigen wir es, dies zur Regression zu machen? Oder wie beseitigen wir die Möglichkeit, dass es ein besseres Modell gibt?

Was mich wirklich beunruhigt, ist Folgendes: Wir könnten einfach so lange Polynomterme hinzufügen, bis wir eine perfekte Anpassung für den Datensatz (eine Interpolation der Punkte) ohne jeglichen Fehler hatten. Dies wäre jedoch für die Vorhersage oder Extrapolation nutzlos , da es keinen Grund zu der Annahme gibt, dass das "Modell" tatsächlich angemessen ist. Wie bringt man die Bedürfnisse nach Genauigkeit und intuitiver Attraktivität in Einklang?

(Bitte benachrichtigen Sie mich auch, wenn dies zuvor gefragt wurde. Ich nahm an, dass dies der Fall war, fand aber nichts.)

Glen_b -Reinstate Monica
quelle
1
Die Frage selbst wirft wirklich die Frage auf, die Sie sich stellen müssen. Warum baue ich dieses Regressionsmodell? Wofür werden Sie das Modell verwenden? Was hoffen Sie vom Modell zu lernen? Dies sind große Fragen, die sicherlich die Schritte leiten, die Sie beim Erstellen des Modells unternehmen.
Jsk
Ich denke, die Zahl auf der Wikipedia-Seite für Überanpassung spricht für sich.
Nico

Antworten:

1

Sie können sich AIC, BIC oder eine der anderen ähnlichen Maßnahmen ansehen.

Sie könnten Ihre Augen und Ihren Sinn für das Feld verwenden.

Oder Sie können einige Probleme vermeiden, indem Sie Splines verwenden.

Peter Flom
quelle
Vielen Dank. Ich bin nur ein Anfänger in der Statistik. Darf ich fragen, ob die AIC- und BIC-Maßnahmen "objektiv" sind (wie von etwas abgeleitet), oder ob sie im Grunde aus statistischen Erfahrungen "zusammengesetzt" sind?
AIC, BIC usw. werden aus zwei wichtigen Eigenschaften des betrachteten Modells abgeleitet: der Anzahl der Parameter (k) und der Wahrscheinlichkeit des Modells (L). Betrachten Sie - hier sehen wir einen Kompromiss zwischen der Anzahl der Parameter und der Wahrscheinlichkeit. EINichC.2k- -2ln(L.)
Abaumann
9

Es ist wahrscheinlich, dass Sie kein Polynom finden können, das eine korrekte Beschreibung der Beziehung darstellt, unabhängig davon, wie viele Daten Sie haben.

Dieses Problem kann sich auf nahezu jede Modellklasse erstrecken.

Normalerweise sind wir jedoch daran interessiert, eine gute Beschreibung zu erhalten, die für einen bestimmten Zweck ausreicht (ein Modell), anstatt den (möglicherweise überkomplizierten) tatsächlichen Prozess zu entdecken, der die Beobachtungen antreibt.

Denn selbst wenn der tatsächliche Prozess ist von einer hypothetisch angenommenen Klasse von potentiellen Modellen kann es kontraproduktiv sein , das wahre Modell zu entdecken (die von hohen Ordnung sein könnte, zum Beispiel, aber die hohen Auftrags Bedingungen könnten sehr sehr klein sein). Es kann sein, dass ein einfacheres (dh falsches ) Modell für unsere Zwecke viel besser ist.

Stellen Sie sich zum Beispiel vor, wir wollten die nächsten Werte in einer etwas verrauschten Reihe vorhersagen. Jedes Modell, das wir anpassen, weist einen Fehler in den Parameterschätzungen auf, und dieser Fehler wird durch die Prognose vergrößert. Es braucht nicht viel, um ein Modell niedriger Ordnung (das notwendigerweise voreingenommen ist) mit einer viel besseren Leistung des mittleren quadratischen Vorhersagefehlers (sagen wir) als die "wahre" Modellreihenfolge zu haben.

Ein gängiges Instrument zur Bewertung der Modellleistung ist die Vorhersage außerhalb der Stichprobe (nicht unbedingt über die Zeit). Die Kreuzvalidierung ist eine gängige Methode, um Modelle auszuwählen oder die Modellleistung zu vergleichen.

Rob Hyndman schrieb eine nette kleine Einführung hier .

Glen_b -Reinstate Monica
quelle
1

Ich würde sehr oft sagen, dass sich Menschen einem von drei verschiedenen Ansätzen anschließen:

Die häufig auftretende Analyse ist wahrscheinlich sowohl die einfachste als auch die am meisten kritisierte für ihre Mängel. Die Informationstheorie hingegen erlebte kürzlich einen Boom und zog im Laufe der Zeit immer mehr Menschen auf sich. Ich denke, Sie sollten versuchen, ein wenig zu verstehen und einige Ideen aus jedem der drei Ansätze zu ziehen. Wenn Sie keine Ahnung haben, was die Daten enthalten sollen, ist der frequentistische Ansatz ein guter Anfang. Auf der anderen Seite Wenn Sie Informationen zum zugrunde liegenden Modell haben, werfen Sie einen Blick auf die Bayes'sche Inferenz. Und ich würde die Anzahl der freien Parameter immer niedrig halten, und genau das versuchen AIC und BIC, Informationen mit Parametern in Einklang zu bringen.

pedrofigueira
quelle
0

Ich würde eingeschränkte kubische Splines verwenden, mit denen Sie die Kurve besser approximieren können. Als zusätzliche Verfeinerung kann AICc (oder BIC) verwendet werden, um die Anzahl der Knoten zu wählen.

koenbro - Monica wieder einsetzen
quelle
Es hängt wirklich von dem spezifischen Problem und dem Datensatz ab. Manchmal ist es am schwierigsten, eine gerade Linie zu sagen, ohne die Daten zu sehen.
Nico