Wie kann man objektiv ("algorithmisch" gelesen) ein geeignetes Modell für eine einfache lineare Regression der kleinsten Quadrate mit zwei Variablen auswählen?
Angenommen, die Daten scheinen einen quadratischen Trend zu zeigen, und es wird eine Parabel generiert, die recht gut zu den Daten passt. Wie rechtfertigen wir es, dies zur Regression zu machen? Oder wie beseitigen wir die Möglichkeit, dass es ein besseres Modell gibt?
Was mich wirklich beunruhigt, ist Folgendes: Wir könnten einfach so lange Polynomterme hinzufügen, bis wir eine perfekte Anpassung für den Datensatz (eine Interpolation der Punkte) ohne jeglichen Fehler hatten. Dies wäre jedoch für die Vorhersage oder Extrapolation nutzlos , da es keinen Grund zu der Annahme gibt, dass das "Modell" tatsächlich angemessen ist. Wie bringt man die Bedürfnisse nach Genauigkeit und intuitiver Attraktivität in Einklang?
(Bitte benachrichtigen Sie mich auch, wenn dies zuvor gefragt wurde. Ich nahm an, dass dies der Fall war, fand aber nichts.)
quelle
Antworten:
Sie können sich AIC, BIC oder eine der anderen ähnlichen Maßnahmen ansehen.
Sie könnten Ihre Augen und Ihren Sinn für das Feld verwenden.
Oder Sie können einige Probleme vermeiden, indem Sie Splines verwenden.
quelle
Es ist wahrscheinlich, dass Sie kein Polynom finden können, das eine korrekte Beschreibung der Beziehung darstellt, unabhängig davon, wie viele Daten Sie haben.
Dieses Problem kann sich auf nahezu jede Modellklasse erstrecken.
Normalerweise sind wir jedoch daran interessiert, eine gute Beschreibung zu erhalten, die für einen bestimmten Zweck ausreicht (ein Modell), anstatt den (möglicherweise überkomplizierten) tatsächlichen Prozess zu entdecken, der die Beobachtungen antreibt.
Denn selbst wenn der tatsächliche Prozess ist von einer hypothetisch angenommenen Klasse von potentiellen Modellen kann es kontraproduktiv sein , das wahre Modell zu entdecken (die von hohen Ordnung sein könnte, zum Beispiel, aber die hohen Auftrags Bedingungen könnten sehr sehr klein sein). Es kann sein, dass ein einfacheres (dh falsches ) Modell für unsere Zwecke viel besser ist.
Stellen Sie sich zum Beispiel vor, wir wollten die nächsten Werte in einer etwas verrauschten Reihe vorhersagen. Jedes Modell, das wir anpassen, weist einen Fehler in den Parameterschätzungen auf, und dieser Fehler wird durch die Prognose vergrößert. Es braucht nicht viel, um ein Modell niedriger Ordnung (das notwendigerweise voreingenommen ist) mit einer viel besseren Leistung des mittleren quadratischen Vorhersagefehlers (sagen wir) als die "wahre" Modellreihenfolge zu haben.
Ein gängiges Instrument zur Bewertung der Modellleistung ist die Vorhersage außerhalb der Stichprobe (nicht unbedingt über die Zeit). Die Kreuzvalidierung ist eine gängige Methode, um Modelle auszuwählen oder die Modellleistung zu vergleichen.
Rob Hyndman schrieb eine nette kleine Einführung hier .
quelle
Ich würde sehr oft sagen, dass sich Menschen einem von drei verschiedenen Ansätzen anschließen:
Die häufig auftretende Analyse ist wahrscheinlich sowohl die einfachste als auch die am meisten kritisierte für ihre Mängel. Die Informationstheorie hingegen erlebte kürzlich einen Boom und zog im Laufe der Zeit immer mehr Menschen auf sich. Ich denke, Sie sollten versuchen, ein wenig zu verstehen und einige Ideen aus jedem der drei Ansätze zu ziehen. Wenn Sie keine Ahnung haben, was die Daten enthalten sollen, ist der frequentistische Ansatz ein guter Anfang. Auf der anderen Seite Wenn Sie Informationen zum zugrunde liegenden Modell haben, werfen Sie einen Blick auf die Bayes'sche Inferenz. Und ich würde die Anzahl der freien Parameter immer niedrig halten, und genau das versuchen AIC und BIC, Informationen mit Parametern in Einklang zu bringen.
quelle
Ich würde eingeschränkte kubische Splines verwenden, mit denen Sie die Kurve besser approximieren können. Als zusätzliche Verfeinerung kann AICc (oder BIC) verwendet werden, um die Anzahl der Knoten zu wählen.
quelle