Kontext:
Ausgehend von einer Frage zu Mathematics Stack Exchange (Kann ich ein Programm erstellen) hat jemand eine Reihe von Punkten und möchte eine lineare, exponentielle oder logarithmische Kurve daran anpassen. Die übliche Methode besteht darin, zunächst eine dieser Methoden (die das Modell angibt) auszuwählen und dann die statistischen Berechnungen durchzuführen.
Aber was wirklich gewünscht wird, ist, die "beste" Kurve aus linearen, exponentiellen oder logarithmischen zu finden.
Angeblich könnte man alle drei versuchen und die am besten angepasste Kurve der drei anhand des besten Korrelationskoeffizienten auswählen.
Aber irgendwie finde ich das nicht ganz koscher. Die allgemein akzeptierte Methode besteht darin, zuerst ein Modell auszuwählen, eine dieser drei (oder eine andere Verknüpfungsfunktion), und dann aus den Daten die Koeffizienten zu berechnen. Und das Beste nach der Ernte ist die Kirschernte. Aber für mich ist es immer noch dasselbe, ob Sie eine Funktion oder Koeffizienten aus den Daten bestimmen: Ihre Prozedur ermittelt das Beste ... (Nehmen wir an, welche Funktion auch ein anderer zu ermittelnder Koeffizient ist).
Fragen:
- Ist es angemessen, das am besten passende Modell aus linearen, exponentiellen und logarithmischen Modellen basierend auf einem Vergleich der Anpassungsstatistiken auszuwählen?
- Wenn ja, wie ist dies am besten zu bewerkstelligen?
- Wenn die Regression dabei hilft, Parameter (Koeffizienten) in einer Funktion zu finden, warum kann dann kein diskreter Parameter ausgewählt werden, aus welcher der drei Kurvenfamilien die beste stammt?
Antworten:
quelle
Dies ist eine Frage, die in sehr unterschiedlichen Bereichen gültig ist.
Das beste Modell ist dasjenige, das Datenpunkte vorhersagen kann, die bei der Parameterschätzung nicht verwendet wurden. Idealerweise berechnet man Modellparameter mit einer Teilmenge des Datensatzes und bewertet die Anpassungsleistung für einen anderen Datensatz. Wenn Sie an den Details interessiert sind, führen Sie eine Suche mit "Kreuzvalidierung" durch.
Die Antwort auf die erste Frage lautet also "Nein". Man kann nicht einfach das am besten passende Modell nehmen. Bild Sie passen ein Polynom mit N-ten Graden an N Datenpunkte an. Dies ist eine perfekte Anpassung, da alle Modelle genau alle Datenpunkte weitergeben. Dieses Modell wird jedoch nicht auf neue Daten verallgemeinern.
Der geeignetste Weg, so weit ich sagen kann, besteht darin, zu berechnen, wie viel Ihr Modell auf andere Datensätze verallgemeinern kann, indem Sie Metriken verwenden, die gleichzeitig die Amplitude der Residuen und die Anzahl der Parameter in Ihrem Modell bestrafen. AIC und BIC sind einige dieser Metriken, die mir bekannt sind.
quelle
Da viele Leute routinemäßig die Anpassung verschiedener Kurven an ihre Daten untersuchen, weiß ich nicht, woher Ihre Reservierungen stammen. Zugegeben, es gibt die Tatsache, dass ein Quadrat immer mindestens so gut passt wie ein lineares und ein kubisches, mindestens so gut wie ein quadratisches, so dass es Möglichkeiten gibt, die statistische Signifikanz des Hinzufügens eines solchen nichtlinearen Terms und damit zu testen Vermeiden Sie unnötige Komplexität. Die grundlegende Praxis, viele verschiedene Formen einer Beziehung zu testen, ist jedoch nur eine gute Praxis. Tatsächlich könnte man mit einer sehr flexiblen Löss-Regression beginnen, um herauszufinden, welche Art von Kurve am plausibelsten ist.
quelle
Sie müssen wirklich ein Gleichgewicht zwischen der Wissenschaft / Theorie finden, die zu den Daten führt, und dem, was die Daten Ihnen sagen. Wie andere gesagt haben, wenn Sie sich auf eine mögliche Transformation einstellen lassen (Polynome jeglichen Grades usw.), werden Sie am Ende überangepasst und bekommen etwas, das unbrauchbar ist.
Eine Möglichkeit, sich davon zu überzeugen, ist die Simulation. Wählen Sie eines der Modelle (linear, exponentiell, logarithmisch) und generieren Sie Daten, die diesem Modell folgen (mit einer Auswahl der Parameter). Wenn Ihre bedingte Varianz der y-Werte im Verhältnis zur Streuung der x-Variablen gering ist, wird anhand eines einfachen Diagramms deutlich, welches Modell ausgewählt wurde und was die "Wahrheit" ist. Wenn Sie jedoch eine Reihe von Parametern auswählen, die aus den Diagrammen nicht ersichtlich sind (wahrscheinlich in Fällen, in denen eine analytische Lösung von Interesse ist), analysieren Sie jede der drei Möglichkeiten und finden Sie heraus, welche die "beste" Anpassung ergibt. Ich gehe davon aus, dass Sie feststellen werden, dass die "beste" Anpassung oft nicht die "wahre" Anpassung ist.
Auf der anderen Seite möchten wir manchmal, dass die Daten uns so viel wie möglich sagen, und wir haben möglicherweise nicht die Wissenschaft / Theorie, um die Art der Beziehung vollständig zu bestimmen. Die Originalarbeit von Box und Cox (JRSS B, Bd. 26, Nr. 2, 1964) erörtert Möglichkeiten zum Vergleich mehrerer Transformationen für die Variable y. Die angegebenen Transformationen sind linear und logarithmisch als Sonderfälle (jedoch nicht exponentiell). , aber nichts in der Theorie des Papiers beschränkt Sie nur auf ihre Transformationsfamilie, die gleiche Methodik könnte erweitert werden, um einen Vergleich zwischen den 3 Modellen, an denen Sie interessiert sind, einzuschließen.
quelle