Bestimmen der besten Anpassungskurvenanpassungsfunktion aus linearen, exponentiellen und logarithmischen Funktionen

18

Kontext:

Ausgehend von einer Frage zu Mathematics Stack Exchange (Kann ich ein Programm erstellen) hat jemand eine Reihe von Punkten und möchte eine lineare, exponentielle oder logarithmische Kurve daran anpassen. Die übliche Methode besteht darin, zunächst eine dieser Methoden (die das Modell angibt) auszuwählen und dann die statistischen Berechnungen durchzuführen.x-y

Aber was wirklich gewünscht wird, ist, die "beste" Kurve aus linearen, exponentiellen oder logarithmischen zu finden.

Angeblich könnte man alle drei versuchen und die am besten angepasste Kurve der drei anhand des besten Korrelationskoeffizienten auswählen.

Aber irgendwie finde ich das nicht ganz koscher. Die allgemein akzeptierte Methode besteht darin, zuerst ein Modell auszuwählen, eine dieser drei (oder eine andere Verknüpfungsfunktion), und dann aus den Daten die Koeffizienten zu berechnen. Und das Beste nach der Ernte ist die Kirschernte. Aber für mich ist es immer noch dasselbe, ob Sie eine Funktion oder Koeffizienten aus den Daten bestimmen: Ihre Prozedur ermittelt das Beste ... (Nehmen wir an, welche Funktion auch ein anderer zu ermittelnder Koeffizient ist).

Fragen:

  • Ist es angemessen, das am besten passende Modell aus linearen, exponentiellen und logarithmischen Modellen basierend auf einem Vergleich der Anpassungsstatistiken auszuwählen?
  • Wenn ja, wie ist dies am besten zu bewerkstelligen?
  • Wenn die Regression dabei hilft, Parameter (Koeffizienten) in einer Funktion zu finden, warum kann dann kein diskreter Parameter ausgewählt werden, aus welcher der drei Kurvenfamilien die beste stammt?
Mitch
quelle
1
Der Einfachheit halber habe ich das Modellauswahl- Tag hinzugefügt : Durch das Verknüpfen wird eine große Anzahl von direkt relevanten Threads erstellt. Andere Tags, die einen Blick wert sind, sind ua aic . Sie sollten schließlich feststellen, dass in der mathematischen Aussage zu diesem Problem zwei wesentliche Elemente fehlen: eine Beschreibung, wie und warum die Punkte möglicherweise von einer theoretischen Kurve abweichen, und eine Angabe der Kosten, die anfallen, wenn nicht genau die richtige Kurve ermittelt wird. Ohne diese Elemente gibt es viele verschiedene Ansätze, die unterschiedliche Antworten liefern können und zeigen, dass das "Beste" schlecht definiert ist.
whuber
1
Sie können einen bestimmten Prozentsatz Ihrer Daten für die Validierung des Modells beiseite legen und das Modell auswählen, das am besten zu diesem Validierungsdatensatz passt. Sie hätten also im Wesentlichen drei unterschiedliche Sätze, um Ihre Daten in 1. die Daten zum Trainieren eines einzelnen Modells 2. Daten, die jedes Modell validieren, mit dem Sie das beste Modell auswählen können, und 3. Ihre tatsächlichen endgültigen Validierungsdaten, die nicht berührt werden .
Kleineg
1
@kleineg Das klingt nach der richtigen Richtung. Die Wahl des Modells (z. B. zwischen lin / exp / log) ist wie ein einzelner Modell-Hyperparameter, der in gewisser Weise nur eine weitere Stufe der regulären Parameter darstellt, und der durch separate Schritte train / validate / test verallgemeinert werden kann.
Mitch
Relevant: {Ein subtiler Weg zur Überanpassung] ( johndcook.com/blog/2015/03/17/a-subtle-way-to-over-fit ) - Die Auswahl zwischen mehreren Modellfunktionen (z. B. Exp vs. Linear vs. Log) ist gerecht ein weiterer Parameter. Sie können es sich als einen Hyperparameter (der einen Validierungsschritt erfordern würde) oder als einen regulären Parameter in einer komplizierten Kombinationsfunktion vorstellen (wo es in einem Testschritt getestet würde).
Mitch

Antworten:

9
  • Vielleicht möchten Sie die kostenlose Software Eureqa ausprobieren . Es hat das spezifische Ziel, den Prozess des Findens sowohl der funktionalen Form als auch der Parameter einer gegebenen funktionalen Beziehung zu automatisieren.
  • Wenn Sie Modelle mit einer unterschiedlichen Anzahl von Parametern vergleichen, möchten Sie im Allgemeinen ein Anpassungsmaß verwenden, das Modelle mit mehr Parametern benachteiligt. Es gibt eine umfangreiche Literatur, anhand derer sich das Fit-Maß am besten für den Modellvergleich eignet, und Probleme werden komplizierter, wenn die Modelle nicht verschachtelt sind. Es würde mich interessieren, was andere angesichts Ihres Szenarios für den am besten geeigneten Modellvergleichsindex halten (als Nebeneffekt gab es kürzlich in meinem Blog eine Diskussion über Modellvergleichsindizes im Zusammenhang mit dem Vergleich von Modellen für die Kurvenanpassung).
  • Nach meiner Erfahrung werden nichtlineare Regressionsmodelle aus Gründen verwendet, die über die reine statistische Anpassung an die angegebenen Daten hinausgehen:
    1. Nichtlineare Modelle ermöglichen plausibelere Vorhersagen außerhalb des Datenbereichs
    2. Nichtlineare Modelle erfordern weniger Parameter für eine gleichwertige Anpassung
    3. Nichtlineare Regressionsmodelle werden häufig in Bereichen angewendet, in denen umfangreiche Voruntersuchungen durchgeführt wurden und theoretische Leitlinien für die Modellauswahl vorhanden sind.
Jeromy Anglim
quelle
5

Dies ist eine Frage, die in sehr unterschiedlichen Bereichen gültig ist.

Das beste Modell ist dasjenige, das Datenpunkte vorhersagen kann, die bei der Parameterschätzung nicht verwendet wurden. Idealerweise berechnet man Modellparameter mit einer Teilmenge des Datensatzes und bewertet die Anpassungsleistung für einen anderen Datensatz. Wenn Sie an den Details interessiert sind, führen Sie eine Suche mit "Kreuzvalidierung" durch.

Die Antwort auf die erste Frage lautet also "Nein". Man kann nicht einfach das am besten passende Modell nehmen. Bild Sie passen ein Polynom mit N-ten Graden an N Datenpunkte an. Dies ist eine perfekte Anpassung, da alle Modelle genau alle Datenpunkte weitergeben. Dieses Modell wird jedoch nicht auf neue Daten verallgemeinern.

Der geeignetste Weg, so weit ich sagen kann, besteht darin, zu berechnen, wie viel Ihr Modell auf andere Datensätze verallgemeinern kann, indem Sie Metriken verwenden, die gleichzeitig die Amplitude der Residuen und die Anzahl der Parameter in Ihrem Modell bestrafen. AIC und BIC sind einige dieser Metriken, die mir bekannt sind.

Bonobo
quelle
3

Da viele Leute routinemäßig die Anpassung verschiedener Kurven an ihre Daten untersuchen, weiß ich nicht, woher Ihre Reservierungen stammen. Zugegeben, es gibt die Tatsache, dass ein Quadrat immer mindestens so gut passt wie ein lineares und ein kubisches, mindestens so gut wie ein quadratisches, so dass es Möglichkeiten gibt, die statistische Signifikanz des Hinzufügens eines solchen nichtlinearen Terms und damit zu testen Vermeiden Sie unnötige Komplexität. Die grundlegende Praxis, viele verschiedene Formen einer Beziehung zu testen, ist jedoch nur eine gute Praxis. Tatsächlich könnte man mit einer sehr flexiblen Löss-Regression beginnen, um herauszufinden, welche Art von Kurve am plausibelsten ist.

rolando2
quelle
3
Ob eine quadratische Anpassung besser ist, hängt davon ab, wie Sie eine gute Anpassung operationalisiert haben. Insbesondere wenn Sie ein Anpassungsmaß verwenden, das Modelle mit mehr Parametern (z. B. AIC) benachteiligt, kann die Anpassung beispielsweise für quadratische oder lineare Modelle schlechter sein.
Jeromy Anglim
9
@rolando, vielleicht habe ich ein Missverständnis, aber ehrlich gesagt ist diese Art von (unqualifizierten) Ratschlägen genau die Art von Dingen, gegen die wir als Statistiker so viel Zeit "aufwenden". Insbesondere wenn das OP an etwas interessiert ist, das über die einfache Kurvenanpassung hinausgeht, z. B. Vorhersage oder Inferenz, ist es sehr wichtig, die Auswirkungen des statistischen Ansatzes "Probieren Sie einfach aus, was immer Sie sich vorstellen können" zu verstehen.
Kardinal
2
Ich habe Probleme, diese Kommentare mit der Tradition von Anscombe, Tukey, Mosteller, Tufte und Cleveland in Einklang zu bringen, in der die Notwendigkeit hervorgehoben wird, Daten zu visualisieren und zu untersuchen und die Form jeder Beziehung zu bestimmen, bevor ein Modell erstellt, Koeffizienten festgelegt werden oder Generieren anderer Statistiken.
Rolando2
8
Es gibt viele Kontroversen bezüglich ihrer Ansätze. Eine stark vereinfachte Möglichkeit, diese Probleme zusammenzufassen, besteht darin, dass eine explorative Analyse angezeigt ist, wenn Sie sich mit Mustern vertraut machen und neue Entdeckungen machen möchten, die später überprüft werden müssen. Wenn Sie Rückschlüsse ziehen möchten (Grund von einer bestimmten Stichprobe zu einer allgemeinen Grundgesamtheit unter Verwendung von P-Werten, Konfidenzintervallen usw.), dann nicht so sehr.
Frank Harrell
4
Dies ist der produktivste Kommentarthread, den ich im Lebenslauf gesehen habe, insbesondere der Austausch b / t rolando2 (3 ^) & @FrankHarrell. Ich finde auch beide Ansätze sehr ansprechend. Mein eigener Vorsatz ist es, vorher zu planen, was getestet werden soll und dieses Modell nur anzupassen / zu testen , um sichere Schlussfolgerungen zu ziehen, aber auch die Daten gründlich zu untersuchen (ohne zu glauben, dass die Ergebnisse unbedingt zutreffen ), um herauszufinden, was wahr sein könnte & Planung für die nächste Studie. (Sollte ich eine weitere Studie durchführen und etwas überprüfen, wäre dies interessant / wichtig?) Der Schlüssel ist Ihre Überzeugung über die Ergebnisse dieser Analysen.
gung - Wiedereinsetzung von Monica
3

Sie müssen wirklich ein Gleichgewicht zwischen der Wissenschaft / Theorie finden, die zu den Daten führt, und dem, was die Daten Ihnen sagen. Wie andere gesagt haben, wenn Sie sich auf eine mögliche Transformation einstellen lassen (Polynome jeglichen Grades usw.), werden Sie am Ende überangepasst und bekommen etwas, das unbrauchbar ist.

Eine Möglichkeit, sich davon zu überzeugen, ist die Simulation. Wählen Sie eines der Modelle (linear, exponentiell, logarithmisch) und generieren Sie Daten, die diesem Modell folgen (mit einer Auswahl der Parameter). Wenn Ihre bedingte Varianz der y-Werte im Verhältnis zur Streuung der x-Variablen gering ist, wird anhand eines einfachen Diagramms deutlich, welches Modell ausgewählt wurde und was die "Wahrheit" ist. Wenn Sie jedoch eine Reihe von Parametern auswählen, die aus den Diagrammen nicht ersichtlich sind (wahrscheinlich in Fällen, in denen eine analytische Lösung von Interesse ist), analysieren Sie jede der drei Möglichkeiten und finden Sie heraus, welche die "beste" Anpassung ergibt. Ich gehe davon aus, dass Sie feststellen werden, dass die "beste" Anpassung oft nicht die "wahre" Anpassung ist.

Auf der anderen Seite möchten wir manchmal, dass die Daten uns so viel wie möglich sagen, und wir haben möglicherweise nicht die Wissenschaft / Theorie, um die Art der Beziehung vollständig zu bestimmen. Die Originalarbeit von Box und Cox (JRSS B, Bd. 26, Nr. 2, 1964) erörtert Möglichkeiten zum Vergleich mehrerer Transformationen für die Variable y. Die angegebenen Transformationen sind linear und logarithmisch als Sonderfälle (jedoch nicht exponentiell). , aber nichts in der Theorie des Papiers beschränkt Sie nur auf ihre Transformationsfamilie, die gleiche Methodik könnte erweitert werden, um einen Vergleich zwischen den 3 Modellen, an denen Sie interessiert sind, einzuschließen.

Greg Snow
quelle