Wie kann ich Modelle ohne Anpassung vergleichen?

Regression und maschinelles Lernen werden in den Naturwissenschaften verwendet, um Hypothesen zu testen, Parameter zu schätzen und Vorhersagen zu treffen, indem Modelle an Daten angepasst werden. Wenn ich jedoch ein A-priori- Modell habe, möchte ich keine Anpassung vornehmen - zum Beispiel ein Modell eines deterministischen physikalischen Systems, das aus ersten Prinzipien berechnet wird. Ich möchte einfach nur wissen, wie gut mein Modell mit den Daten übereinstimmt, und dann verstehen, welche Teile des Modells wesentlich zur Übereinstimmung beitragen. Könnte mich jemand auf einen statistisch strengen Weg hinweisen, dies zu tun?

Nehmen wir genauer an, ich habe ein physikalisches System, für das ich eine abhängige Variable $y_i$ ( reicht von 1 bis , die Stichprobengröße) unter verschiedenen Bedingungen gemessen habe , die durch drei unabhängige Variablen , und . Obwohl das reale System, das die Daten generiert hat, kompliziert ist, habe ich einige vereinfachende Annahmen getroffen, um ein theoretisches Modell für das System abzuleiten , so dass $i$ $n$ $x_{1,i}$ $x_{2,i}$ $x_{3,i}$ $f$

$y_i = f(x_{1,i}, x_{2,i}, x_{3,i}) + \epsilon_i$ ,

Dabei ist $f$ eine nichtlineare (und nicht linearisierbare) Funktion der unabhängigen Variablen und $\epsilon_i$ die Differenz zwischen den vom Modell vorhergesagten und den gemessenen Werten. $f$ ist vollständig vorgegeben; Es erfolgt keine Anpassung und es werden keine Parameter geschätzt. Mein erstes Ziel ist es festzustellen, ob $f$ ein vernünftiges Modell für den Prozess ist, der die gemessenen Werte $y_i$ .

Ich habe auch vereinfachte Modelle $g(x_{1,i}, x_{2,i})$ und $h(x_{1,i})$ , die in $f$ verschachtelt sind (falls dies in diesem Fall wichtig ist). Mein zweites Ziel ist es festzustellen, ob $f$ signifikant besser mit den Daten übereinstimmt als $g$ oder $h$ , was darauf hindeutet, dass die Merkmale, die das Modell $f$ von den Modellen $g$ und $h$ , eine wichtige Rolle in dem Prozess spielen, der $y_i$ erzeugt .

Ideen bisher

Wenn es eine Möglichkeit gäbe, die Anzahl der Parameter oder die Freiheitsgrade für mein mathematisches Modell zu bestimmen, könnten möglicherweise vorhandene Verfahren wie ein Likelihood-Ratio-Test oder ein AIC-Vergleich verwendet werden. Angesichts der nichtlinearen Form von und des Fehlens offensichtlicher Parameter bin ich mir jedoch nicht sicher, ob es sinnvoll ist, Parameter zuzuweisen oder anzunehmen, was einen Freiheitsgrad ausmacht. $f$

Ich habe gelesen, dass Anpassungsgütemessungen wie der Bestimmungskoeffizient ( ) verwendet werden können, um die Modellleistung zu vergleichen. Mir ist jedoch nicht klar, wie hoch der Schwellenwert für einen signifikanten Unterschied zwischen -Werten sein könnte. Da ich das Modell nicht an die Daten anpasse, ist der Mittelwert der Residuen nicht Null und kann für jedes Modell unterschiedlich sein. Ein gut passendes Modell, das dazu neigt, die Daten zu unterschätzen, könnte daher einen so schlechten Wert von wie ein Modell, das unvoreingenommen, aber schlecht mit den Daten übereinstimmt. $R^2$ $R^2$ $R^2$

Ich habe auch ein wenig über Anpassungstests gelesen (z. B. Anderson-Darling), aber da Statistik nicht mein Fachgebiet ist, bin ich mir nicht sicher, wie gut diese Art von Test zu meinem Zweck passt. Jede Anleitung wäre dankbar.

modeling simulation goodness-of-fit model-comparison jbacks
quelle

Gibt es Parameterwerte für die nichtlineare Funktion f(), die aus einer Anpassung an die Daten ermittelt werden müssen, oder ist die Funktion f()vollständig vorgegeben?

EdM

@EdM Danke dafür! Die Frage wurde bearbeitet, um zu verdeutlichen, dass sie fvollständig vorgegeben ist. Es ist wie eine Black Box, die die Antwort yaus den Eingabevariablen erzeugt, und ich möchte wissen, wie gut sie im Vergleich zu konkurrierenden Black Boxes funktioniert. In einer analogen Situation könnte versucht werden, die Übereinstimmung zwischen der Ausgabe einer numerischen Simulation und den im realen physikalischen System durchgeführten Messungen zu bewerten.

Jbacks

Antworten:

In dieser Situation vergleichen Sie im Wesentlichen die Verteilungen des unter den 3 Modellen. Sie müssen also folgende Themen untersuchen: $\epsilon_i$

Unterscheiden sich die Mittelwerte von zwischen den drei Modellen, und unterscheidet sich einer dieser Mittelwerte von 0? (Das heißt, gibt es in einem der Modelle eine Verzerrung und unterscheiden sich die drei Modelle in der Verzerrung?) $\epsilon_i$
Gibt es eine systematische Beziehung des zu den aus dem entsprechenden Modell vorhergesagten Werten oder zu den Werten der unabhängigen Variablen ? Sie sollten hier alle drei unabhängigen Variablen berücksichtigen, auch wenn das jeweilige Modell nur 1 oder 2 davon verwendet hat. $\epsilon_i$ $x_{1,i},x_{2,i}, x_{3,1}$
Gibt es signifikante Unterschiede in den Varianzen des zwischen den 3 Modellen? $\epsilon_i$

Wie Sie diese Fragen am besten beantworten können, hängt von der Art Ihrer Daten ab. Wenn beispielsweise die Werte von notwendigerweise positiv sind und typische Messfehler aufweisen, die proportional zu ihren Werten sind (wie dies in der Praxis häufig der Fall ist), kann es sinnvoll sein, diese Analyse auf Unterschiede zwischen logarithmisch transformiertem und logarithmisch transformierten Vorhersagen von durchzuführen jedes Ihrer Modelle. $y_i$ $y_i$

Ein wichtiger erster Schritt wäre die visuelle Analyse der Verteilungen des unter den drei Modellen, beispielsweise mit Dichtediagrammen. $\epsilon_i$

Abhängig von der Art der Daten würden standardmäßige parametrische oder nicht parametrische statistische Tests auf Unterschiede in den Mittelwerten, die für die 3 Modelle auf angewendet werden, 1 lösen. $\epsilon_i$

Bei Problem 2 wird im Wesentlichen die Qualität eines angepassten Modells geprüft. In Ihrem Fall zeigt diese Analyse möglicherweise Domänen der unabhängigen Variablen an, für die eines oder mehrere Ihrer vordefinierten Modelle nicht gut funktionieren. Diagramme von gegen vorhergesagte Werte und Werte mit unabhängigen Variablen mit Lösskurven zur Hervorhebung von Trends für jedes Ihrer Modelle wären nützlich. $\epsilon_i$

Wenn in keinem Modell eine Verzerrung vorliegt und die Analyse von Problem 2 keine Probleme zeigt, ist das verbleibende Problem 3, ob eines der Modelle hinsichtlich Präzision / Varianz überlegen ist. Im Idealfall mit normalverteiltem in jedem Modell könnten F-Tests die Varianzgleichheit testen. $\epsilon_i$

EdM
quelle

Die Restverteilung als Vergleichsobjekt zu betrachten, ist ein nützlicher Perspektivwechsel! a) Kennen Sie veröffentlichte Analysen, die eine ähnliche Methode verwenden? Ich finde meine Situation ungewöhnlich. Jeder veröffentlichte Präzedenzfall wäre hilfreich. b) Der Mittelwert jeder Restverteilung ist ungleich Null und für zwei meiner Modelle sichtbar unterschiedlich, und ich gehe davon aus, dass ANOVA dies bestätigen würde. Wäre es in diesem Wissen immer noch sinnvoll, die Unterschiede zwischen den Varianzen jeder Restverteilung zu untersuchen (Problem 3)? Könnten über Problem 2 aufgedeckte Muster einen Vergleich von Abweichungen ungültig machen?

Jbacks

@jbacks Ich kenne keinen veröffentlichten Präzedenzfall, aber ich denke nicht, dass dieser Ansatz schwer zu verkaufen wäre, wenn es eine solide theoretische Grundlage für Ihre Modelle gibt. Konzentrieren Sie sich in dieser theoretischen Analyse auf die Gründe für die systematische Verzerrung (mittlerer Fehler ungleich Null, Problem I) zwischen Vorhersagen und Beobachtungen. Das scheint am direktesten auf den relativen Wert der Modelle zu kommen. Problem II (alle Muster der Fehlergröße / -richtung in Bezug auf unabhängige Variablenwerte oder vorhergesagte Werte) sollte veranschaulichen, wohin Ihre Modelle verirren. Vergleiche von Modellvarianzen sind von geringerem Interesse.

EdM

@jbacks ziehen es auch in Betracht, mit Beobachtungen / Vorhersagen in einer transformierten Skala wie logarithmisch zu arbeiten. Eine fehlerhafte Verzerrung in einer nicht transformierten Skala kann nach der Transformation verringert oder beseitigt werden. Beachten Sie, dass die Verwendung von prozentualen Fehlern, die in einer anderen Antwort vorgeschlagen wird, der Untersuchung von Unterschieden zwischen logarithmisch transformierten Vorhersagen und Beobachtungen entspricht. Sie müssen beurteilen, ob dies für diese Situation angemessen wäre.

EdM

Das scheint plausibel, und ich werde es versuchen. Nochmals vielen Dank für Ihren Einblick.

Jbacks

$\epsilon$

Das ist weil

Sie wissen bereits mit Sicherheit, dass das Modell falsch sein wird.
Die Residuen, mit denen Sie enden, haben keine Beziehung zur hypothetischen Verteilung der Fehler, die Sie zum Testen verschiedener Hypothesen verwenden. (Sie haben kein statistisches / probabilisitisches Modell)
Ihr Ziel ist es nicht, eine Hypothese zu testen (Grundlagenforschung / reine Wissenschaft), sondern die Vorhersageleistung eines vereinfachten Modells (angewandte Wissenschaft) zu charakterisieren.

Am häufigsten beschreiben Menschen Modelle als Prozentsatz des Fehlers für Vorhersagen.

Beispiele:

Vorhersage des Druckabfalls des Schlammrohrströmungsflusses unter Verwendung zusammengesetzter Potenzgesetz-Reibungsfaktor-Reynolds-Zahlenkorrelationen basierend auf verschiedenen nicht-Newtonschen Reynolds-Zahlen

Es wird gezeigt, dass diese Korrelationen verwendet werden können, um den Druckabfall für eine gegebene Schlammkonzentration und einen gegebenen Betriebszustand auf ± 20% vorherzusagen.
Vorhersage der effektiven Viskosität von Nanofluiden basierend auf der Rheologie von Suspensionen fester Partikel

Das vorliegende Modell passt zu den 501-Viskositätswerten mit mittleren Abweichungen von weniger als 5% und 75% davon liegen innerhalb des Korrelationskoeffizienten 0,78–1.
Anwendung künstlicher Intelligenz zur Modellierung der Asphalt-Gummi-Viskosität

$\rho$
Bond-Beitragsmethode zur Schätzung der Henry-Konstanten

Ein Korrelationskoeffizient (r2) von 0,94 wurde für die Beziehung zwischen bekannten LWAPCs (logarithmischen Wasser-Luft-Verteilungskoeffizienten) und geschätzten LWAPCs für den 345-Verbindungsdatensatz bestimmt.

Grundsätzlich können Sie jedes Modell googeln, das eine Vereinfachung der Realität darstellt, und Sie werden Leute finden, die ihre Diskrepanz mit der Realität in Form von Korrelationskoeffizienten oder Prozent der Variation beschreiben.

Ich möchte die Hypothese testen, dass "Phänomen A" x_3,i messbar zur Produktion von beiträgt y. Das Modell fenthält das Phänomen A während g und hnicht. Wenn meine Hypothese wahr wäre, würde ich vorhersagen, dass das Modell feine signifikant bessere Leistung aufweist als entweder g oder h.

Für einen solchen Vergleich können Sie die gemessene Leistung als Stichprobe betrachten, eine Stichprobe aus einer größeren (hypothetischen) Leistungspopulation.

$\epsilon$ $y \pm x$

Diese Ansicht ist jedoch etwas problematisch, da die "Stichprobe", die zur Messung der Leistung verwendet wird, häufig keine zufällige Auswahl ist (z. B. Messungen entlang eines vordefinierten Bereichs oder unter einem ausgewählten praktischen Satz von Elementen). Dann sollte eine Quantifizierung des Fehlers bei der Schätzung der allgemeinen Leistung nicht auf einem Modell für die zufällige Auswahl basieren (z. B. unter Verwendung der Varianz in der Stichprobe zur Beschreibung des Fehlers der Schätzung). Daher ist es immer noch wenig sinnvoll, ein Wahrscheinlichkeitsmodell zur Beschreibung der Vergleiche zu verwenden. Es kann ausreichend sein, nur beschreibende Daten anzugeben und Ihre "Schätzung" der Generalisierung anhand logischer Argumente vorzunehmen.

Sextus Empiricus
quelle

Diese Beispiele sind hilfreich! Ich bin jedoch ein wenig verwirrt über Ihre Behauptung, dass mein Ziel keinen Hypothesentest beinhaltet. Während ich es einrahme, möchte ich die Hypothese testen, dass "Phänomen A", das x_3,ibeteiligt ist, messbar zur Produktion von beiträgt y. Das Modell fenthält das Phänomen A während gund hnicht. Wenn meine Hypothese wahr wäre, würde ich vorhersagen, dass das Modell feine signifikant bessere Leistung aufweist als entweder goder h.

Jbacks

ϵ

$\epsilon$

x \pm y

$x \pm y$

Vielen Dank, dass Sie diesen Kommentar mit Ihrer Bearbeitung erweitert haben. Zwischen dieser Perspektive und der anderen Antwort denke ich, dass ich einen plausiblen Weg vorwärts habe. Sehr geschätzt!

Jbacks