Ich habe eine offensichtlich bimodale Werteverteilung, die ich anpassen möchte. Die Daten können entweder mit 2 normalen Funktionen (bimodal) oder mit 3 normalen Funktionen gut angepasst werden. Darüber hinaus gibt es einen plausiblen physikalischen Grund für die Anpassung der Daten an 3.
Je mehr Parameter eingeführt werden, desto perfekter ist die Anpassung, da man mit genügend Konstanten " einen Elefanten anpassen " kann.
Hier ist die Verteilung, passend zur Summe von 3 normalen (Gaußschen) Kurven:
Dies sind die Daten für jede Anpassung. Ich bin mir nicht sicher, welchen Test ich hier anwenden soll, um die Passform zu bestimmen. Die Daten bestehen aus 91 Punkten.
1 Normale Funktion:
- RSS: 1.06231
- X ^ 2: 3,1674
- F. Test: 0,3092
2 normale Funktionen:
- RSS: 0,010939
- X ^ 2: 0,053896
- F. Test: 0,97101
3 normale Funktionen:
- RSS: 0,00536
- X ^ 2: 0,02794
- F. Test: 0,99249
Was ist der richtige statistische Test, der angewendet werden kann, um festzustellen, welche dieser 3 Anpassungen am besten ist? Offensichtlich ist die 1 normale Funktionsanpassung unzureichend. Wie kann ich also zwischen 2 und 3 unterscheiden?
Außerdem mache ich das meistens mit Excel und ein wenig Python. Ich bin noch nicht mit R oder anderen statistischen Sprachen vertraut.
R
Route entscheiden). In dieser Antwort werden einige Modellauswahlkriterien erwähnt . Schließlich möchten Sie vielleicht Ensemble-Methoden betrachten , die ich in dieser Antwort kurz behandelt habe und die auch einen Link zu Python-fokussierten Informationen enthält. Weitere Informationen zur Modellauswahl und Mittelwertbildung finden Sie in dieser Antwort .Antworten:
Hier sind zwei Möglichkeiten, wie Sie das Problem der Auswahl Ihrer Distribution angehen können:
Verwenden Sie für den Modellvergleich ein Maß, das das Modell abhängig von der Anzahl der Parameter bestraft. Informationskriterien tun dies. Verwenden Sie ein Informationskriterium, um auszuwählen, welches Modell beibehalten werden soll, und wählen Sie das Modell mit dem niedrigsten Informationskriterium aus (z. B. AIC). Die Faustregel für den Vergleich, ob ein Unterschied in den AICs signifikant ist, lautet, wenn der Unterschied im AIC größer als 2 ist (dies ist kein formaler Hypothesentest, siehe Testen des Unterschieds in der AIC von zwei nicht verschachtelten Modellen ).
Wenn Sie einen formalen Hypothesentest wünschen, können Sie auf mindestens zwei Arten vorgehen. Am wohl einfachsten ist es, Ihre Verteilungen anhand eines Teils Ihrer Stichprobe anzupassen und dann zu testen, ob die Residuenverteilungen mithilfe eines Chi-Quadrat- oder Kolgomorov-Smirnov-Tests für den Rest der Daten signifikant unterschiedlich sind. Auf diese Weise verwenden Sie nicht dieselben Daten, um Ihr Modell anzupassen und zu testen, wie es AndrewM in den Kommentaren erwähnt hat.
Sie können auch einen Likelihood-Ratio-Test mit einer Anpassung der Nullverteilung durchführen. Eine Version davon ist in Lo Y. et al. (2013) "Testen der Anzahl von Komponenten in normaler Mischung." Biometrika, aber ich habe keinen Zugriff auf den Artikel, daher kann ich Ihnen keine näheren Angaben dazu machen, wie dies genau zu tun ist.
Wenn der Test nicht signifikant ist, behalten Sie die Verteilung mit der niedrigeren Anzahl von Parametern bei. Wenn er signifikant ist, wählen Sie die Verteilung mit der höheren Anzahl von Parametern.
quelle