Ich habe in den letzten 3 Jahren Statistiken aus vielen Büchern studiert und dank dieser Seite viel gelernt. Dennoch bleibt für mich eine grundlegende Frage offen. Es mag eine sehr einfache oder eine sehr schwierige Antwort geben, aber ich weiß, dass es ein tiefes Verständnis der Statistik erfordert.
Bei der Anpassung eines Modells an Daten, sei es ein frequentistischer oder ein bayesianischer Ansatz, schlagen wir ein Modell vor, das aus einer funktionalen Form für die Wahrscheinlichkeit, einem Prior oder einem Kernel (nicht parametrisch) usw. bestehen kann. Das Problem ist ein beliebiges Modell passt eine Probe mit einem gewissen Maß an Güte. Man kann immer ein besseres oder schlechteres Modell finden, verglichen mit dem, was gerade vorliegt. Irgendwann hören wir auf, Schlussfolgerungen zu ziehen, verallgemeinern auf Populationsparameter, geben Konfidenzintervalle an, berechnen das Risiko usw. Daher hängt jede Schlussfolgerung, die wir ziehen, immer von dem Modell ab, mit dem wir uns entschieden haben. Selbst wenn wir Tools zum Schätzen der erwarteten KL-Entfernung verwenden, wie z. B. AIC, MDL usw., sagt dies nichts darüber aus, wo wir absolut stehen, sondern verbessert lediglich unsere Schätzung auf relativer Basis.
Angenommen, wir möchten eine schrittweise Vorgehensweise definieren, die beim Erstellen von Modellen auf alle Datensätze angewendet werden soll. Was sollten wir als Stoppregel festlegen? Können wir zumindest den Modellfehler einschränken, der uns einen objektiven Haltepunkt gibt (dies ist anders als das Beenden des Trainings mit einer Validierungsprobe, da es auch einen Haltepunkt innerhalb der bewerteten Modellklasse gibt, anstatt den wahren DGP)?
Antworten:
Leider ist diese Frage nicht eine gute Antwort hat. Sie können das beste Modell auswählen, basierend auf der Tatsache, dass es den absoluten Fehler, den quadratischen Fehler und die Wahrscheinlichkeit minimiert, wobei einige Kriterien verwendet werden, die die Wahrscheinlichkeit (z. B. AIC, BIC) benachteiligen, um nur einige der häufigsten Auswahlmöglichkeiten zu nennen. Das Problem ist, dass Sie mit keinem dieser Kriterien das objektiv beste Modell auswählen können, sondern das beste, aus dem Sie es verglichen haben. Ein weiteres Problem ist, dass Sie bei der Optimierung immer ein lokales Maximum / Minimum erreichen können. Ein weiteres Problem ist, dass Ihre Auswahl der Kriterien für die Modellauswahl subjektiv ist . In vielen Fällen treffen Sie bewusst oder halbbewusst eine Entscheidung über das, woran Sie interessiert sind, und wählen darauf basierend die Kriterien aus. Zum BeispielDie Verwendung von BIC anstelle von AIC führt zu sparsameren Modellen mit weniger Parametern. Normalerweise interessieren Sie sich für die Modellierung für sparsamere Modelle, die zu einigen allgemeinen Schlussfolgerungen über das Universum führen, während dies für die Vorhersage nicht unbedingt erforderlich ist. Manchmal kann ein komplizierteres Modell eine bessere Vorhersagekraft haben (muss es aber nicht und oft) Es tut nicht). In noch anderen Fällen werden aus praktischen Gründen manchmal kompliziertere Modelle bevorzugt , beispielsweise beim Schätzen des Bayes'schen Modells mit MCMC, wobei sich Modelle mit hierarchischen Hyperprioren in der Simulation besser verhalten können als die einfacheren. Auf der anderen Seite befürchten wir generell eine Überanpassungund das einfachere Modell hat das geringere Risiko einer Überanpassung, so dass es eine sicherere Wahl ist. Ein gutes Beispiel dafür ist eine automatische schrittweise Modellauswahl , die im Allgemeinen nicht empfohlen wird, da sie leicht zu überangepassten und voreingenommenen Schätzungen führt. Es gibt auch ein philosophisches Argument, Occams Rasiermesser , dass das einfachste Modell das bevorzugte ist. Beachten Sie auch, dass wir hier den Vergleich verschiedener Modelle diskutieren, während es in realen Situationen auch so sein kann, dass die Verwendung verschiedener statistischer Tools zu unterschiedlichen Ergebnissen führen kann - es gibt also eine zusätzliche Ebene bei der Auswahl der Methode!
All dies führt zu einer traurigen, aber unterhaltsamen Tatsache, dass wir niemals sicher sein können. Wir beginnen mit Unsicherheit, wenden Methoden an, um damit umzugehen, und wir enden mit Unsicherheit. Das mag paradox sein, aber denken Sie daran, dass wir Statistiken verwenden, weil wir glauben, dass die Welt unsicher und wahrscheinlich ist (andernfalls würden wir eine Karriere von Propheten wählen). Wie könnten wir also möglicherweise zu unterschiedlichen Schlussfolgerungen kommen? Es gibt keine objektive Stoppregel, es gibt mehrere mögliche Modelle, alle sind falsch (entschuldigen Sie das Klischee!), Weil sie versuchen, die komplizierte (sich ständig ändernde und probabilistische) Realität zu vereinfachen. Wir finden einige von ihnen für unsere Zwecke nützlicher als andere, und manchmal tun wir das auchθ μ
Sie können noch tiefer gehen und herausfinden, dass es in der Realität keine "Wahrscheinlichkeit" gibt - es ist nur eine Annäherung an die Unsicherheit um uns herum und es gibt auch alternative Näherungsmöglichkeiten, wie z. B. Fuzzy - Logik (siehe Kosko, 1993) zur Diskussion). Selbst die grundlegenden Werkzeuge und Theoreme, auf denen unsere Methoden basieren, sind Annäherungen und nicht die einzigen, die möglich sind. Wir können in einer solchen Situation einfach nicht sicher sein.
Die Stopp-Regel, nach der Sie suchen, ist immer problemspezifisch und subjektiv, dh auf der Grundlage eines sogenannten professionellen Urteils. Übrigens gibt es viele Forschungsbeispiele, die gezeigt haben, dass Fachleute oft nicht besser und manchmal sogar schlechter beurteilt werden als Laien (z. B. wiederbelebt in Zeitungen und Büchern von Daniel Kahneman ), während sie eher zu Selbstüberschätzung neigen (das ist tatsächlich so) ein Argument, warum wir nicht versuchen sollten, "sicher" über unsere Modelle zu sein).
Kosko, B. (1993). Fuzzy-Denken: Die neue Wissenschaft der Fuzzy-Logik. New York: Hyperion.
quelle
Es gibt ein ganzes Feld, das als nichtparametrische Statistik bezeichnet wird und die Verwendung starker Modelle vermeidet. Ihre Besorgnis über passende Modelle an sich ist jedoch berechtigt. Leider gibt es kein mechanisches Verfahren zum Anpassen von Modellen, das allgemein als "optimal" akzeptiert würde. Wenn Sie beispielsweise das Modell definieren möchten, das die Wahrscheinlichkeit Ihrer Daten maximiert, werden Sie zur empirischen Verteilungsfunktion geführt.
Normalerweise haben wir jedoch einige Hintergrundannahmen und -einschränkungen, z. B. stetig mit endlichen ersten und zweiten Momenten. In solchen Fällen besteht ein Ansatz darin, ein Maß wie Shannon Differential Entropy zu wählen und es über den Raum kontinuierlicher Verteilungen zu maximieren, die Ihre Randbedingungen erfüllen.
Ich möchte darauf hinweisen, dass Sie, wenn Sie nicht nur den ECDF als Standard verwenden möchten, über die Daten hinaus Annahmen hinzufügen müssen, um dorthin zu gelangen, und dies erfordert Fachkenntnisse. Und ja , das gefürchtete ..... fachliche Urteil
Gibt es also einen garantierten Haltepunkt für die Modellierung? Die Antwort lautet nein. Gibt es einen Ort, an dem man gut genug anhalten kann? Im Allgemeinen ja, aber dieser Punkt hängt nicht nur von den Daten und einigen statistischen Desideraten ab. In der Regel werden Sie das Risiko unterschiedlicher Fehler, die technischen Einschränkungen bei der Implementierung der Modelle und die Robustheit ihrer Schätzungen berücksichtigen. etc.
Wie @Luca hervorhob, können Sie immer einen Durchschnitt über eine Klasse von Modellen bilden, aber wie Sie zu Recht betont haben, wird dies die Frage nur auf die nächste Ebene von Hyperparametern treiben. Leider scheinen wir in einer unendlich vielschichtigen Zwiebel zu leben ... in beide Richtungen!
quelle