Nur ein Gedanke:
Sparsame Modelle waren bei der Modellauswahl immer die Standardanwendung, aber inwieweit ist dieser Ansatz veraltet? Ich bin gespannt, wie sehr unsere Neigung zur Sparsamkeit ein Relikt aus einer Zeit von Abakus und Rechenschiebern (oder, im Ernst, nicht modernen Computern) ist. Die heutige Rechenleistung ermöglicht es uns, immer komplexere Modelle mit immer besseren Vorhersagemöglichkeiten zu erstellen. Müssen wir uns aufgrund dieser zunehmenden Obergrenze der Rechenleistung wirklich noch der Einfachheit zuwenden?
Sicher, einfachere Modelle sind einfacher zu verstehen und zu interpretieren, aber im Zeitalter immer größer werdender Datensätze mit einer größeren Anzahl von Variablen und einer Verlagerung hin zu einer stärkeren Konzentration auf die Vorhersagefähigkeit ist dies möglicherweise nicht mehr möglich oder sogar erforderlich.
Gedanken?
quelle
Antworten:
@Matts ursprüngliche Antwort beschreibt hervorragend einen der Vorteile von Sparsamkeit, aber ich denke nicht, dass sie Ihre Frage tatsächlich beantwortet. In Wirklichkeit ist Sparsamkeit nicht der Goldstandard. Weder jetzt noch jemals zuvor. Ein "Goldstandard" in Bezug auf Sparsamkeit ist ein Generalisierungsfehler. Wir möchten Modelle entwickeln, die nicht zu stark passen. Dies ist für die Vorhersage außerhalb der Stichprobe ebenso nützlich (oder so interpretierbar oder mit minimalem Fehler) wie für die Stichprobe. Es stellt sich heraus (aufgrund der oben dargelegten Dinge), dass Sparsamkeit tatsächlich ein guter Proxy für Generalisierungsfehler ist, aber es ist keineswegs der einzige.
Denken Sie wirklich darüber nach, warum wir Cross-Validation oder Bootstrapping oder Train / Test-Sets verwenden. Ziel ist es, Modelle mit guter Generalisierungsgenauigkeit zu erstellen. In den meisten Fällen wählen diese Methoden zur Schätzung der Leistung außerhalb der Stichprobe Modelle mit geringerer Komplexität, jedoch nicht immer. Stellen Sie sich als extremes Beispiel vor, das Orakel übergibt uns das wahre, aber äußerst komplexe Modell und ein armes, aber sparsames Modell. Wenn Sparsamkeit wirklich unser Ziel wäre, würden wir die zweite wählen, aber in Wirklichkeit ist die erste das, was wir gerne lernen würden, wenn wir könnten. Leider ist der letzte Satz die meiste Zeit der Kicker, "wenn wir könnten".
quelle
Sparsame Modelle sind nicht nur aufgrund der Rechenanforderungen, sondern auch für die Generalisierungsleistung wünschenswert. Es ist unmöglich, das Ideal von unendlichen Daten zu erreichen, die den Probenraum vollständig und genau abdecken, was bedeutet, dass nicht-sparsame Modelle das Potenzial haben, Rauschen oder Eigenheiten in der Probenpopulation zu übertreffen und zu modellieren.
Es ist sicherlich möglich, ein Modell mit Millionen von Variablen zu erstellen, aber Sie würden Variablen verwenden, die keinen Einfluss auf die Ausgabe haben, um das System zu modellieren. Sie könnten eine hervorragende Prognoseleistung für Ihr Trainings-Dataset erzielen, aber diese irrelevanten Variablen verringern höchstwahrscheinlich Ihre Leistung für ein unsichtbares Test-Set.
Wenn eine Ausgabevariable wirklich das Ergebnis von einer Million Eingabevariablen ist, sollten Sie sie alle in Ihr Vorhersagemodell aufnehmen, aber nur, wenn Sie über genügend Daten verfügen . Um ein Modell dieser Größe genau zu erstellen, benötigen Sie mindestens mehrere Millionen Datenpunkte. Sparsame Modelle sind nett, weil in vielen realen Systemen ein Datensatz dieser Größe einfach nicht verfügbar ist und außerdem die Ausgabe größtenteils durch eine relativ kleine Anzahl von Variablen bestimmt wird.
quelle
Ich denke, die vorherigen Antworten leisten gute Arbeit, um wichtige Punkte hervorzuheben:
Ich möchte ein paar Kommentare hinzufügen, die aus meiner täglichen Berufserfahrung stammen.
Die Verallgemeinerung des Vorhersagegenauigkeitsarguments ist natürlich stark, aber es ist akademisch voreingenommen. Im Allgemeinen sind die Volkswirtschaften bei der Erstellung eines statistischen Modells nicht derart, dass die Prognoseleistung eine vollständig dominierende Rolle spielt. Sehr oft gibt es große äußere Einschränkungen dafür, wie ein nützliches Modell für eine bestimmte Anwendung aussieht:
In realen Anwendungsdomänen, viele , wenn nicht alle diese Überlegungen kommen vor , nicht nach , Predictive Performance - und die Optimierung der Modellform und Parameter wird eingeschränkt durch diese Wünsche. Jede dieser Einschränkungen führt den Wissenschaftler zu Sparsamkeit.
Es mag richtig sein, dass in vielen Bereichen diese Einschränkungen allmählich aufgehoben werden. Aber es ist der glückliche Wissenschaftler, der sie ignorieren kann, um Verallgemeinerungsfehler zu minimieren.
Dies kann sehr frustrierend sein, wenn Wissenschaftler zum ersten Mal die Schule verlassen haben (es war definitiv für mich und ist es auch weiterhin, wenn ich der Meinung bin, dass die Einschränkungen, die meiner Arbeit auferlegt werden, nicht gerechtfertigt sind). Aber am Ende ist es eine Verschwendung, hart daran zu arbeiten, ein inakzeptables Produkt herzustellen, und das fühlt sich schlimmer an als der Stich Ihres wissenschaftlichen Stolzes.
quelle
Ich denke das ist eine sehr gute Frage. Meiner Meinung nach wird Sparsamkeit überbewertet. Die Natur ist selten sparsam, und daher sollten wir auch nicht unbedingt genaue Vorhersagemodelle oder deskriptive Modelle erwarten. Was genau verstehen Sie in Bezug auf die Frage der Interpretierbarkeit, wenn Sie ein einfacheres Modell wählen, das sich nur deshalb nur bescheiden an die Realität anpasst, weil Sie es verstehen können? Unter der Annahme, dass ein komplexeres Modell eine bessere Vorhersagekraft hat, scheint es sowieso näher an den tatsächlichen Tatsachen zu sein.
quelle
Sparsamkeit ist kein goldener Anfang. Es ist ein Aspekt bei der Modellierung. Modellierung und insbesondere Prognose können nicht per Skript erstellt werden, dh Sie können ein Skript nicht einfach an einen Modellierer übergeben, um es zu befolgen. Sie definieren vielmehr Prinzipien, auf denen der Modellierungsprozess basieren muss. Die Sparsamkeit ist also eines dieser Prinzipien, deren Anwendung (wieder!) Nicht skriptiert werden kann. Ein Modellierer berücksichtigt die Komplexität bei der Auswahl eines Modells.
Rechenleistung hat damit wenig zu tun. Wenn Sie in der Branche tätig sind, werden Ihre Modelle von Geschäftsleuten konsumiert, von Produktleuten, von wem auch immer Sie sie nennen. Sie müssen ihnen Ihr Modell erklären, es sollte für sie einen Sinn ergeben . In dieser Hinsicht hilft es, sparsame Modelle zu haben.
Zum Beispiel prognostizieren Sie Produktverkäufe. Sie sollten in der Lage sein zu beschreiben, was die Treiber des Verkaufs sind und wie sie funktionieren. Diese müssen sich auf Konzepte beziehen, mit denen das Geschäft arbeitet, und die Zusammenhänge müssen vom Geschäft verstanden und akzeptiert werden. Bei komplexen Modellen kann es sehr schwierig sein, die Ergebnisse des Modells zu interpretieren oder die Unterschiede den tatsächlichen zuzuordnen. Wenn Sie Ihrem Unternehmen Ihre Modelle nicht erklären können, werden Sie von ihm nicht geschätzt.
Eine weitere Sache, die für die Vorhersage besonders wichtig ist. Angenommen, Ihr Modell hängt von N exogenen Variablen ab. Dies bedeutet, dass Sie zuerst die Vorhersagen dieser Variablen abrufen müssen, um Ihre abhängige Variable vorherzusagen. Ein kleineres N erleichtert Ihnen das Leben, sodass Sie ein einfacheres Modell einfacher verwenden können.
quelle
Vielleicht haben Sie einen Überblick über das Akaike-Informationskriterium , ein Konzept, das ich erst gestern durch Zufall entdeckt habe. Der AIC versucht herauszufinden, welches Modell und wie viele Parameter die beste Erklärung für die vorliegenden Beobachtungen sind, anstatt einen einfachen Ansatz für Occams Rasiermesser oder Sparsamkeit zu verwenden.
quelle