Sollte Sparsamkeit wirklich noch der Goldstandard sein?

31

Nur ein Gedanke:

Sparsame Modelle waren bei der Modellauswahl immer die Standardanwendung, aber inwieweit ist dieser Ansatz veraltet? Ich bin gespannt, wie sehr unsere Neigung zur Sparsamkeit ein Relikt aus einer Zeit von Abakus und Rechenschiebern (oder, im Ernst, nicht modernen Computern) ist. Die heutige Rechenleistung ermöglicht es uns, immer komplexere Modelle mit immer besseren Vorhersagemöglichkeiten zu erstellen. Müssen wir uns aufgrund dieser zunehmenden Obergrenze der Rechenleistung wirklich noch der Einfachheit zuwenden?

Sicher, einfachere Modelle sind einfacher zu verstehen und zu interpretieren, aber im Zeitalter immer größer werdender Datensätze mit einer größeren Anzahl von Variablen und einer Verlagerung hin zu einer stärkeren Konzentration auf die Vorhersagefähigkeit ist dies möglicherweise nicht mehr möglich oder sogar erforderlich.

Gedanken?

der Forstarzt
quelle
4
Mit Entschuldigung an Richard Hamming: Der Zweck der Modellierung ist Einsicht, nicht Zahlen. Komplizierte Modelle erschweren die Einsicht.
Eric Towers
12
Übermäßig vereinfachte Modelle erschweren die Einsicht noch mehr.
Frank Harrell
6
Dies kann von der Anwendung abhängen. Ich denke, in der Physik wird das Argument für Sparsamkeit eine starke Grundlage haben. Viele Anwendungen haben jedoch eine Reihe kleiner Effekte, die nicht beseitigt werden können (z. B. Modelle für politische Vorlieben). Eine Reihe von Arbeitnehmern schlägt vor, die Regularisierung (z. B. Methoden, die zu einer Schrumpfung führen, oder in vielen Anwendungen die Schrumpfung von Unterschieden oder beides) anstelle der Eliminierung von Variablen sinnvoller anzuwenden. andere neigen zu einer gewissen Auswahl und einer gewissen Schrumpfung (LASSO zum Beispiel macht beides).
Glen_b -Reinstate Monica
3
Sparsame Modelle sind bei der Modellauswahl nicht das "go-to". Ansonsten würden wir immer alles mit seinem Beispielmittelwert modellieren und es einen Tag nennen.
Shadowtalker
1
Einige Denkanstöße: Mease und Wyner (2008) empfehlen reichere Lernende in AdaBoost, was etwas unintuitiv ist. Eine offene Frage in dieser Forschungsrichtung scheint zu sein, ob parsimonious base learners tatsächlich zu parsimonious ensembles führen.
Shadowtalker

Antworten:

25

@Matts ursprüngliche Antwort beschreibt hervorragend einen der Vorteile von Sparsamkeit, aber ich denke nicht, dass sie Ihre Frage tatsächlich beantwortet. In Wirklichkeit ist Sparsamkeit nicht der Goldstandard. Weder jetzt noch jemals zuvor. Ein "Goldstandard" in Bezug auf Sparsamkeit ist ein Generalisierungsfehler. Wir möchten Modelle entwickeln, die nicht zu stark passen. Dies ist für die Vorhersage außerhalb der Stichprobe ebenso nützlich (oder so interpretierbar oder mit minimalem Fehler) wie für die Stichprobe. Es stellt sich heraus (aufgrund der oben dargelegten Dinge), dass Sparsamkeit tatsächlich ein guter Proxy für Generalisierungsfehler ist, aber es ist keineswegs der einzige.

Denken Sie wirklich darüber nach, warum wir Cross-Validation oder Bootstrapping oder Train / Test-Sets verwenden. Ziel ist es, Modelle mit guter Generalisierungsgenauigkeit zu erstellen. In den meisten Fällen wählen diese Methoden zur Schätzung der Leistung außerhalb der Stichprobe Modelle mit geringerer Komplexität, jedoch nicht immer. Stellen Sie sich als extremes Beispiel vor, das Orakel übergibt uns das wahre, aber äußerst komplexe Modell und ein armes, aber sparsames Modell. Wenn Sparsamkeit wirklich unser Ziel wäre, würden wir die zweite wählen, aber in Wirklichkeit ist die erste das, was wir gerne lernen würden, wenn wir könnten. Leider ist der letzte Satz die meiste Zeit der Kicker, "wenn wir könnten".

Nick Thieme
quelle
Welches ist "die ursprüngliche Antwort"?
Mattdm
:) Meinetwegen. Matts Kommentar.
Nick Thieme
22

Sparsame Modelle sind nicht nur aufgrund der Rechenanforderungen, sondern auch für die Generalisierungsleistung wünschenswert. Es ist unmöglich, das Ideal von unendlichen Daten zu erreichen, die den Probenraum vollständig und genau abdecken, was bedeutet, dass nicht-sparsame Modelle das Potenzial haben, Rauschen oder Eigenheiten in der Probenpopulation zu übertreffen und zu modellieren.

Es ist sicherlich möglich, ein Modell mit Millionen von Variablen zu erstellen, aber Sie würden Variablen verwenden, die keinen Einfluss auf die Ausgabe haben, um das System zu modellieren. Sie könnten eine hervorragende Prognoseleistung für Ihr Trainings-Dataset erzielen, aber diese irrelevanten Variablen verringern höchstwahrscheinlich Ihre Leistung für ein unsichtbares Test-Set.

Wenn eine Ausgabevariable wirklich das Ergebnis von einer Million Eingabevariablen ist, sollten Sie sie alle in Ihr Vorhersagemodell aufnehmen, aber nur, wenn Sie über genügend Daten verfügen . Um ein Modell dieser Größe genau zu erstellen, benötigen Sie mindestens mehrere Millionen Datenpunkte. Sparsame Modelle sind nett, weil in vielen realen Systemen ein Datensatz dieser Größe einfach nicht verfügbar ist und außerdem die Ausgabe größtenteils durch eine relativ kleine Anzahl von Variablen bestimmt wird.

Kern Wang
quelle
5
+1. Ich schlage vor, die Elemente des statistischen Lernens (im Internet frei verfügbar) zu lesen , in denen dieses Problem ausführlich erörtert wird.
S. Kolassa - Wiedereinsetzung von Monica
3
Wenn Sie jedoch Millionen von Variablen und wenige Objekte haben, ist es wahrscheinlich, dass einige Variablen rein zufällig das Ergebnis besser erklären als die wahre Interaktion. In diesem Fall ist eine auf Sparsamkeit basierende Modellierung anfälliger für Überanpassungen als ein Brute-Force-Ansatz.
@CagdasOzgenc Zum Beispiel ein großes zufälliges Unterraumensemble.
Ich habe das Gefühl, dass sich hier so etwas wie ein Lasso-Ansatz anwenden lässt.
theforestecologist
17

Ich denke, die vorherigen Antworten leisten gute Arbeit, um wichtige Punkte hervorzuheben:

  • Sparsame Modelle haben tendenziell bessere Verallgemeinerungseigenschaften.
  • Sparsamkeit ist nicht wirklich ein Goldstandard, sondern nur eine Überlegung.

Ich möchte ein paar Kommentare hinzufügen, die aus meiner täglichen Berufserfahrung stammen.

Die Verallgemeinerung des Vorhersagegenauigkeitsarguments ist natürlich stark, aber es ist akademisch voreingenommen. Im Allgemeinen sind die Volkswirtschaften bei der Erstellung eines statistischen Modells nicht derart, dass die Prognoseleistung eine vollständig dominierende Rolle spielt. Sehr oft gibt es große äußere Einschränkungen dafür, wie ein nützliches Modell für eine bestimmte Anwendung aussieht:

  • Das Modell muss innerhalb eines vorhandenen Frameworks oder Systems implementiert werden können.
  • Das Modell muss für eine nicht technische Entität verständlich sein .
  • Das Modell muss rechnerisch effizient sein .
  • Das Modell muss dokumentierbar sein .
  • Das Modell muss behördliche Auflagen erfüllen .

In realen Anwendungsdomänen, viele , wenn nicht alle diese Überlegungen kommen vor , nicht nach , Predictive Performance - und die Optimierung der Modellform und Parameter wird eingeschränkt durch diese Wünsche. Jede dieser Einschränkungen führt den Wissenschaftler zu Sparsamkeit.

Es mag richtig sein, dass in vielen Bereichen diese Einschränkungen allmählich aufgehoben werden. Aber es ist der glückliche Wissenschaftler, der sie ignorieren kann, um Verallgemeinerungsfehler zu minimieren.

Dies kann sehr frustrierend sein, wenn Wissenschaftler zum ersten Mal die Schule verlassen haben (es war definitiv für mich und ist es auch weiterhin, wenn ich der Meinung bin, dass die Einschränkungen, die meiner Arbeit auferlegt werden, nicht gerechtfertigt sind). Aber am Ende ist es eine Verschwendung, hart daran zu arbeiten, ein inakzeptables Produkt herzustellen, und das fühlt sich schlimmer an als der Stich Ihres wissenschaftlichen Stolzes.

Matthew Drury
quelle
2
Keine Sparsamkeit ist keine Überlegung. Eine Prozedur für Schallschlussfolgerungen MUSS ein parsimonious Modell einem nicht-parsimonious Modell vorziehen, wenn sie die Daten gleich gut erklären. Andernfalls sind die gesamte komprimierte Codelänge des Modells und die vom Modell codierten Daten nicht die kleinsten. Also ja, es ist ein Goldstandard.
Cagdas Ozgenc
3
Sparsamkeit ist KEIN "Goldstandard"! Diese Aussage ist absurd. Wenn es wahr wäre, warum bauen wir dann nicht immer Modelle, die nur dem bedingungslosen Mittelwert entsprechen? Wir tauschen Voreingenommenheit und Varianz entweder in Bezug auf einen Testsatz oder, noch besser, in Bezug auf völlig neue Beobachtungen aus, und dies innerhalb der Grenzen unseres Fachgebiets, unserer Organisation und des Gesetzes. Manchmal haben Sie nur genügend Informationen, um naive Vorhersagen zu treffen. Manchmal reicht es, um die Komplexität zu erhöhen.
Dreistes Gleichgewicht
1
@BrashEquilibrium Ich denke, was Cagdas sagt, ist, angesichts der Wahl zwischen gleichermaßen prädiktiven Modellen, dass man das sparsamste wählen sollte.
Matthew Drury
1
Ah. Das ist eine andere Sache. Ja, wählen Sie in diesem Fall das sparsamste Modell. Ich denke immer noch nicht, dass Sparsamkeit ein "Goldstandard" ist.
Brash Equilibrium
1
@MatthewDrury Brash, Cagdas. Interessant. Vielleicht ist Sparsamkeit nur eine Komponente des Goldstandards; Das ist wahrscheinlich (oder sollte es sein) besser, wenn es um den Begriff des Umfassens geht . Eine gute Darstellung dieser Idee findet sich in der folgenden astrophysikalischen Vorlesung aus Yale: oyc.yale.edu/astronomy/astr-160/lecture-11 . Ab 7:04 Uhr. Die Idee kommt auch in der ökonometrischen / Prognoseliteratur von David Hendry und Grayham Mizon vor. Sie argumentieren, dass das Umfassen Teil einer fortschrittlichen Forschungsstrategie ist, bei der Sparsamkeit ein einzelner Aspekt ist.
Graeme Walsh
14

Ich denke das ist eine sehr gute Frage. Meiner Meinung nach wird Sparsamkeit überbewertet. Die Natur ist selten sparsam, und daher sollten wir auch nicht unbedingt genaue Vorhersagemodelle oder deskriptive Modelle erwarten. Was genau verstehen Sie in Bezug auf die Frage der Interpretierbarkeit, wenn Sie ein einfacheres Modell wählen, das sich nur deshalb nur bescheiden an die Realität anpasst, weil Sie es verstehen können? Unter der Annahme, dass ein komplexeres Modell eine bessere Vorhersagekraft hat, scheint es sowieso näher an den tatsächlichen Tatsachen zu sein.

dsaxton
quelle
8
Gut gesagt, @dsaxton. Es gibt ein großes Missverständnis von Sparsamkeit und ein großes Verständnis dafür, wie volatil die Auswahl von Funktionen ist. Sparsamkeit ist schön, wenn sie sich aus der Vorabspezifikation ergibt. Die meiste Sparsamkeit, die sich aus dem Ausbaggern von Daten ergibt, ist irreführend und wird nur verstanden, weil sie falsch ist.
Frank Harrell
2
@FrankHarrell Würden Sie näher auf "nur verstanden, weil es falsch ist" eingehen oder vielleicht auf etwas verlinken, das Sie zuvor darüber geschrieben haben? Dies ist ein interessanter Punkt, den ich unbedingt verstehen möchte.
gui11aume
8
Dies ist ein extremes Beispiel, aber Menschen, die sich mit Rassenprofilen beschäftigen, glauben, mit einem einzigen Merkmal (z. B. Hautfarbe) zu verstehen, welchen Wert jemand hat. Für sie ist die Antwort einfach. Sie verstehen es nur, weil sie ein falsches Urteil fällen, indem sie es zu stark vereinfachen. Sparsamkeit ist normalerweise eine Illusion (mit Ausnahme der Newtonschen Mechanik und einiger anderer Bereiche).
Frank Harrell
1
"Natur ist selten sparsam": Ein Punkt, an dem Natur besonders sparsam ist, sind Individuen (im Gegensatz zu unseren typischen Stichprobengrößen!). Evolution verwendet jede Generation eine völlig neue Population von neuen Individuen ... IMHO the parsimony (Frank Harrells vordefinierter Typ - es ist in der Tat ein sehr komplexes Modell, n von m verfügbaren Merkmalen in das Modell aufzunehmen - auch wenn n << m, Dies ist ein nicht ganz so kleiner Bruchteil des ursprünglichen Suchraums. So versuchen wir, zumindest etwas aus unseren viel zu kleinen Datenmengen herauszuholen.
cbeleites unterstützt Monica
2

Sparsamkeit ist kein goldener Anfang. Es ist ein Aspekt bei der Modellierung. Modellierung und insbesondere Prognose können nicht per Skript erstellt werden, dh Sie können ein Skript nicht einfach an einen Modellierer übergeben, um es zu befolgen. Sie definieren vielmehr Prinzipien, auf denen der Modellierungsprozess basieren muss. Die Sparsamkeit ist also eines dieser Prinzipien, deren Anwendung (wieder!) Nicht skriptiert werden kann. Ein Modellierer berücksichtigt die Komplexität bei der Auswahl eines Modells.

Rechenleistung hat damit wenig zu tun. Wenn Sie in der Branche tätig sind, werden Ihre Modelle von Geschäftsleuten konsumiert, von Produktleuten, von wem auch immer Sie sie nennen. Sie müssen ihnen Ihr Modell erklären, es sollte für sie einen Sinn ergeben . In dieser Hinsicht hilft es, sparsame Modelle zu haben.

Zum Beispiel prognostizieren Sie Produktverkäufe. Sie sollten in der Lage sein zu beschreiben, was die Treiber des Verkaufs sind und wie sie funktionieren. Diese müssen sich auf Konzepte beziehen, mit denen das Geschäft arbeitet, und die Zusammenhänge müssen vom Geschäft verstanden und akzeptiert werden. Bei komplexen Modellen kann es sehr schwierig sein, die Ergebnisse des Modells zu interpretieren oder die Unterschiede den tatsächlichen zuzuordnen. Wenn Sie Ihrem Unternehmen Ihre Modelle nicht erklären können, werden Sie von ihm nicht geschätzt.

Eine weitere Sache, die für die Vorhersage besonders wichtig ist. Angenommen, Ihr Modell hängt von N exogenen Variablen ab. Dies bedeutet, dass Sie zuerst die Vorhersagen dieser Variablen abrufen müssen, um Ihre abhängige Variable vorherzusagen. Ein kleineres N erleichtert Ihnen das Leben, sodass Sie ein einfacheres Modell einfacher verwenden können.

Aksakal
quelle
Obwohl Sie Prognosen erwähnen, scheint der größte Teil Ihrer Antwort nur auf erklärende Modelle zuzutreffen.
Rolando2
@ rolando2, das hört sich so an, denn in meiner Domain kann man die Prognose nicht einfach an die Nutzer weitergeben. Wir müssen die Vorhersage erklären, sie mit Fahrern verknüpfen usw. Wenn Sie eine Wettervorhersage erhalten, bitten Sie den Prognostiker normalerweise nicht, Ihnen zu erklären, warum genau sie glauben, dass es mit einer Wahrscheinlichkeit von 50% regnen wird. In meinem Fall muss ich das nicht nur tun, sondern muss es auch so tun, dass meine Verbraucher die Ergebnisse verstehen, indem sie es mit Geschäftstreibern verknüpfen, mit denen sie täglich zu tun haben. Deshalb ist Sparsamkeit an sich schon wertvoll
Aksakal
1

Vielleicht haben Sie einen Überblick über das Akaike-Informationskriterium , ein Konzept, das ich erst gestern durch Zufall entdeckt habe. Der AIC versucht herauszufinden, welches Modell und wie viele Parameter die beste Erklärung für die vorliegenden Beobachtungen sind, anstatt einen einfachen Ansatz für Occams Rasiermesser oder Sparsamkeit zu verwenden.

Philip Oakley
quelle