Was ist elastische Netzregulierung und wie werden die Nachteile von Ridge ( ) und Lasso ( ) behoben?

Antworten:

42

1. Welche Methode wird bevorzugt?

Ja, elastische Netze werden immer der Lasso-Ridge-Regression vorgezogen, da sie die Einschränkungen beider Methoden aufheben und sie jeweils als Sonderfälle einbeziehen. Wenn also die Kamm- oder Lassolösung in der Tat die beste ist, identifiziert jede gute Modellauswahlroutine dies als Teil des Modellierungsprozesses.

Kommentare zu meinem Beitrag haben darauf hingewiesen, dass die Vorteile des elastischen Netzes nicht uneingeschränkt bestehen. Ich bin weiterhin der Überzeugung, dass die Allgemeinheit der elastischen Netzregression entweder der oder der Regularisierung für sich allein vorzuziehen ist . Insbesondere denke ich, dass die Streitpunkte zwischen mir und anderen direkt mit den Annahmen zusammenhängen, die wir bezüglich des Modellierungsprozesses treffen möchten. Bei ausreichendem Wissen über die zugrunde liegenden Daten werden einige Methoden anderen vorgezogen. Meine Vorliebe für elastisches Netz ist jedoch in meiner Skepsis begründet, dass man sicher wissen wird, dass oder das wahre Modell ist.L1L2L1L2

  1. Behauptung: Vorkenntnisse können die Verwendung einer elastischen Netzregression überflüssig machen.

Dies ist etwas kreisförmig. Verzeihen Sie mir, wenn dies etwas unangenehm ist, aber wenn Sie wissen, dass LASSO (Grat) die beste Lösung ist, werden Sie sich nicht fragen, wie Sie es angemessen modellieren sollen. Sie passen nur ein LASSO (Ridge) Modell. Wenn Sie absolut sicher sind, dass die richtige Antwort die LASSO-Regression ist, dann sind Sie davon überzeugt, dass es keinen Grund gibt, Zeit mit dem Anbringen eines elastischen Netzes zu verschwenden. Wenn Sie jedoch etwas weniger sicher sind, ob LASSO (First) die richtige Vorgehensweise ist, ist es meines Erachtens sinnvoll, ein flexibleres Modell einzuschätzen und zu bewerten, wie stark die Daten die vorherige Annahme stützen.

  1. Behauptung: Bescheiden große Datenmengen erlauben nicht die Ermittlung von oder Lösungen als bevorzugt, selbst wenn die oder Lösung das wahre Modell ist.L1L2L1L2

Dies gilt auch, aber ich denke, es ist aus einem ähnlichen Grund zirkulär: Wenn Sie eine optimale Lösung geschätzt haben und dann ist dies das Modell, das die Daten unterstützen. Einerseits ist Ihr geschätztes Modell nicht das wahre Modell, aber ich muss mich fragen, wie man vor jeder Modellschätzung wissen kann, dass das wahre Modell (oder ) ist. Es mag Bereiche geben, in denen Sie über solche Vorkenntnisse verfügen, aber meine berufliche Tätigkeit gehört nicht dazu.α{0,1},α=1α=0

  1. Behauptung: Die Einführung zusätzlicher Hyperparameter erhöht den Rechenaufwand für die Schätzung des Modells.

Dies ist nur relevant, wenn Sie zeitliche oder computergestützte Einschränkungen haben. sonst ist es nur ein Ärgernis. GLMNET ist der Goldstandard-Algorithmus zur Schätzung elastischer Netzlösungen. Der Benutzer gibt einen Alpha-Wert an und verwendet die Pfadeigenschaften der Regularisierungslösung, um schnell eine Modellfamilie für eine Vielzahl von Werten der Bestrafungsgröße schätzen. Oft kann er diese Lösungsfamilie schneller schätzen als schätzen Nur eine Lösung für einen bestimmten Wert . Ja, mit GLMNET sind Sie in der Lage, Methoden im Grid-Stil zu verwenden (durchlaufen Sie einige Werte von und lassen Sie GLMNET eine Vielzahl von s ausprobieren ), aber es ist ziemlich schnell.λλαλ

  1. Behauptung: Eine verbesserte Leistung des elastischen Netzes gegenüber LASSO oder einer Kammregression ist nicht garantiert.

Dies ist wahr, aber wenn man überlegt, welche Methode man anwenden soll, wird man nicht wissen, welches elastische Netz, Kamm oder LASSO das beste ist. Wenn einer der Gründe dafür ist, dass die beste Lösung LASSO oder eine Kammregression sein muss, fallen wir in den Bereich von Claim (1). Wenn wir uns immer noch nicht sicher sind, welche Lösung die beste ist, können wir LASSO-, First- und elastische Netzlösungen testen und zu diesem Zeitpunkt die Wahl eines endgültigen Modells treffen (oder, wenn Sie Akademiker sind, schreiben Sie einfach Ihre Arbeit über alle drei ). Diese Situation der vorherigen Unsicherheit versetzt uns entweder in den Bereich von Anspruch (2), in dem das wahre Modell LASSO / Ridge ist, wir es aber nicht im Voraus wussten, und wir wählen versehentlich das falsche Modell aufgrund von schlecht identifizierten Hyperparametern aus, oder elastisches Netz ist eigentlich die beste Lösung.

  1. Behauptung: Hyperparameter-Auswahl ohne Kreuzvalidierung ist stark verzerrt und fehleranfällig .

Die ordnungsgemäße Modellvalidierung ist ein wesentlicher Bestandteil jedes maschinell lernenden Unternehmens. Die Modellvalidierung ist in der Regel ebenfalls ein teurer Schritt. Daher sollte hier versucht werden, Ineffizienzen auf ein Mindestmaß zu beschränken. Wenn eine dieser Ineffizienzen es unnötig macht, Werte zu testen, von denen bekannt ist, dass sie vergeblich sind, kann dies ein Vorschlag sein. Ja, machen Sie das auf jeden Fall, wenn Sie mit der starken Aussage, die Sie über die Anordnung Ihrer Daten treffen, einverstanden sind - aber wir kehren zurück in das Gebiet von Claim (1) und Claim (2).α

2. Was ist die Intuition und die Mathematik hinter dem elastischen Netz?

Ich empfehle dringend, die Literatur zu diesen Methoden zu lesen, beginnend mit dem Originalpapier auf dem elastischen Netz. Die Arbeit entwickelt die Intuition und die Mathematik und ist gut lesbar. Eine Reproduktion hier wäre nur zum Nachteil der Autorenerklärung. Die Zusammenfassung auf hoher Ebene lautet jedoch, dass das elastische Netz eine konvexe Summe von Ridge- und Lasso-Strafen ist, sodass die Zielfunktion für ein Gaußsches Fehlermodell wie folgt aussieht:

Residual Mean Square Error+αRidge Penalty+(1-α)LASSO Strafe

fürα[0,1].

Hui Zou und Trevor Hastie. " Regularisierung und variable Auswahl über das elastische Netz ." JR Statistic. Soc., Bd. 67 (2005), Teil 2., S. 301-320.

Richard Hardy weist darauf hin, dass dies bei Hastie et al. "Die Elemente des statistischen Lernens" Kapitel 3 und 18.

3. Was ist, wenn Sie zusätzliche Normen hinzufügen ?Lq

Dies ist eine Frage, die mir in den Kommentaren gestellt wurde:

Lassen Sie mich ein weiteres Argument gegen Ihren Standpunkt vorschlagen, dass elastisches Netz einheitlich besser ist als Lasso oder Kamm allein. Stellen Sie sich vor, wir fügen der elastischen Nettokostenfunktion eine weitere Strafe hinzu, z. B. Kosten, mit einem Hyperparameter . Ich glaube, es gibt nicht viel Forschung darüber, aber ich wette, dass Sie, wenn Sie eine Kreuzvalidierungssuche in einem 3D-Parameterraster durchführen, als optimalen Wert erhalten. Wenn ja, würden Sie dann argumentieren, dass es immer eine gute Idee ist, auch die Kosten für einzubeziehen.L3γγ0L3

Ich weiß es zu schätzen, dass der Sinn der Frage lautet: "Wenn es so ist, wie Sie es behaupten, und zwei Strafen gut sind, warum nicht noch eine hinzufügen?" Aber ich denke, die Antwort liegt darin, warum wir überhaupt regulieren.

L1 Regularisierung führt in der Regel zu spärlichen Lösungen, wählt jedoch auch das Merkmal aus, das am stärksten mit dem Ergebnis korreliert, und stellt den Rest auf Null. Außerdem kann er in einem Datensatz mit Beobachtungen höchstens Merkmale auswählen . Regularisierung ist geeignet, um schlecht gestellte Probleme zu lösen, die sich aus stark (oder perfekt) korrelierten Merkmalen ergeben. In einem Datensatz mit Merkmalen kann die Regularisierung verwendet werden, um ein Modell im Fall eindeutig zu identifizieren .nnL2pL2p>n

Abgesehen von diesen beiden Problemen kann das regularisierte Modell das ML-Modell immer noch übertreffen, da die Schrumpfeigenschaften der Schätzer "pessimistisch" sind und die Koeffizienten gegen 0 ziehen.

Die statistischen Eigenschaften der Regularisierung sind mir jedoch nicht bekannt . Bei den Problemen, an denen ich gearbeitet habe, stehen wir im Allgemeinen vor beiden Problemen: der Einbeziehung von schlecht korrelierten Merkmalen (Hypothesen, die von den Daten nicht bestätigt werden) und kolinearen Merkmalen.L3

Tatsächlich gibt es zwingende Gründe dafür, dass und Strafen für Parameter die einzigen sind, die typischerweise verwendet werden.L1L2

In Warum sehen wir nur die Regularisierung von und aber keine anderen Normen? L1L2@whuber bietet diesen Kommentar an:

Ich habe diese Frage nicht speziell untersucht, aber die Erfahrung mit ähnlichen Situationen legt nahe, dass es eine gute qualitative Antwort geben kann: Alle Normen, die am Ursprung als zweite differenzierbar sind, sind lokal äquivalent zueinander, wobei die Norm der Standard ist . Alle anderen Normen sind am Ursprung nicht unterscheidbar und reproduziert qualitativ ihr Verhalten. Das deckt die Skala ab. Tatsächlich nähert eine lineare Kombination einer und Norm jede Norm der zweiten Ordnung am Ursprung an - und dies ist das Wichtigste bei der Regression ohne abgelegene Residuen.L2L1L1L2

Auf diese Weise können wir den Bereich von Optionen effektiv abdecken, die möglicherweise durch Normen als Kombinationen von und Normen bereitgestellt werden könnten - und das alles, ohne dass eine zusätzliche Anpassung der Hyperparameter erforderlich ist.LqL1L2

Sycorax sagt Reinstate Monica
quelle
4
Zu sagen, dass "elastisches Netz immer der Lasso & Ridge-Regression vorgezogen wird", mag etwas zu stark sein. Bei kleinen oder mittleren Proben kann es sein, dass das elastische Netz kein reines LASSO oder keine reine Kammlösung auswählt, selbst wenn das erstere oder das letztere tatsächlich das relevante ist. Bei guten Vorkenntnissen kann es sinnvoll sein, anstelle des elastischen Netzes LASSO oder Ridge zu wählen. Mangels Vorkenntnissen sollte jedoch das elastische Netz die bevorzugte Lösung sein.
Richard Hardy
4
Ich muss widersprechen: Die Einführung von als weiteren Hyperparameter bedeutet, dass er eingestellt oder optimiert werden muss. Eine verbesserte Leistung kann nicht garantiert werden . α
Scortchi
7
+1 für eine eingehende Diskussion, aber lassen Sie mich ein weiteres Argument gegen Ihren Standpunkt vorschlagen, dass elastisches Netz einheitlich besser ist als Lasso oder Kamm allein. Stellen Sie sich vor, wir fügen der elastischen Nettokostenfunktion eine weitere Strafe hinzu, z. B. L3-Kosten, mit einem Hyperparameter . Ich denke, es gibt nicht viel Forschung darüber, aber ich wette, dass Sie, wenn Sie eine Kreuzvalidierungssuche in einem 3D-Parameterraster durchführen, als optimalen Wert erhalten. Wenn ja, würden Sie dann argumentieren, dass es immer eine gute Idee ist, auch die Kosten für L3 einzubeziehen? γγ0
Amöbe sagt Reinstate Monica
5
Die Frage von @amoeba war sehr klug, und ich denke, wenn Sie sie beantworten, scheinen Sie Ihre Standards etwas geändert zu haben. Es sei denn , du bist absolut sicher , dass eine Mischung aus & penalization am besten ist , warum dann nicht lassen Sie die Daten entscheiden , wie viel penalization zu bewerben? Ihre Argumente scheinen immer noch etwas zu stark und rechtfertigen das Hinzufügen weiterer (Hyper-) Parameter in fast jeder Situation. L1L2L3
Scortchi - Wiedereinsetzung von Monica
3
"Wir können Lösungen für LASSO-, First- und elastische Netze testen und ein endgültiges Modell auswählen" - wir können, aber das ist natürlich selbst ein neues Verfahren, bei dem ein zufälliges Kriterium optimiert wird, das möglicherweise eine bessere Leistung erbringt oder nicht als LASSo oder Gratregression oder elastisches Netz allein.
Scortchi
11

Ich stimme im Allgemeinen der Antwort von @Sycorax zu, möchte aber eine Qualifikation hinzufügen.

Zu sagen, dass "elastisches Netz immer der Lasso & Ridge-Regression vorgezogen wird", mag etwas zu stark sein. Bei kleinen oder mittleren Proben kann es sein, dass das elastische Netz kein reines LASSO oder keine reine Kammlösung auswählt, selbst wenn das erstere oder das letztere tatsächlich das relevante ist. Bei guten Vorkenntnissen kann es sinnvoll sein, anstelle des elastischen Netzes LASSO oder Ridge zu wählen. Mangels Vorkenntnissen sollte jedoch das elastische Netz die bevorzugte Lösung sein.

Außerdem ist das elastische Netz rechenintensiver als LASSO oder Ridge, da das relative Gewicht von LASSO gegenüber Ridge mithilfe einer Kreuzvalidierung ausgewählt werden muss. Wenn ein vernünftiges Raster von Alpha-Werten [0,1] mit einer Schrittgröße von 0,1 ist, bedeutet dies, dass das elastische Netz ungefähr 11-mal so rechenaufwendig ist wie LASSO oder Ridge. (Da LASSO und Ridge nicht den gleichen Rechenaufwand haben, ist das Ergebnis nur eine grobe Schätzung.)

Richard Hardy
quelle
1
In der Tat kann eine LASSO- oder Kammregression keine bessere Vorhersageleistung gegenüber einer nicht abgestuften Regression ergeben.
Scortchi
4
Welche Vorkenntnisse würden dazu führen, dass man Lasso bevorzugt, und welche Vorkenntnisse würden dazu führen, dass man Kamm bevorzugt?
Amöbe sagt Reinstate Monica
4
@amoeba, wenn es plausibel ist, dass alle Regressoren relevant sind, diese aber stark korrelieren, ist keine variable Auswahl erforderlich, und daher könnte der Kamm bevorzugt werden. Wenn andererseits einige der Regressoren wahrscheinlich völlig irrelevant sind (wir wissen jedoch nicht, welche), ist eine variable Auswahl erforderlich, und LASSO könnte bevorzugt werden. Dieses Wissen würde dem Fachgebiet entnommen. Ich denke, es gibt einige Beispiele bei Hastie et al. "Die Elemente des statistischen Lernens" oder in der verwandten Literatur, ich erinnere mich einfach nicht, wo ich das gelesen habe.
Richard Hardy
1
@kjetilbhalvorsen, danke, das war hilfreich.
Richard Hardy
1
@amoeba, Ridge ist besser für korrelierte Daten, bei denen L2 viele kleine Gewichtungen (Mittelwertbildung) über die Eingaben anregt. Das klassische Beispiel sind wiederholte Messungen mit unabhängigem Rauschen (z. B. Signalverarbeitung oder mehrere Untersuchungen desselben Subjekts), während l1 dies ist Besser, wenn 1 Var den anderen dominiert, wobei der klassische Fall hierarchische Daten sind: wobei Koeffizienten auf der höchsten Hierarchieebene geschätzt werden sollten.
Seanv507