Welches Problem lösen Schrumpfmethoden?

61

Die Weihnachtszeit hat mir die Möglichkeit gegeben, mich mit den Elementen des statistischen Lernens am Feuer zu entspannen . Aus ökonometrischer Sicht (häufig) habe ich Probleme, die Verwendung von Schrumpfungsmethoden wie Ridge Regression, Lasso und Least Angle Regression (LAR) zu verstehen. Normalerweise interessiert mich die Parameterschätzung selbst und das Erreichen von Unparteilichkeit oder zumindest Konsistenz. Schrumpfmethoden tun das nicht.

Es scheint mir, dass diese Methoden verwendet werden, wenn der Statistiker befürchtet, dass die Regressionsfunktion auf die Prädiktoren zu schnell anspricht, dass die Prädiktoren für ihn wichtiger sind (gemessen an der Größe der Koeffizienten) als sie tatsächlich sind. Mit anderen Worten, Überanpassung.

OLS liefert jedoch in der Regel unvoreingenommene und konsistente Schätzungen. (Fußnote) Ich habe immer das Problem der Überanpassung gesehen, nicht zu große Schätzungen, sondern zu kleine Konfidenzintervalle anzugeben, da der Auswahlprozess nicht berücksichtigt wird ( ESL erwähnt diesen letzteren Punkt.

Unvoreingenommene / konsistente Koeffizientenschätzungen führen zu unvoreingenommenen / konsistenten Vorhersagen des Ergebnisses. Durch die Schrumpfungsmethoden werden die Vorhersagen näher an das durchschnittliche Ergebnis herangeführt als durch OLS, so dass anscheinend Informationen auf dem Tisch bleiben.

Um es noch einmal zu wiederholen, ich sehe nicht, welches Problem die Schrumpfungsmethoden zu lösen versuchen. Vermisse ich etwas?

Fußnote: Für die Identifizierung der Koeffizienten benötigen wir die volle Spaltenrangbedingung. Die Exogenität / Null bedingte mittlere Annahme für die Fehler und die lineare bedingte Erwartungsannahme bestimmen die Interpretation, die wir den Koeffizienten geben können, aber wir erhalten eine unvoreingenommene oder konsistente Schätzung von etwas, selbst wenn diese Annahmen nicht zutreffen.

Charlie
quelle
1
Hier gibt es mehrere verwandte Fragen. Dies ist eine: stats.stackexchange.com/questions/10478/…
Kardinal
2
Es ist zu beachten, dass es einfache und ziemlich schwache Bedingungen für die Wahl des Schrumpfungsparameters gibt, um eine Parameterkonsistenz zu erreichen. Dies wird ausführlich in der berühmten Veröffentlichung von Knight & Fu (2000) beschrieben und deckt Fälle ab, die weit über die Regression des Kamms und das Lasso hinausgehen. Die Konsistenz der Modellauswahl ist in den letzten Jahren ebenfalls zu einem beliebten Thema geworden.
Kardinal
@ cardinal, danke für die Hinweise zum Modellieren von Konsistenzergebnissen für Lasso; Ich gucke mal. Natürlich können diese Ergebnisse auch für OLS gefunden werden. Die Ergebnisse deuten darauf hin, dass beide Verfahren am selben Ort durchgeführt werden. Deshalb verstehe ich immer noch nicht, warum wir Lasso anstelle von OLS verwenden.
Charlie
1
Die Modellkonsistenz ist ein anderes Konzept als die asymptotische Konsistenz der Parameterschätzungen. Kennen Sie diesen Unterschied?
Kardinal
@ cardinal, Mit Modellkonsistenz meine ich, dass die richtigen Prädiktoren enthalten sind. Wir können dies erhalten, indem wir das AIC-Kriterium im Auswahlprozess mit OLS verwenden. Ich nehme an, Sie implizieren, dass Lasso im Grenzfall das richtige Modell mit "falschen" Koeffizienten auswählt.
Charlie

Antworten:

47

Ich vermute, Sie möchten eine tiefere Antwort, und ich muss dies jemand anderem überlassen, aber ich kann Ihnen einige Gedanken zur Gratregression aus einer losen, konzeptionellen Perspektive geben.

Die OLS-Regression liefert unverzerrte Parameterschätzungen (dh, wenn solche Stichproben erfasst und Parameter auf unbestimmte Zeit geschätzt werden, wird die Stichprobenverteilung der Parameterschätzungen auf den wahren Wert zentriert). Darüber hinaus weist die Stichprobenverteilung die geringste Varianz aller möglichen unverzerrten Schätzungen auf (dies bedeutet, dass eine OLS-Parameterschätzung im Durchschnitt näher am wahren Wert liegt als eine Schätzung aus einem anderen unverzerrten Schätzverfahren). Dies sind alte Nachrichten (und ich entschuldige mich, ich weiß, dass Sie das gut wissen). Die Tatsache, dass die Varianz geringer ist, bedeutet jedoch nicht, dass sie fürchterlich gering ist. Unter bestimmten Umständen kann die Varianz der Stichprobenverteilung so groß sein, dass der OLS-Schätzer im Wesentlichen wertlos wird. (Eine Situation, in der dies auftreten kann, ist, wenn ein hohes Maß an Multikollinearität vorliegt.)

Was ist in einer solchen Situation zu tun? Nun, es könnte ein anderer Schätzer gefunden werden, der eine geringere Varianz aufweist (obwohl er offensichtlich voreingenommen sein muss, wenn man bedenkt, was oben festgelegt wurde). Das heißt, wir tauschen Unparteilichkeit gegen geringere Varianz aus. Zum Beispiel erhalten wir Parameterschätzungen, die wahrscheinlich wesentlich näher am wahren Wert liegen, wenn auch wahrscheinlich etwas unter dem wahren Wert. Ob sich dieser Kompromiss lohnt, muss der Analyst beurteilen, wenn er mit dieser Situation konfrontiert wird. In jedem Fall ist die Gratregression eine solche Technik. Die folgende (vollständig gefertigte) Abbildung soll diese Ideen veranschaulichen.

Bildbeschreibung hier eingeben

Dies bietet eine kurze, einfache und konzeptionelle Einführung in die Gratregression. Ich weiß weniger über Lasso und LAR, aber ich glaube, dass die gleichen Ideen angewendet werden könnten. Weitere Informationen zum Lasso und zur kleinsten Winkelregression finden Sie hier. Besonders hilfreich ist der Link "Einfache Erklärung ...". Hier finden Sie viel mehr Informationen zu den Schrumpfungsmethoden.

Ich hoffe, das ist etwas wert.

gung - Wiedereinsetzung von Monica
quelle
12
Dies gibt einige schöne konzeptionelle Hinweise. Im zweiten Absatz wird viel Wert auf Unparteilichkeit gelegt, aber eine wichtige Einschränkung fehlt. Sofern (a) das lineare Modell nicht "korrekt" ist (und wenn ja?) Und (b) alle relevanten Prädiktoren in das Modell einbezogen sind, werden die Koeffizientenschätzungen im Allgemeinen weiterhin verzerrt sein.
Kardinal
5
Mein begrenztes Verständnis des Kompromisses zwischen Abweichung und Abweichung ist, dass jemand, der nach einer Erklärung sucht (wie vielleicht das ursprüngliche Poster), Unparteilichkeit bevorzugt, selbst wenn die Abweichung größer wäre, aber jemand, der eine Prognose erstellt, etwas mit geringer Abweichung bevorzugt, selbst wenn die Abweichung groß ist ist vorgestellt.
Wayne
2
@Wayne: In der Tat ist dies einer der Kernpunkte der Sache. Ein Großteil der Sichtweise in ESL kommt aus einer Vorhersageperspektive, weshalb dies einen großen Teil ihrer Analyse beeinflusst. Eine Inferenz mit einem einzelnen Koeffizienten durchzuführen, insbesondere unter Beobachtungsbedingungen, ist eine sehr schwierige Angelegenheit. Es würde einige ernsthafte Überzeugungsarbeit erfordern, zu behaupten, die Koeffizientenschätzungen seien wirklich "unvoreingenommen".
Kardinal
1
Mit der Zeit kann ich versuchen, meine bereits zu umfangreichen Kommentare etwas später zu erweitern.
Kardinal
@gung, hier ist ein verwandter Meta-Thread, der dich interessieren könnte.
Richard Hardy
16

Der Fehler eines Schätzers ist eine Kombination aus (quadratischen) Bias- und Varianzkomponenten . In der Praxis möchten wir jedoch ein Modell an eine bestimmte endliche Stichprobe von Daten anpassen und den Gesamtfehler des Schätzers minimieren, der für die bestimmte tatsächlich vorhandene Stichprobe ausgewertet wird , anstatt im Durchschnitt einen Fehler von Null über eine bestimmte Grundgesamtheit von Stichproben (das haben wir nicht). Daher möchten wir sowohl die Vorspannung als auch die Varianz reduzieren, um den Fehler zu minimieren, was häufig bedeutet, die Unparteilichkeit zu opfern, um die Varianzkomponente stärker zu reduzieren. Dies gilt insbesondere für kleine Datensätze, bei denen die Varianz wahrscheinlich hoch ist.

Ich denke, der Unterschied im Fokus hängt davon ab, ob man an den Eigenschaften eines Verfahrens interessiert ist oder die besten Ergebnisse für eine bestimmte Probe erzielt. Frequentisten finden es in der Regel einfacher, mit ersteren innerhalb dieses Rahmens umzugehen. Bayesianer konzentrieren sich oft mehr auf Letzteres.

Dikran Beuteltier
quelle
9

Ich denke, dass es ein paar Antworten gibt, die zutreffen könnten:

  • Die Ridge-Regression kann eine Identifikation liefern, wenn die Matrix der Prädiktoren nicht den vollen Spaltenrang hat.
  • Lasso und LAR können verwendet werden, wenn die Anzahl der Prädiktoren größer als die Anzahl der Beobachtungen ist (eine andere Variante des nicht singulären Problems).
  • Lasso und LAR sind automatische Variablenauswahlalgorithmen.

Ich bin mir nicht sicher, ob der erste Punkt in Bezug auf die Gratregression wirklich ein Merkmal ist. Ich denke, dass ich mein Modell lieber ändern möchte, um mich mit der Nichtidentifizierung zu befassen. Auch ohne Modelländerung bietet OLS in diesem Fall eindeutige (und unvoreingenommene / konsistente) Vorhersagen des Ergebnisses.

Ich konnte sehen, wie hilfreich der zweite Punkt sein könnte, aber die Vorauswahl kann auch funktionieren, wenn die Anzahl der Parameter die Anzahl der Beobachtungen übersteigt und objektive / konsistente Schätzungen liefert.

Was den letzten Punkt betrifft, so kann die Vorwärts- / Rückwärtsauswahl leicht automatisiert werden.

Die wirklichen Vorteile sehe ich also immer noch nicht.

Charlie
quelle
6
Einige Anmerkungen: ( 1 ) Die OLS-Schätzungen sind nicht eindeutig, wenn die Matrix der Prädiktoren nicht den vollen Rang hat. ( 2 ) Konsistenz ist ein asymptotisches Konzept und erfordert daher eine Abfolge von Schätzern. Dies bedeutet, dass Sie die Art der Sequenz definieren müssen, die Sie in Betracht ziehen, und die Art des Wachstums, an dem Sie interessiert sind, spielt eine Rolle. ( 3 ) Es gibt mehrere Arten von Konsistenz, und das Verständnis der Unterschiede zwischen ihnen kann veranschaulichend sein. Das Papier von Zhao & Yu (2006) hat eine nette Diskussion. ( 4 ) Unvoreingenommenheit wird überbewertet.
Kardinal
1
( 5 ) Die ursprüngliche Motivation der Gratregression bei Hoerl & Kennard (1970) war der Umgang mit schlecht konditionierten Designmatrizen, was eine "weiche" Form von Rangmangel ist.
Kardinal
1
@ Kardinal, re. (1): Entschuldigung, ich meinte eher Vorhersagen des Ergebnisses als Schätzungen der Koeffizienten.
Charlie
1
Ach ja ok Das passt besser zu Ihrer Fußnote in der Frage.
Kardinal
Hier ist ein Link zur öffentlich zugänglichen Version von Zhao & Yu (2006), wie im obigen Kommentar.
Richard Hardy
4

Hier ist ein grundlegendes Anwendungsbeispiel aus der Biostatistik

Nehmen wir an, ich untersuche mögliche Zusammenhänge zwischen dem Vorhandensein von Eierstockkrebs und einer Reihe von Genen.

Meine abhängige Variable ist eine Binärvariable (als Null oder 1 codiert). Meine unabhängigen Variablen codieren Daten aus einer Proteomdatenbank.

Wie in vielen Genetikstudien üblich, sind meine Daten viel breiter als hoch. Ich habe 216 verschiedene Beobachtungen, aber 4000 oder so mögliche Prädiktoren.

Die lineare Regression ist richtig (das System ist schrecklich überbestimmt).

Merkmalsauswahltechniken sind wirklich nicht durchführbar. Mit mehr als 4.000 verschiedenen unabhängigen Variablen kommen alle möglichen Teilmengenverfahren nicht in Frage, und selbst die sequentielle Auswahl von Merkmalen ist zweifelhaft.

Die beste Option ist wahrscheinlich die Verwendung einer logistischen Regression mit einem elastischen Netz.

Ich möchte eine Featureauswahl durchführen (identifizieren, welche unabhängigen Variablen wichtig sind), damit die Gratregression wirklich nicht angemessen ist.

Es ist durchaus möglich, dass es mehr als 216 unabhängige Variablen gibt, die einen signifikanten Einfluss haben. Daher sollte ich wahrscheinlich kein Lasso verwenden (Lasso kann nicht mehr Prädiktoren identifizieren, als Sie beobachtet haben) ...

Betreten Sie das elastische Netz ...

Richard Willey
quelle
1
Können Sie ein Lehrbuch zur Verfügung stellen, das sich mit den von Ihnen genannten Situationen befasst?
Qbik
0

Ein weiteres Problem, das mit linearen Regressionsschrumpfungsmethoden angegangen werden kann, besteht darin, in hochdimensionalen Fall-Kontroll-Studien zu Beobachtungsdaten eine (möglicherweise unvoreingenommene) Schätzung eines durchschnittlichen Behandlungseffekts (ATE) mit geringer Varianz zu erhalten.

Insbesondere in Fällen, in denen 1) eine große Anzahl von Variablen vorhanden ist (was die Auswahl von Variablen für eine exakte Übereinstimmung erschwert), 2) die Übereinstimmung der Neigungsbewertung das Ungleichgewicht in den Behandlungs- und Kontrollproben nicht beseitigt und 3) Multikollinearität vorliegt Es gibt verschiedene Techniken, wie das adaptive Lasso (Zou, 2006), das asymptotisch unvoreingenommene Schätzungen liefert. In mehreren Artikeln wurde die Verwendung der Lasso-Regression für kausale Inferenz und die Erzeugung von Konfidenzintervallen für Koeffizientenschätzungen erörtert (siehe folgenden Beitrag: Inferenz nach Verwendung von Lasso für die Variablenauswahl ).

RobertF
quelle