Die Weihnachtszeit hat mir die Möglichkeit gegeben, mich mit den Elementen des statistischen Lernens am Feuer zu entspannen . Aus ökonometrischer Sicht (häufig) habe ich Probleme, die Verwendung von Schrumpfungsmethoden wie Ridge Regression, Lasso und Least Angle Regression (LAR) zu verstehen. Normalerweise interessiert mich die Parameterschätzung selbst und das Erreichen von Unparteilichkeit oder zumindest Konsistenz. Schrumpfmethoden tun das nicht.
Es scheint mir, dass diese Methoden verwendet werden, wenn der Statistiker befürchtet, dass die Regressionsfunktion auf die Prädiktoren zu schnell anspricht, dass die Prädiktoren für ihn wichtiger sind (gemessen an der Größe der Koeffizienten) als sie tatsächlich sind. Mit anderen Worten, Überanpassung.
OLS liefert jedoch in der Regel unvoreingenommene und konsistente Schätzungen. (Fußnote) Ich habe immer das Problem der Überanpassung gesehen, nicht zu große Schätzungen, sondern zu kleine Konfidenzintervalle anzugeben, da der Auswahlprozess nicht berücksichtigt wird ( ESL erwähnt diesen letzteren Punkt.
Unvoreingenommene / konsistente Koeffizientenschätzungen führen zu unvoreingenommenen / konsistenten Vorhersagen des Ergebnisses. Durch die Schrumpfungsmethoden werden die Vorhersagen näher an das durchschnittliche Ergebnis herangeführt als durch OLS, so dass anscheinend Informationen auf dem Tisch bleiben.
Um es noch einmal zu wiederholen, ich sehe nicht, welches Problem die Schrumpfungsmethoden zu lösen versuchen. Vermisse ich etwas?
Fußnote: Für die Identifizierung der Koeffizienten benötigen wir die volle Spaltenrangbedingung. Die Exogenität / Null bedingte mittlere Annahme für die Fehler und die lineare bedingte Erwartungsannahme bestimmen die Interpretation, die wir den Koeffizienten geben können, aber wir erhalten eine unvoreingenommene oder konsistente Schätzung von etwas, selbst wenn diese Annahmen nicht zutreffen.
quelle
Antworten:
Ich vermute, Sie möchten eine tiefere Antwort, und ich muss dies jemand anderem überlassen, aber ich kann Ihnen einige Gedanken zur Gratregression aus einer losen, konzeptionellen Perspektive geben.
Die OLS-Regression liefert unverzerrte Parameterschätzungen (dh, wenn solche Stichproben erfasst und Parameter auf unbestimmte Zeit geschätzt werden, wird die Stichprobenverteilung der Parameterschätzungen auf den wahren Wert zentriert). Darüber hinaus weist die Stichprobenverteilung die geringste Varianz aller möglichen unverzerrten Schätzungen auf (dies bedeutet, dass eine OLS-Parameterschätzung im Durchschnitt näher am wahren Wert liegt als eine Schätzung aus einem anderen unverzerrten Schätzverfahren). Dies sind alte Nachrichten (und ich entschuldige mich, ich weiß, dass Sie das gut wissen). Die Tatsache, dass die Varianz geringer ist, bedeutet jedoch nicht, dass sie fürchterlich gering ist. Unter bestimmten Umständen kann die Varianz der Stichprobenverteilung so groß sein, dass der OLS-Schätzer im Wesentlichen wertlos wird. (Eine Situation, in der dies auftreten kann, ist, wenn ein hohes Maß an Multikollinearität vorliegt.)
Was ist in einer solchen Situation zu tun? Nun, es könnte ein anderer Schätzer gefunden werden, der eine geringere Varianz aufweist (obwohl er offensichtlich voreingenommen sein muss, wenn man bedenkt, was oben festgelegt wurde). Das heißt, wir tauschen Unparteilichkeit gegen geringere Varianz aus. Zum Beispiel erhalten wir Parameterschätzungen, die wahrscheinlich wesentlich näher am wahren Wert liegen, wenn auch wahrscheinlich etwas unter dem wahren Wert. Ob sich dieser Kompromiss lohnt, muss der Analyst beurteilen, wenn er mit dieser Situation konfrontiert wird. In jedem Fall ist die Gratregression eine solche Technik. Die folgende (vollständig gefertigte) Abbildung soll diese Ideen veranschaulichen.
Dies bietet eine kurze, einfache und konzeptionelle Einführung in die Gratregression. Ich weiß weniger über Lasso und LAR, aber ich glaube, dass die gleichen Ideen angewendet werden könnten. Weitere Informationen zum Lasso und zur kleinsten Winkelregression finden Sie hier. Besonders hilfreich ist der Link "Einfache Erklärung ...". Hier finden Sie viel mehr Informationen zu den Schrumpfungsmethoden.
Ich hoffe, das ist etwas wert.
quelle
Der Fehler eines Schätzers ist eine Kombination aus (quadratischen) Bias- und Varianzkomponenten . In der Praxis möchten wir jedoch ein Modell an eine bestimmte endliche Stichprobe von Daten anpassen und den Gesamtfehler des Schätzers minimieren, der für die bestimmte tatsächlich vorhandene Stichprobe ausgewertet wird , anstatt im Durchschnitt einen Fehler von Null über eine bestimmte Grundgesamtheit von Stichproben (das haben wir nicht). Daher möchten wir sowohl die Vorspannung als auch die Varianz reduzieren, um den Fehler zu minimieren, was häufig bedeutet, die Unparteilichkeit zu opfern, um die Varianzkomponente stärker zu reduzieren. Dies gilt insbesondere für kleine Datensätze, bei denen die Varianz wahrscheinlich hoch ist.
Ich denke, der Unterschied im Fokus hängt davon ab, ob man an den Eigenschaften eines Verfahrens interessiert ist oder die besten Ergebnisse für eine bestimmte Probe erzielt. Frequentisten finden es in der Regel einfacher, mit ersteren innerhalb dieses Rahmens umzugehen. Bayesianer konzentrieren sich oft mehr auf Letzteres.
quelle
Ich denke, dass es ein paar Antworten gibt, die zutreffen könnten:
Ich bin mir nicht sicher, ob der erste Punkt in Bezug auf die Gratregression wirklich ein Merkmal ist. Ich denke, dass ich mein Modell lieber ändern möchte, um mich mit der Nichtidentifizierung zu befassen. Auch ohne Modelländerung bietet OLS in diesem Fall eindeutige (und unvoreingenommene / konsistente) Vorhersagen des Ergebnisses.
Ich konnte sehen, wie hilfreich der zweite Punkt sein könnte, aber die Vorauswahl kann auch funktionieren, wenn die Anzahl der Parameter die Anzahl der Beobachtungen übersteigt und objektive / konsistente Schätzungen liefert.
Was den letzten Punkt betrifft, so kann die Vorwärts- / Rückwärtsauswahl leicht automatisiert werden.
Die wirklichen Vorteile sehe ich also immer noch nicht.
quelle
Hier ist ein grundlegendes Anwendungsbeispiel aus der Biostatistik
Nehmen wir an, ich untersuche mögliche Zusammenhänge zwischen dem Vorhandensein von Eierstockkrebs und einer Reihe von Genen.
Meine abhängige Variable ist eine Binärvariable (als Null oder 1 codiert). Meine unabhängigen Variablen codieren Daten aus einer Proteomdatenbank.
Wie in vielen Genetikstudien üblich, sind meine Daten viel breiter als hoch. Ich habe 216 verschiedene Beobachtungen, aber 4000 oder so mögliche Prädiktoren.
Die lineare Regression ist richtig (das System ist schrecklich überbestimmt).
Merkmalsauswahltechniken sind wirklich nicht durchführbar. Mit mehr als 4.000 verschiedenen unabhängigen Variablen kommen alle möglichen Teilmengenverfahren nicht in Frage, und selbst die sequentielle Auswahl von Merkmalen ist zweifelhaft.
Die beste Option ist wahrscheinlich die Verwendung einer logistischen Regression mit einem elastischen Netz.
Ich möchte eine Featureauswahl durchführen (identifizieren, welche unabhängigen Variablen wichtig sind), damit die Gratregression wirklich nicht angemessen ist.
Es ist durchaus möglich, dass es mehr als 216 unabhängige Variablen gibt, die einen signifikanten Einfluss haben. Daher sollte ich wahrscheinlich kein Lasso verwenden (Lasso kann nicht mehr Prädiktoren identifizieren, als Sie beobachtet haben) ...
Betreten Sie das elastische Netz ...
quelle
Ein weiteres Problem, das mit linearen Regressionsschrumpfungsmethoden angegangen werden kann, besteht darin, in hochdimensionalen Fall-Kontroll-Studien zu Beobachtungsdaten eine (möglicherweise unvoreingenommene) Schätzung eines durchschnittlichen Behandlungseffekts (ATE) mit geringer Varianz zu erhalten.
Insbesondere in Fällen, in denen 1) eine große Anzahl von Variablen vorhanden ist (was die Auswahl von Variablen für eine exakte Übereinstimmung erschwert), 2) die Übereinstimmung der Neigungsbewertung das Ungleichgewicht in den Behandlungs- und Kontrollproben nicht beseitigt und 3) Multikollinearität vorliegt Es gibt verschiedene Techniken, wie das adaptive Lasso (Zou, 2006), das asymptotisch unvoreingenommene Schätzungen liefert. In mehreren Artikeln wurde die Verwendung der Lasso-Regression für kausale Inferenz und die Erzeugung von Konfidenzintervallen für Koeffizientenschätzungen erörtert (siehe folgenden Beitrag: Inferenz nach Verwendung von Lasso für die Variablenauswahl ).
quelle