Führen wir wirklich multivariate Regressionsanalysen mit * Millionen * Koeffizienten / unabhängigen Variablen durch?

18

Ich verbringe einige Zeit damit, maschinelles Lernen zu lernen (entschuldige die Rekursion :), und ich bin fasziniert von der Faustregel , bei multivariater linearer Regression Gradient Descent anstelle der direkten Gleichungslösung für die Berechnung von Regressionskoeffizienten zu wählen.

10,000-1,000,000

In rechnerischer Hinsicht bekomme ich die Kompromisse / Einschränkungen. Aber berechnen wir aus statistischer Sicht überhaupt Modelle mit so vielen Koeffizienten? Wenn ich mich an meine multivariaten linearen Regressionsklassen in der Grundschule erinnere, wurden wir davor gewarnt, zu viele unabhängige Variablen zu verwenden, da diese möglicherweise einen sehr vernachlässigbaren Einfluss auf die abhängige Variable haben oder deren Verteilung nicht den Annahmen entspricht, die wir über die Daten treffen. Selbst wenn ich meinen Verstand erweitert hätte, um "viele Infusionen" zu denken, hätte ich immer noch nicht an Millionen gedacht .

Fragen):

  • Passiert das wirklich oder handelt es sich um ein theoretisches Problem?
  • Was bringt es, eine Million Infusionen zu analysieren? Erhöht sich der Wert der gewonnenen Informationen wirklich so sehr, als dass wir sie ignorieren?
  • Oder liegt es daran, dass wir anfangs keine Ahnung haben, was nützlich ist, also führen wir einfach die verdammte Regression durch, um zu sehen, was nützlich ist, und gehen von dort aus und beschneiden möglicherweise den Satz von IVs?

Ich glaube immer noch, nur weil wir "alles" analysieren können, heißt das nicht, dass wir es in einen Solver werfen sollten (oder tun ), und einige meiner früheren Fragen spiegeln ähnliche POVs wider.

Ich bin noch nicht fertig mit dem Kurs und stelle die Frage vielleicht zu bald, aber ich kann dieses "Warum" einfach nicht aus dem Kopf bekommen und versuche es nach besten Kräften zu verstehen.

PhD
quelle

Antworten:

14

Passiert das wirklich oder handelt es sich um ein theoretisches Problem?

Es kommt vor, dass Sie ein beliebtes Deeplearning-Modell für Computer Vision sehen. Angenommen , alexnet hat eine dichte Verbindung zwischen 2048 und 2048 Einheiten, das sind 4 Millionen Koeffizienten.

Was bringt es, eine Million Infusionen zu analysieren? Erhöht sich der Wert der gewonnenen Informationen wirklich um ein Vielfaches, anstatt sie zu ignorieren?

Wenn Sie stark kategoriale Daten analysieren (z. B. Internetwerbedaten ), muss Ihr Modell für jede Kategorie (z. B. Stadt, Seiten-ID, Site-Name, Anzeigen-ID, Benutzer-ID usw.) eine aussagekräftige Beschreibung beibehalten Die Größe der Beschreibung hängt vom ausgewählten ML-Modell ab.

Selbst bei einer einfachen logistischen Regression müssen Zehntausende von Parametern angepasst werden (einer pro Kategorie). Fortgeschrittenere Modelle wie Faktorisierungsmaschinen werden mehr Zeit haben.

Oder liegt es daran, dass wir anfangs keine Ahnung haben, was nützlich ist, also führen wir einfach die verdammte Regression durch, um zu sehen, was nützlich ist, und gehen von dort aus und beschneiden möglicherweise den Satz von IVs?

Tatsächlich können die meisten angepassten Parameter in diesen Modellen gelöscht werden, aber Sie können dies nicht im Voraus wissen. Daher müssen Sie nicht festlegen, welche Parameter für das maschinelle Lernen wichtig sind, und einige Regularisierungen vornehmen, um die effektive Anzahl auf einen „weichen Grenzwert“ zu begrenzen von Parametern zu bleiben.

... und ich denke, Sie werden solche Beispiele später in Ihrem ML-Kurs finden.

Alleo
quelle