Ich verbringe einige Zeit damit, maschinelles Lernen zu lernen (entschuldige die Rekursion :), und ich bin fasziniert von der Faustregel , bei multivariater linearer Regression Gradient Descent anstelle der direkten Gleichungslösung für die Berechnung von Regressionskoeffizienten zu wählen.
In rechnerischer Hinsicht bekomme ich die Kompromisse / Einschränkungen. Aber berechnen wir aus statistischer Sicht überhaupt Modelle mit so vielen Koeffizienten? Wenn ich mich an meine multivariaten linearen Regressionsklassen in der Grundschule erinnere, wurden wir davor gewarnt, zu viele unabhängige Variablen zu verwenden, da diese möglicherweise einen sehr vernachlässigbaren Einfluss auf die abhängige Variable haben oder deren Verteilung nicht den Annahmen entspricht, die wir über die Daten treffen. Selbst wenn ich meinen Verstand erweitert hätte, um "viele Infusionen" zu denken, hätte ich immer noch nicht an Millionen gedacht .
Fragen):
- Passiert das wirklich oder handelt es sich um ein theoretisches Problem?
- Was bringt es, eine Million Infusionen zu analysieren? Erhöht sich der Wert der gewonnenen Informationen wirklich so sehr, als dass wir sie ignorieren?
- Oder liegt es daran, dass wir anfangs keine Ahnung haben, was nützlich ist, also führen wir einfach die verdammte Regression durch, um zu sehen, was nützlich ist, und gehen von dort aus und beschneiden möglicherweise den Satz von IVs?
Ich glaube immer noch, nur weil wir "alles" analysieren können, heißt das nicht, dass wir es in einen Solver werfen sollten (oder tun ), und einige meiner früheren Fragen spiegeln ähnliche POVs wider.
Ich bin noch nicht fertig mit dem Kurs und stelle die Frage vielleicht zu bald, aber ich kann dieses "Warum" einfach nicht aus dem Kopf bekommen und versuche es nach besten Kräften zu verstehen.