Ist die lineare Regression überholt? [geschlossen]

12

Ich bin derzeit in einer linearen Regressionsklasse, kann aber das Gefühl nicht loswerden, dass das, was ich lerne, weder für die moderne Statistik noch für das maschinelle Lernen mehr relevant ist. Warum wird so viel Zeit darauf verwendet, Rückschlüsse auf einfache oder multiple lineare Regression zu ziehen, wenn heutzutage so viele interessante Datensätze häufig gegen viele der unrealistischen Annahmen der linearen Regression verstoßen? Warum nicht stattdessen Rückschlüsse auf flexiblere, moderne Tools wie die Regression mithilfe von Support-Vektor-Maschinen oder Gauß-Verfahren ziehen? Dies ist zwar komplizierter als das Auffinden einer Hyperebene in einem Raum, bietet den Schülern aber nicht einen viel besseren Hintergrund, um die Probleme der Neuzeit anzugehen.

Anonymer Emu
quelle
10
Machen Schraubendreher Hämmer überflüssig? Oder hat jeder eine andere Aufgabe?
Sycorax sagt Reinstate Monica
6
Ich habe ein Multitool, das wie ein Messer, eine Säge, ein paar verschiedene Schraubendreher, eine Zange und wahrscheinlich ein paar andere Dinge funktioniert, aber wenn ich eines dieser Werkzeuge brauche, ist es das Letzte, wonach ich greifen würde. Es ist nur zur Not nützlich, es ist nie das "beste Werkzeug für den Job".
Darren
7
Viele, viele Situationen, denen echte Menschen ausgesetzt sind, beinhalten sehr kleine Datenmengen mit hohem Rauschen. In vielen Fällen sind komplexere Modelle nicht realisierbar, während ein einfaches lineares Modell in einem Bruchteil der Zeit mindestens haltbar ist. Während große Datenmengen (und die damit verbundenen Probleme) im Verhältnis zur gesamten Datenanalyse weiter zunehmen werden, werden sehr kleine Datenmengen und die relativ einfachen Analysen, auf die sie sich stützen, niemals verschwinden. Hinzu kommt, dass die komplexeren Tools nicht nur historisch, sondern auch konzeptionell direkt auf einfacheren Tools aufbauen.
Glen_b
6
Zusätzlich zu den vielen Situationen, in denen die lineare Regression weiterhin von praktischem Nutzen ist, ist es auch erwähnenswert, dass sie für das Erlernen einer breiten Klasse komplexerer additiver Modelle von grundlegender Bedeutung ist. Insofern ist diese Frage ein bisschen so, als würde man fragen, ob das Rechnen durch das Kalkül obsolet wird.
Jacob Socolar
1
@ Aksakal Bitte erarbeiten. Was ist mit der Verwendung in der Bayes'schen Optimierung?
Mark L. Stone

Antworten:

24

Es ist wahr, dass die Annahmen der linearen Regression nicht realistisch sind. Dies gilt jedoch für alle statistischen Modelle. "Alle Modelle sind falsch, aber einige sind nützlich."

Ich vermute, Sie haben den Eindruck, dass es keinen Grund gibt, eine lineare Regression zu verwenden, wenn Sie ein komplexeres Modell verwenden könnten. Dies ist nicht der Fall, da komplexere Modelle im Allgemeinen anfälliger für Überanpassungen sind und mehr Rechenressourcen benötigen. Dies ist wichtig, wenn Sie beispielsweise versuchen, Statistiken auf einem eingebetteten Prozessor oder einem Webserver zu erstellen. Einfachere Modelle sind auch leichter zu verstehen und zu interpretieren. Im Gegensatz dazu tendieren komplexe maschinelle Lernmodelle wie neuronale Netze dazu, mehr oder weniger als Black Box zu enden.

Auch wenn die lineare Regression eines Tages praktisch nicht mehr sinnvoll ist (was auf absehbare Zeit äußerst unwahrscheinlich erscheint), bleibt sie theoretisch von Bedeutung, da komplexere Modelle in der Regel auf der linearen Regression als Grundlage aufbauen. Um beispielsweise eine regulierte logistische Regression mit gemischten Effekten zu verstehen, müssen Sie zunächst eine einfache alte lineare Regression verstehen.

Dies soll nicht heißen, dass komplexere, neuere und glänzendere Modelle nicht nützlich oder wichtig sind. Viele von ihnen sind. Die einfacheren Modelle sind jedoch allgemeiner anwendbar und daher wichtiger und es ist klar, sie zuerst zu präsentieren, wenn Sie eine Vielzahl von Modellen präsentieren möchten. Es gibt heutzutage viele schlechte Datenanalysen, die von Leuten durchgeführt werden, die sich selbst als "Datenwissenschaftler" bezeichnen oder so, aber nicht einmal die grundlegenden Dinge kennen, wie zum Beispiel, was ein Konfidenzintervall wirklich ist. Sei keine Statistik!

Kodiologist
quelle
Können Sie klarstellen, was Sie unter einem "komplexen Modell" verstehen? Bedeutet OP dasselbe?
Hatschepsut
1
@ Hatschepsut Praktisch alles, was nicht nur eine lineare Regression oder ein Sonderfall davon ist. Das OP nannte als Beispiele SVMs und Gauß-Prozessmodelle. Ich erwähnte gemischte Modelle, logistische Regression und bestrafte Regression. Einige andere Beispiele sind Entscheidungsbäume, neuronale Netze, MARS, Bayesianische Hierarchiemodelle und Strukturgleichungsmodelle. Wenn Sie sich die Frage stellen, wie wir entscheiden, ob ein Modell komplexer als ein anderes ist oder was genau als Modell gilt, handelt es sich um Cross-Validated-Fragen an sich.
Kodiologist
"Überanpassung"; wie die Verwendung eines Polynoms neunter Ordnung, um etwas anzupassen, das sich als gewichtete Summe von Exponentialen herausstellte. Es passte so gut, dass der Plot die Instrumentenfehler genau über dem Geräuschpegel wiedergab. Ich frage mich immer noch, ob die Verwendung dieses Polynoms tatsächlich besser funktioniert hätte.
Joshua
7

Die lineare Regression ist im Allgemeinen nicht überholt . Es gibt immer noch Leute, die an der Erforschung von LASSO-bezogenen Methoden arbeiten und wie sie zum Beispiel mit Mehrfachtests zusammenhängen - Sie können Emmanuel Candes und Malgorzata Bogdan googeln.

Wenn Sie insbesondere nach dem OLS-Algorithmus fragen, ist die Antwort, warum diese Methode gelehrt wird, so einfach, dass sie eine geschlossene Form hat. Es ist auch einfacher als die Gratregression oder die Version mit Lasso / Elastiknetz. Sie können Ihre Intuition / Beweise auf der Lösung der einfachen linearen Regression aufbauen und dann das Modell mit zusätzlichen Einschränkungen anreichern.

Jakub Bartczuk
quelle
3

Ich denke nicht, dass die Regression alt ist, sie könnte für einige Probleme, mit denen Datenwissenschaftler derzeit konfrontiert sind, als trivial angesehen werden, ist aber immer noch das ABC der statistischen Analyse. Wie solltest du verstehen, ob SVM richtig funktioniert, wenn du nicht weißt, wie das einfachste Modell funktioniert? Mit einem solch einfachen Tool lernen SIE, wie Sie die Daten untersuchen, bevor Sie in verrückte komplexe Modelle springen, und verstehen, welche Tools für die weitere Analyse verwendet werden können und welche nicht. Nachdem sie dieses Gespräch mit einem Professor und einem Kollegen von mir geführt hatte, erzählte sie mir, dass ihre Schüler großartig darin waren, komplexe Modelle anzuwenden, aber sie konnten nicht verstehen, was ein Hebel ist, oder sie lasen eine einfache QQ-Zeichnung, um zu verstehen, was mit den Daten nicht stimmte. Oft steht im einfachsten und lesbarsten Modell die Schönheit.

Fra Contin
quelle
3

Die kurze Antwort lautet nein . Wenn Sie beispielsweise ein lineares Modell mit MNIST-Daten versuchen, erhalten Sie immer noch ~ 90% der Genauigkeit!

Eine lange Antwort wäre "abhängig von der Domäne", aber ein lineares Modell ist weit verbreitet.

  • In bestimmten Bereichen, zum Beispiel in der Medizin, ist es sehr teuer, einen Datenpunkt zu erhalten. Und die Analysearbeit ähnelt immer noch der von vor vielen Jahren: Die lineare Regression spielt immer noch eine sehr wichtige Rolle.

  • In morden maschinellem Lernen, zum Beispiel der Textklassifikation, ist das lineare Modell immer noch sehr wichtig, obwohl es andere schickere Modelle gibt. Dies liegt daran, dass das lineare Modell sehr "stabil" ist und weniger Lust hat, über die Daten zu passen.

Schließlich ist das lineare Modell tatsächlich der Baustein für die meisten anderen Modelle. Wenn Sie gut lernen, werden Sie in Zukunft davon profitieren.

Haitao Du
quelle
2

In der Praxis ist die lineare Regression nützlich, auch wenn Sie für Ihre Arbeit ein komplexeres Modell verwenden. Der Schlüssel liegt darin, dass die lineare Regression leicht zu verstehen und daher einfach zu verwenden ist, um konzeptionell zu verstehen, was in komplexeren Modellen geschieht.

Ich kann Ihnen ein praktisches Anwendungsbeispiel aus meiner Praxis als statistischer Analytiker anbieten. Wenn Sie sich unbeaufsichtigt in der Wildnis mit einem großen Datensatz wiederfinden und Ihr Chef Sie auffordert, eine Analyse durchzuführen, wo fangen Sie an? Wenn Sie mit dem Datensatz nicht vertraut sind und keine Ahnung haben, wie sich die verschiedenen Features voraussichtlich gegenseitig beeinflussen, ist ein komplexes Modell, wie Sie es vorgeschlagen haben, ein schlechter Ausgangspunkt für Untersuchungen.

Stattdessen ist der beste Ausgangspunkt eine einfache alte lineare Regression. Führen Sie eine Regressionsanalyse durch, sehen Sie sich die Koeffizienten an und zeichnen Sie die Residuen grafisch auf. Sobald Sie sehen, was mit den Daten passiert, können Sie entscheiden, welche erweiterten Methoden Sie anwenden möchten.

Ich behaupte, wenn Sie Ihre Daten nur in eine Blackbox mit fortgeschrittenem Modell wie sklearn.svm gesteckt haben (wenn Sie sich für Python interessieren), haben Sie ein sehr geringes Vertrauen, dass Ihre Ergebnisse aussagekräftig sind.

kingledion
quelle