Ich bin derzeit in einer linearen Regressionsklasse, kann aber das Gefühl nicht loswerden, dass das, was ich lerne, weder für die moderne Statistik noch für das maschinelle Lernen mehr relevant ist. Warum wird so viel Zeit darauf verwendet, Rückschlüsse auf einfache oder multiple lineare Regression zu ziehen, wenn heutzutage so viele interessante Datensätze häufig gegen viele der unrealistischen Annahmen der linearen Regression verstoßen? Warum nicht stattdessen Rückschlüsse auf flexiblere, moderne Tools wie die Regression mithilfe von Support-Vektor-Maschinen oder Gauß-Verfahren ziehen? Dies ist zwar komplizierter als das Auffinden einer Hyperebene in einem Raum, bietet den Schülern aber nicht einen viel besseren Hintergrund, um die Probleme der Neuzeit anzugehen.
quelle
Antworten:
Es ist wahr, dass die Annahmen der linearen Regression nicht realistisch sind. Dies gilt jedoch für alle statistischen Modelle. "Alle Modelle sind falsch, aber einige sind nützlich."
Ich vermute, Sie haben den Eindruck, dass es keinen Grund gibt, eine lineare Regression zu verwenden, wenn Sie ein komplexeres Modell verwenden könnten. Dies ist nicht der Fall, da komplexere Modelle im Allgemeinen anfälliger für Überanpassungen sind und mehr Rechenressourcen benötigen. Dies ist wichtig, wenn Sie beispielsweise versuchen, Statistiken auf einem eingebetteten Prozessor oder einem Webserver zu erstellen. Einfachere Modelle sind auch leichter zu verstehen und zu interpretieren. Im Gegensatz dazu tendieren komplexe maschinelle Lernmodelle wie neuronale Netze dazu, mehr oder weniger als Black Box zu enden.
Auch wenn die lineare Regression eines Tages praktisch nicht mehr sinnvoll ist (was auf absehbare Zeit äußerst unwahrscheinlich erscheint), bleibt sie theoretisch von Bedeutung, da komplexere Modelle in der Regel auf der linearen Regression als Grundlage aufbauen. Um beispielsweise eine regulierte logistische Regression mit gemischten Effekten zu verstehen, müssen Sie zunächst eine einfache alte lineare Regression verstehen.
Dies soll nicht heißen, dass komplexere, neuere und glänzendere Modelle nicht nützlich oder wichtig sind. Viele von ihnen sind. Die einfacheren Modelle sind jedoch allgemeiner anwendbar und daher wichtiger und es ist klar, sie zuerst zu präsentieren, wenn Sie eine Vielzahl von Modellen präsentieren möchten. Es gibt heutzutage viele schlechte Datenanalysen, die von Leuten durchgeführt werden, die sich selbst als "Datenwissenschaftler" bezeichnen oder so, aber nicht einmal die grundlegenden Dinge kennen, wie zum Beispiel, was ein Konfidenzintervall wirklich ist. Sei keine Statistik!
quelle
Die lineare Regression ist im Allgemeinen nicht überholt . Es gibt immer noch Leute, die an der Erforschung von LASSO-bezogenen Methoden arbeiten und wie sie zum Beispiel mit Mehrfachtests zusammenhängen - Sie können Emmanuel Candes und Malgorzata Bogdan googeln.
Wenn Sie insbesondere nach dem OLS-Algorithmus fragen, ist die Antwort, warum diese Methode gelehrt wird, so einfach, dass sie eine geschlossene Form hat. Es ist auch einfacher als die Gratregression oder die Version mit Lasso / Elastiknetz. Sie können Ihre Intuition / Beweise auf der Lösung der einfachen linearen Regression aufbauen und dann das Modell mit zusätzlichen Einschränkungen anreichern.
quelle
Ich denke nicht, dass die Regression alt ist, sie könnte für einige Probleme, mit denen Datenwissenschaftler derzeit konfrontiert sind, als trivial angesehen werden, ist aber immer noch das ABC der statistischen Analyse. Wie solltest du verstehen, ob SVM richtig funktioniert, wenn du nicht weißt, wie das einfachste Modell funktioniert? Mit einem solch einfachen Tool lernen SIE, wie Sie die Daten untersuchen, bevor Sie in verrückte komplexe Modelle springen, und verstehen, welche Tools für die weitere Analyse verwendet werden können und welche nicht. Nachdem sie dieses Gespräch mit einem Professor und einem Kollegen von mir geführt hatte, erzählte sie mir, dass ihre Schüler großartig darin waren, komplexe Modelle anzuwenden, aber sie konnten nicht verstehen, was ein Hebel ist, oder sie lasen eine einfache QQ-Zeichnung, um zu verstehen, was mit den Daten nicht stimmte. Oft steht im einfachsten und lesbarsten Modell die Schönheit.
quelle
Die kurze Antwort lautet nein . Wenn Sie beispielsweise ein lineares Modell mit MNIST-Daten versuchen, erhalten Sie immer noch ~ 90% der Genauigkeit!
Eine lange Antwort wäre "abhängig von der Domäne", aber ein lineares Modell ist weit verbreitet.
In bestimmten Bereichen, zum Beispiel in der Medizin, ist es sehr teuer, einen Datenpunkt zu erhalten. Und die Analysearbeit ähnelt immer noch der von vor vielen Jahren: Die lineare Regression spielt immer noch eine sehr wichtige Rolle.
In morden maschinellem Lernen, zum Beispiel der Textklassifikation, ist das lineare Modell immer noch sehr wichtig, obwohl es andere schickere Modelle gibt. Dies liegt daran, dass das lineare Modell sehr "stabil" ist und weniger Lust hat, über die Daten zu passen.
Schließlich ist das lineare Modell tatsächlich der Baustein für die meisten anderen Modelle. Wenn Sie gut lernen, werden Sie in Zukunft davon profitieren.
quelle
In der Praxis ist die lineare Regression nützlich, auch wenn Sie für Ihre Arbeit ein komplexeres Modell verwenden. Der Schlüssel liegt darin, dass die lineare Regression leicht zu verstehen und daher einfach zu verwenden ist, um konzeptionell zu verstehen, was in komplexeren Modellen geschieht.
Ich kann Ihnen ein praktisches Anwendungsbeispiel aus meiner Praxis als statistischer Analytiker anbieten. Wenn Sie sich unbeaufsichtigt in der Wildnis mit einem großen Datensatz wiederfinden und Ihr Chef Sie auffordert, eine Analyse durchzuführen, wo fangen Sie an? Wenn Sie mit dem Datensatz nicht vertraut sind und keine Ahnung haben, wie sich die verschiedenen Features voraussichtlich gegenseitig beeinflussen, ist ein komplexes Modell, wie Sie es vorgeschlagen haben, ein schlechter Ausgangspunkt für Untersuchungen.
Stattdessen ist der beste Ausgangspunkt eine einfache alte lineare Regression. Führen Sie eine Regressionsanalyse durch, sehen Sie sich die Koeffizienten an und zeichnen Sie die Residuen grafisch auf. Sobald Sie sehen, was mit den Daten passiert, können Sie entscheiden, welche erweiterten Methoden Sie anwenden möchten.
Ich behaupte, wenn Sie Ihre Daten nur in eine Blackbox mit fortgeschrittenem Modell wie sklearn.svm gesteckt haben (wenn Sie sich für Python interessieren), haben Sie ein sehr geringes Vertrauen, dass Ihre Ergebnisse aussagekräftig sind.
quelle