In letzter Zeit musste ich mehrere Artikel in Wirtschaftswissenschaften lesen (ein Bereich, mit dem ich nicht allzu vertraut bin). Eine Sache, die mir aufgefallen ist, ist, dass mit OLS angepasste lineare Regressionsmodelle allgegenwärtig sind, selbst wenn die Antwortvariable binär ist. Meine Frage lautet daher:
Warum wird die lineare Regression beispielsweise der logistischen Regression im Bereich der Ökonomie vorgezogen? Handelt es sich lediglich um eine gängige Praxis, oder handelt es sich um ein Verfahren, das aktiv befürwortet wird (in Abhandlungen, von Lehrern usw.)?
Bitte beachten Sie, dass ich nicht frage, warum die Verwendung der linearen Regression mit einer binären Antwort eine schlechte Idee sein kann oder welche alternativen Methoden es gibt. Im Gegenteil, ich frage mich, warum Menschen in dieser Situation lineare Regression anwenden, weil ich die Antworten auf diese beiden Fragen kenne.
quelle
Antworten:
Dieser Blogeintrag von Dave Giles in seinem ökonometrischen Blog beschreibt hauptsächlich die Nachteile des linearen Wahrscheinlichkeitsmodells (LPM).
Er enthält jedoch eine kurze Liste von Gründen, warum Forscher sich dafür entscheiden, es zu verwenden:
Ich weiß nicht, dass das LPM im Vergleich zu logit oder probit all das ist, was häufig verwendet wird, aber einige der oben genannten Gründe sind für mich vernünftig.
quelle
Ich hatte ähnliche Fragen, als ich Artikel aus anderen Akten las. Und in diesem Zusammenhang wurden viele Fragen gestellt, wie zum Beispiel in der Education Data Mining-Community: Warum quadratischen Verlust für Wahrscheinlichkeiten anstelle von logistischen Verlusten verwenden?
Hier werde ich eine Menge persönlicher Meinungen präsentieren.
Ich habe das Gefühl, dass die Verlustfunktion in vielen praktischen Anwendungsfällen keine große Rolle spielt. Einige Forscher wissen vielleicht mehr über Verlustquadrate und bauen ein System daraus auf, es funktioniert immer noch und löst Probleme der realen Welt. Die Forscher kennen möglicherweise nie den Verlust der Logistik oder des Scharniers und möchten ihn ausprobieren. Außerdem sind sie möglicherweise nicht daran interessiert, das optimale mathematische Modell zu finden, sondern möchten echte Probleme lösen, die noch niemand zuvor versucht hat.
Dies ist ein weiteres Beispiel: Wenn Sie diese Antwort auf meine Frage überprüfen, sind sie alle ähnlich. Was sind die Auswirkungen der Auswahl verschiedener Verlustfunktionen bei der Klassifizierung auf einen ungefähren Verlust von 0 bis 1?
Weitere Überlegungen: Eine maschinelle Lernforschung verbringt möglicherweise viel Zeit mit der Auswahl des Modells und der Optimierung des Modells. Dies liegt daran, dass ein maschinell lernender Forscher möglicherweise nicht in der Lage ist, mehr Daten zu sammeln und mehr Maßnahmen zu ergreifen. Die Aufgabe eines maschinell lernenden Forschers ist es, die Mathematik zu verbessern und ein bestimmtes Problem der realen Welt nicht besser zu lösen.
Auf der anderen Seite übertrifft es in der realen Welt alles, wenn die Daten besser sind. Die Wahl eines neuronalen Netzwerks oder einer zufälligen Gesamtstruktur spielt daher möglicherweise keine große Rolle. Alle diese Modelle ähneln denen, die maschinelles Lernen als Werkzeug zur Lösung realer Probleme einsetzen möchten. Eine Person, die nicht an der Entwicklung von Mathematik oder Tools interessiert ist, verbringt möglicherweise mehr Zeit mit der Nutzung spezifischer Domänenkenntnisse, um das System zu verbessern.
Wie ich im Kommentar erwähnt habe. Und wenn man mit Mathe schlampig ist, kann er / sie immer noch etwas bauen, das funktioniert.
quelle