Ich arbeite derzeit an einem Vorhersagemodellierungsprojekt: Ich versuche, ein Modell zu lernen und Echtzeitvorhersagen auf der Grundlage des Modells zu treffen, das ich offline gelernt habe.
Ich habe kürzlich angefangen, die Ridge-Regression zu verwenden, weil ich gelesen habe, dass Regularisierung dazu beitragen kann, den Effekt der Multikollinearität zu verringern.
Allerdings habe ich diesen Blog heute gelesen . Ich bin jetzt total verwirrt. Laut diesem Blog schadet Multikollinearität der Vorhersagekraft eines Modells NICHT so sehr.
Ist Multikollinearität am Ende ein Problem oder nicht?
regression
prediction
multicollinearity
ridge-regression
user152503
quelle
quelle
Antworten:
Es ist ein Problem für die kausale Inferenz - oder besser gesagt, es weist auf Schwierigkeiten bei der kausalen Inferenz hin -, aber es ist kein besonderes Problem für die Vorhersage / Vorhersage (es sei denn, es ist so extrem, dass es die Konvergenz des Modells verhindert oder zu singulären Matrizen führt, und dann werden Sie es nicht bekommen Vorhersagen sowieso). Ich denke, das ist auch die Bedeutung dieses Blogposts. Es hört sich so an, als ob Sie auf einer Ja-oder-Nein-Antwort bestehen, wenn die Antwort lautet, dass es darauf ankommt. Hier ist, worauf es ankommt und warum zumindest gesagt werden kann, dass (nicht perfekte) Multikollinearität niemals ein Grund ist, eine Variable aus einem Modell zu löschen - Probleme, auf die Multikollinearität hinweist, werden nicht behoben, weil Sie eine Variable gelöscht und gestoppt haben die Kollinearität sehen.
Prädiktoren, die stark miteinander korreliert sind, verbessern Ihre Vorhersagen nicht so gut wie wenn sie nicht kollinear wären, aber dennoch separat mit der Ergebnisvariablen korrelieren. Keiner macht viel mehr Arbeit als der andere bereits und würde es sowieso alleine tun. Vielleicht sind sie so stark miteinander verwandt, weil sie im Grunde das gleiche zugrunde liegende Konstrukt erfassen. In diesem Fall fügt keiner aus gutem Grund viel mehr übereinander hinzu, und es wäre unmöglich, sie zur Vorhersage ontologisch zu trennen Zweck jedenfalls durch Manipulieren der Beobachtungseinheiten, um unterschiedliche Werte für jede der beiden Prädiktorvariablen zu haben, so dass sie besser als Prädiktoren funktionieren. Dies bedeutet jedoch nicht, dass es schlecht oder falsch ist, beide unverändert in Ihr Modell aufzunehmen.
Wenn es um kausale Folgerungen geht, ist dies ein Problem, einfach weil es uns daran hindert, zumindest sicher zu sagen, welcher der kollinearen Prädiktoren die Vorhersage und damit die Erklärung und vermutlich die Ursache vornimmt. Mit genügend Beobachtungen können Sie schließlich die einzelnen Effekte selbst hochkollinearer (aber niemals perfekt kollinearer) Variablen identifizieren. Deshalb nennen Rob Franzese und UMich Multikollinearität gerne "Mikronumerosität". Es gibt immer eine gewisse Kollinearität zwischen Prädiktoren. Das ist einer der Gründe, warum wir im Allgemeinen nur viele Beobachtungen brauchen. Manchmal eine unmögliche Menge für unsere kausalen Inferenzbedürfnisse. Das Problem ist jedoch die Komplexität der Welt und die unglücklichen Umstände, die uns daran hindern, eine größere Vielfalt von Situationen zu beobachten, in denen verschiedene Faktoren im Verhältnis zueinander stärker variieren. Multikollinearität ist das Symptom für diesen Mangel an nützlichen Daten, und multivariate Regression ist die (unvollständige) Heilung. Dennoch scheinen so viele Menschen Multikollinearität als etwas zu betrachten, das sie mit ihrem Modell falsch machen, und als ob es ein Grund ist, an ihren Erkenntnissen zu zweifeln.
quelle
Es ist kein Problem für die prädiktive Modellierung, wenn Sie sich nur um die Prognose und sonst nichts kümmern.
quelle
Multikollinearität ist im Allgemeinen nicht das beste Szenario für die Regressionsanalyse. Unser Leben wäre viel einfacher, wenn alle Prädiktoren orthogonal wären.
Es ist ein Problem für die Modellinterpretation (versuchen, die Daten zu verstehen):
Stellen Sie sich vor, Sie müssen Ihrem Chef einen Bericht über Ihre Daten schreiben. Sie erstellen ein nahezu perfektes Multikollinearitätsmodell und erzählen Ihrem Chef von dem Modell. Sie könnten sagen: " Mein erster Prädiktor ist positiv mit der Antwort korreliert. Ich werde Ihnen mehr darüber erzählen, warum. Ihr Chef ist glücklich, bittet Sie jedoch, es ohne einige Datenpunkte erneut zu versuchen. Ihre Koeffizienten in Ihrem neuen Modell." ist jetzt ... ganz anders , der Koeffizient für Ihren ersten Prädiktor ist jetzt negativ! Ihr Chef wird Ihnen nicht mehr vertrauen! Ihr Modell ist nicht robust.
quelle
Ich würde argumentieren, dass, wenn sich die Korrelation zwischen einer Variablen und einer anderen Variablen (oder einer linearen Kombination von Variablen) zwischen den Daten innerhalb und außerhalb der Stichprobe ändert, Sie feststellen können, dass Multikollinearität die Genauigkeit von Daten außerhalb der Stichprobe beeinflusst Vorhersagen. Multikollinearität fügt nur eine weitere Annahme hinzu (konsistente Korrelation), die angemessen erfüllt sein muss, damit Ihr Modell weiterhin eine gute Leistung erbringt.
quelle