Ich führe eine binäre Logit-Regression durch, bei der ich weiß, dass die abhängige Variable in einem kleinen Prozentsatz der Fälle falsch codiert ist. Ich versuche also, in diesem Modell zu schätzen :
Aber anstelle des Vektors ich , was einige zufällige Fehler enthält (dh , aber oder umgekehrt für einige ).˜ Y y i = 1 ~ y i = 0 i
Gibt es eine (einigermaßen) einfache Korrektur für dieses Problem?
Ich weiß, dass logit in Fall-Kontroll-Studien einige nette Eigenschaften hat. Es ist wahrscheinlich, dass hier etwas Ähnliches gilt, aber ich konnte keine gute Lösung finden.
Einige andere Einschränkungen: Dies ist eine Text-Mining-Anwendung, daher sind die Abmessungen von groß (in Tausenden oder Zehntausenden). Dies kann einige rechenintensive Verfahren ausschließen.
Außerdem ist es mir nicht wichtig, , nur richtig zu schätzen .β
Sie können entweder ein parametrisches Modell des Fehlers mithilfe von MLE schätzen oder einen semiparamterischen Ansatz verwenden, der auf dem MRC-Schätzer (Maximum Rank Correlation) basiert. Computergestützt ist MRC für große Proben unerschwinglich, daher scheint MLE der richtige Ansatz für mich zu sein.
Vielen Dank an GaBorgulya für eine gute, schnelle Anleitung, insbesondere zum Begriff "Fehlklassifizierungsfehler".
Hier einige gute Quellen zum Thema:
Das Grundmodell, genau wie im ursprünglichen Problem beschrieben
Ungated Version desselben
Ein komplizierteres, aber allgemeineres Modell
Ein schöner Überblick
quelle