Diese Frage ist allgemein und langwierig, aber bitte nehmen Sie Kontakt mit mir auf.
In meiner Anwendung habe ich viele Datensätze, die jeweils aus ~ 20.000 Datenpunkten mit ~ 50 Features und einer einzelnen abhängigen Binärvariablen bestehen. Ich versuche, die Datensätze mithilfe einer regulierten logistischen Regression (R-Paket glmnet ) zu modellieren.
Im Rahmen meiner Analyse habe ich wie folgt Residuendiagramme erstellt. Für jedes Feature sortiere ich die Datenpunkte nach dem Wert dieses Features, teile die Datenpunkte in 100 Buckets auf und berechne dann den durchschnittlichen Ausgabewert und den durchschnittlichen Vorhersagewert innerhalb jedes Buckets. Ich zeichne diese Unterschiede auf.
Hier ist ein Beispiel für ein Residuendiagramm:
In der obigen Darstellung hat das Merkmal einen Bereich von [0,1] (mit einer starken Konzentration von 1). Wie Sie sehen können, scheint das Modell bei einem niedrigen Merkmalswert darauf ausgerichtet zu sein, die Wahrscheinlichkeit einer 1-Ausgabe zu überschätzen. Beispielsweise überschätzt das Modell im ganz linken Bereich die Wahrscheinlichkeit um etwa 9%.
Mit diesen Informationen möchte ich die Feature-Definition auf einfache Weise ändern, um diese Verzerrung grob zu korrigieren. Änderungen mögen ersetzen
oder
Wie kann ich das machen? Ich bin auf der Suche nach einer allgemeinen Methode, mit der ein Mensch schnell durch alle ~ 50 Diagramme scrollen und Änderungen vornehmen und dies für alle Datensätze tun und häufig wiederholen kann, um die Modelle auf dem neuesten Stand zu halten, während sich die Daten im Laufe der Zeit entwickeln.
Ist das überhaupt der richtige Ansatz? Google-Suchanfragen nach "Restanalyse der logistischen Regression" liefern nicht viele Ergebnisse mit guten praktischen Ratschlägen. Sie scheinen darauf fixiert zu sein, die Frage zu beantworten: "Passt dieses Modell?" und bieten verschiedene Tests wie Hosmer-Lemeshow zur Beantwortung an. Aber es ist mir egal, ob mein Modell gut ist, ich möchte wissen, wie ich es verbessern kann!
Es ist unwahrscheinlich, dass hierfür eine allgemeine Software vorhanden ist. höchstwahrscheinlich, weil es keine allgemeine Theorie zur Behebung von Problemen bei der Regression gibt. Daher ist dies eher eine Art "was ich tun würde" -Antwort als ein theoretisch fundiertes Verfahren.
Der von Ihnen erstellte Plot ist im Grunde ein visueller HL-Test mit 100 Bins, der jedoch einen einzelnen Prädiktor anstelle der vorhergesagten Wahrscheinlichkeit für das Binning verwendet. Dies bedeutet, dass Ihre Prozedur wahrscheinlich einige der Eigenschaften des HL-Tests erbt.
Ihr Vorgehen klingt vernünftig, obwohl Sie sich bewusst sein sollten, dass Sie Ihre Kriterien "übererfüllen". Ihre Kriterien sind auch als Diagnose weniger nützlich, da sie Teil des Schätzprozesses sind. Wenn Sie etwas intuitiv tun, sollten Sie Ihren Entscheidungsprozess so detailliert wie möglich aufschreiben. Dies liegt daran, dass Sie möglicherweise die Keime eines allgemeinen Prozesses oder einer allgemeinen Theorie entdecken, deren Entwicklung zu einem besseren Verfahren führt (das in Bezug auf einige Theorien automatischer und optimaler ist).
Ich denke, ein Weg ist, zuerst die Anzahl der zu untersuchenden Grundstücke zu reduzieren. Eine Möglichkeit, dies zu tun, besteht darin, jede Variable als kubischen Spline anzupassen und dann die Diagramme zu untersuchen, die nicht-lineare Schätzungen ungleich Null aufweisen. Angesichts der Anzahl der Datenpunkte ist dies auch eine einfache automatische Korrektur für Nichtlinearitäten. Dadurch wird Ihr Modell von 50 auf 200 + 50k erweitert, wobei k die Anzahl der Knoten ist. Sie können sich dies als eine "statistische Taylor-Reihen-Erweiterung" der "wahren" Transformation vorstellen.
Wenn Ihre Diagnose danach schlecht aussieht, würde ich versuchen, Interaktionsbegriffe hinzuzufügen.
Teile Ihrer Frage scheinen mehr mit dem Schreiben eines interaktiven Programms zu tun zu haben, das eher dem Stackoverflow als hier zuzuordnen ist. Es kann auch nützlich sein, nach Tools für die explorative Datenanalyse zu suchen, da diese mit größerer Wahrscheinlichkeit über Funktionen verfügen, die Sie "huckepack" können.
quelle