Seit Breiman ist die Maximierung der Vorhersagegenauigkeit zu einer Art Goldstandard für die prädiktive Modellierung geworden . Dass es sich zu diesem Status entwickelt hat, ist verständlich: Es kann "optimiert" werden, lässt sich leicht über k-fache Proben kalibrieren und ist größtenteils eine konsistente Statistik für die interne Modellvalidierung. Allzu oft ist es jedoch das einzige Kriterium für den Modellwert - eine mechanistische und streng angewandte Metrik -, obwohl es anfällig für P-Hacking, Spiele und Analystenbetrug ist und wenig oder gar nicht an sein breiteres Geschäft gedacht wird und / oder strategische Auswirkungen und Bedeutung.
Ist es an der Zeit, die relative Bedeutung dieser Metrik in der statistischen, maschinellen Lern- und Vorhersagemodellierungsbranche neu zu bewerten?
quelle
Antworten:
Dies ist ein schöner und nachdenklicher Beitrag, und in meinem Arbeitsleben habe ich beobachtet, dass die von Ihnen skizzierten Dinge korrekt sind. Die erfolgreichen Statistiker und Wissenschaftler an meinem Arbeitsplatz sind diejenigen, die von der rohen Vorhersagegenauigkeit zurücktreten und ein Modell oder eine Analyse liefern können ganzheitlich für das jeweilige Problem geeignet. Manchmal ist dies rohe Vorhersagekraft, aber oft nicht.
Ich suche dies ausdrücklich beim Interviewen. Meine erste Lieblingsantwort auf eine Modellierungsfrage lautet
Ich werde Ihrer Liste einige Beispiele hinzufügen.
Implementierungskosten
Viele Unternehmen führen Kernsysteme auf veralteten Technologie-, Cobol- oder Fortran-Codebasen aus, die auf alten Mainframe-Architekturen ausgeführt werden. Sie zögern oft, sie zu ersetzen, da hierfür hohe Fixkosten anfallen (obwohl die variablen Kosten für ihre Wartung hoch sind). Dies kann drastische Konsequenzen für die Modellimplementierung haben. Es ist möglicherweise möglich, einen prädiktiven Boost von einem zufälligen Wald- oder Gradienten-Booster zu erhalten, aber die Implementierung eines Modells dieser Komplexität in einer Produktionsumgebung kann völlig unmöglich sein.
Haltbarkeit
In Bezug auf die Implementierungskosten kann ein einmal implementiertes Modell eine sehr lange Haltbarkeit haben und voraussichtlich lange Zeit vernünftige Vorhersagen liefern. Ein Modell mit maximal unterstützbarer Komplexität, das sehr stark an die Daten angepasst ist, ist weniger robust gegenüber Verteilungsverschiebungen in der Population und prädiktiven Relativitätsänderungen zwischen Segmenten.
Basteln
Geschäftsleute neigen dazu, an Produktionsmodellen zu basteln, und wir als Modellierer müssen manchmal bei Hotfixes in Produktionssystemen helfen . Komplexe Modelle reagieren empfindlicher darauf. Es ist schwieriger, genau zu beurteilen, wie sie auf eine Produktionsanpassung reagieren (sprechen Sie mit einem Mechaniker darüber, ob es einfacher ist, unter die Motorhaube eines 1980 oder 2010 hergestellten Autos zu gelangen).
Robustheit gegenüber neuen Informationen
Ein kategorialer Prädiktor kann in Zukunft neue Kategorien erhalten, und es ist oft wünschenswert, eine prinzipielle Methode zu haben, um mit diesen umzugehen, ohne ein Modell neu auszurüsten und es in die Produktion zu bringen.
Modellkomponente
Ein Modell kann Teil einer größeren Systemoptimierung sein, die seiner Form und seinen Eigenschaften Umgebungsbedingungen auferlegt. Eine häufige Ursache hierfür ist, wenn ein Modell Bestandteil eines größeren mathematischen Optimierungsschemas ist und ein kausaler Prädiktor im Modell als Hebel zur Verbesserung der Geschäftsergebnisse manipuliert wird. Dies kann den Prädiktoren, die sehr wichtig sind, Glättungs- oder Differenzierbarkeitsbeschränkungen auferlegen.
Lokalitätsbeschränkungen
Einige Modelle haben bessere Lokalitätseigenschaften als andere. Wenn ich beispielsweise die Preiselastizität eines Kunden für kleine Anpassungen abschätzen möchte, wird ein sehr lokales Modell (dh ein dichter mit geringerer Bandbreite, ein regulierter Spline mit kleinen Parametern oder ein Gradientenbaum-Booster mit vielen Schnitten) verwendet Verwenden Sie ausnahmslos weniger Daten, um Schlussfolgerungen auch auf lokaler Ebene zu unterstützen. Dies kann unerwünscht sein, wenn diese Schlussfolgerungen verwendet werden, um wichtige Entscheidungen zu treffen, und sollte durch so viele Daten wie möglich unterstützt werden.
quelle