Ich bin ein bisschen ein Nihilist geworden, wenn es um Rangfolgen mit variabler Wichtigkeit geht (im Kontext von multivariaten Modellen aller Art).
Oft werde ich im Verlauf meiner Arbeit gebeten, einem anderen Team zu helfen, ein Ranking mit variabler Wichtigkeit zu erstellen, oder ein Ranking mit variabler Wichtigkeit aus meiner eigenen Arbeit zu erstellen. Als Antwort auf diese Anfragen stelle ich die folgenden Fragen
Wofür möchten Sie diese Rangfolge mit variabler Wichtigkeit? Was hoffen Sie daraus zu lernen? Welche Art von Entscheidungen möchten Sie damit treffen?
Die Antworten, die ich bekomme, fallen fast immer in eine von zwei Kategorien
- Ich würde gerne wissen, wie wichtig die verschiedenen Variablen in meinem Modell für die Vorhersage der Reaktion sind.
- Ich möchte es für die Merkmalsauswahl verwenden, indem ich Variablen mit geringer Wichtigkeit entferne.
Die erste Antwort ist tautologisch (ich möchte eine Rangfolge mit variabler Wichtigkeit, weil ich eine Rangfolge mit variabler Wichtigkeit möchte). Ich muss davon ausgehen, dass diese Rankings ein psychologisches Bedürfnis erfüllen, wenn man die Ausgabe eines multivariaten Modells konsumiert. Es fällt mir schwer, dies zu verstehen, da die Rangfolge der Variablen "Wichtigkeit" für sich genommen implizit die Mehrdimensionalität des fraglichen Modells zu verwerfen scheint.
Die zweite Antwort reduziert sich im Wesentlichen auf eine informelle Version der Rückwärtsauswahl , deren statistische Sünden in anderen Teilen von CrossValidated gut dokumentiert sind.
Ich kämpfe auch mit der unklaren Natur von Wichtigkeitsklassifizierungen. Es scheint wenig Übereinstimmung darüber zu geben, welches Konzept das Ranking messen soll, was ihnen einen sehr ad-hoc-Charakter verleiht. Es gibt viele Möglichkeiten, einen Wichtigkeitswert oder eine Rangfolge zuzuweisen, und sie leiden im Allgemeinen unter Nachteilen und Vorbehalten:
- Sie können stark vom Algorithmus abhängig sein, wie in den Wichtigkeitsrankings in zufälligen Wäldern und Gbms.
- Sie können eine extrem hohe Varianz aufweisen und sich mit Störungen der zugrunde liegenden Daten drastisch ändern.
- Sie können stark unter der Korrelation in den Eingabeprädiktoren leiden.
Nach alledem ist meine Frage: Was sind statistisch gültige Verwendungen von Rangfolgen mit variabler Wichtigkeit oder was ist ein überzeugendes Argument (entweder für einen Statistiker oder für einen Laien) für die Sinnlosigkeit eines solchen Wunsches? Ich interessiere mich sowohl für allgemeine theoretische Argumente als auch für Fallstudien, je nachdem, was für eine Aussage effektiver wäre.
quelle
glmnet
es verfügbar ist?Antworten:
Ich habe argumentiert, dass variable Wichtigkeit ein schlüpfriger Begriff ist , wie sich diese Frage stellt. Die erste Art der tautologischen Antwort auf Ihre Frage und die unrealistischen Hoffnungen derer, die die von @DexGroves festgestellten Ergebnisse mit variabler Wichtigkeit in Bezug auf die Kausalität interpretieren würden, bedürfen keiner näheren Erläuterung.
Um denjenigen gerecht zu werden, die eine Rückwärtsauswahl verwenden würden, lässt dies jedoch auch Frank Harrell als Teil einer Modellierungsstrategie zu. Ab Seite 97 seiner Regressionsmodellierungsstrategien , 2. Auflage (eine ähnliche Erklärung finden Sie auf Seite 131 der zugehörigen Kursunterlagen ):
Diese begrenzte mögliche Verwendung der Rückwärtsauswahl ist jedoch Schritt 13, der letzte Schritt vor dem endgültigen Modell (Schritt 14). Es kommt gut nach den entscheidenden ersten Schritten:
Meiner Erfahrung nach möchten die Leute häufig Schritt 2 umgehen und ein automatisiertes Verfahren die intelligente Anwendung des Fachwissens ersetzen. Dies kann dazu führen, dass ein Teil der Betonung auf die variable Bedeutung gelegt wird.
Dem vollständigen Modell von Harrells Schritt 14 folgen fünf weitere Schritte zur Validierung und Anpassung mit einem letzten Schritt:
Wie in anderen Antworten festgestellt wurde, gibt es Probleme mit der Umsetzbarkeit, den Kosten und der Einfachheit, die für die praktische Anwendung der Modellierungsergebnisse von Bedeutung sind. Wenn ich zum Beispiel einen neuen Krebs-Biomarker entwickle, der die Prognose verbessert, aber 100.000 US-Dollar pro Test kostet, ist es möglicherweise schwierig, Versicherer oder die Regierung dazu zu überreden, für den Test zu zahlen, es sei denn, dies ist besonders nützlich. Daher ist es für jemanden nicht unangemessen, sich auf die "wichtigsten" Variablen zu konzentrieren oder ein genaues Modell in ein etwas weniger genaues, aber einfacher oder kostengünstiger zu implementierendes Modell zu vereinfachen.
Diese Variablenauswahl und Modellvereinfachung sollte jedoch einem bestimmten Zweck dienen , und ich denke, hier liegt die Schwierigkeit. Das Problem ähnelt der Bewertung von Klassifizierungsschemata nur auf der Grundlage von Prozent der richtig klassifizierten Fälle. So wie unterschiedliche Klassifizierungsfehler unterschiedliche Kosten verursachen können, können unterschiedliche Modellvereinfachungsschemata unterschiedliche Kosten verursachen, die sich gegen den erhofften Nutzen ausgleichen.
Ich denke also, dass das Problem, auf das wir uns als Analyst konzentrieren sollten, die Fähigkeit ist, diese Kosten und Nutzen mit statistischen Modellierungsverfahren verlässlich abzuschätzen und darzustellen, anstatt uns über ein abstraktes Konzept der statistischen Gültigkeit per se Sorgen zu machen. Auf den Seiten 157 bis 8 der oben verlinkten Harrell-Klassennotizen finden Sie beispielsweise ein Beispiel für die Verwendung des Bootstraps, um die Abweichungen der Rangfolge der Prädiktoren in den kleinsten Quadraten anzuzeigen. ähnliche Ergebnisse können für von LASSO ausgewählte Variablensätze gefunden werden.
Wenn diese Art von Variabilität bei der Variablenauswahl einer bestimmten praktischen Anwendung des Modells nicht im Wege steht, ist dies in Ordnung. Die Aufgabe besteht darin, abzuschätzen, wie viel und welche Probleme diese Vereinfachung mit sich bringen wird.
quelle
Dies ist völlig anekdotisch, aber ich habe festgestellt, dass variable Wichtigkeit nützlich ist, um Fehler oder Schwächen in GBMs zu identifizieren.
Variable Wichtigkeit gibt Ihnen eine Art großen Querschnitt über das Modell, der sonst schwer zu bekommen wäre. Variablen, die weiter oben in der Liste stehen, sehen mehr Aktivität (ob sie wichtiger sind oder nicht, ist eine andere Frage). Oft schießt ein sich schlecht verhaltender Prädiktor (zum Beispiel etwas Vorausschauendes oder ein Faktor mit hoher Kardinalität) nach oben.
Wenn es eine große Meinungsverschiedenheit zwischen der Bedeutung der Intuitionsvariablen und der Bedeutung der GBM-Variablen gibt, müssen in der Regel einige wertvolle Kenntnisse erworben oder ein Fehler gefunden werden.
Ich würde eine dritte Antwort zu "Warum fragst du mich das?" Hinzufügen. Frage, die lautet "weil ich verstehen will, was für meine Antwort ursächlich ist". Eep.
quelle
Rankings mit variabler Wichtigkeit spielen in der angewandten Geschäftswelt eine bestimmte Rolle, wenn die potenziell große Anzahl von Eingaben in einen Prozess oder einen beliebigen Prozess priorisiert werden muss. Diese Informationen geben die Richtung für eine fokussierte Strategie zur Problembehebung vor, die von der niedrigsten bis zur niedrigsten Strategie reicht, z. B. zur Reduzierung der Prozesskosten, da die Variablen hebelbar und nicht feststehend sind oder strukturelle Faktoren manipulationssicher sind. Am Ende des Tages sollte dies zu einer Art A / B-Test führen.
Matt und wie bei allen Ordnungszahlen können jedoch geringfügige Nuancen oder Unterschiede zwischen Variablen mehrdeutig oder undeutlich sein und deren Nützlichkeit beeinträchtigen.
quelle
In theoretischer Hinsicht stimme ich Ihnen voll und ganz zu. Aus praktischer Sicht ist die variable Bedeutung jedoch sehr nützlich.
Nehmen wir ein Beispiel, in dem eine Versicherungsgesellschaft die Anzahl der Fragen in einem Fragebogen reduzieren möchte, um das Risiko ihrer Kunden zu quantifizieren. Je komplizierter der Fragebogen ist, desto unwahrscheinlicher ist es, dass Kunden ihre Produkte kaufen. Aus diesem Grund möchten sie die weniger nützlichen Fragen bei der Beibehaltung des Niveaus der Risikoquantifizierung reduzieren. Die Lösung besteht häufig darin, mit variabler Wichtigkeit zu bestimmen, welche Fragen aus dem Fragebogen gelöscht werden sollen (und "mehr oder weniger" dieselbe Vorhersage über das Risikoprofil des potenziellen Kunden zu haben).
quelle