Wofür sind Ranglisten mit variabler Wichtigkeit nützlich?

25

Ich bin ein bisschen ein Nihilist geworden, wenn es um Rangfolgen mit variabler Wichtigkeit geht (im Kontext von multivariaten Modellen aller Art).

Oft werde ich im Verlauf meiner Arbeit gebeten, einem anderen Team zu helfen, ein Ranking mit variabler Wichtigkeit zu erstellen, oder ein Ranking mit variabler Wichtigkeit aus meiner eigenen Arbeit zu erstellen. Als Antwort auf diese Anfragen stelle ich die folgenden Fragen

Wofür möchten Sie diese Rangfolge mit variabler Wichtigkeit? Was hoffen Sie daraus zu lernen? Welche Art von Entscheidungen möchten Sie damit treffen?

Die Antworten, die ich bekomme, fallen fast immer in eine von zwei Kategorien

  • Ich würde gerne wissen, wie wichtig die verschiedenen Variablen in meinem Modell für die Vorhersage der Reaktion sind.
  • Ich möchte es für die Merkmalsauswahl verwenden, indem ich Variablen mit geringer Wichtigkeit entferne.

Die erste Antwort ist tautologisch (ich möchte eine Rangfolge mit variabler Wichtigkeit, weil ich eine Rangfolge mit variabler Wichtigkeit möchte). Ich muss davon ausgehen, dass diese Rankings ein psychologisches Bedürfnis erfüllen, wenn man die Ausgabe eines multivariaten Modells konsumiert. Es fällt mir schwer, dies zu verstehen, da die Rangfolge der Variablen "Wichtigkeit" für sich genommen implizit die Mehrdimensionalität des fraglichen Modells zu verwerfen scheint.

Die zweite Antwort reduziert sich im Wesentlichen auf eine informelle Version der Rückwärtsauswahl , deren statistische Sünden in anderen Teilen von CrossValidated gut dokumentiert sind.

Ich kämpfe auch mit der unklaren Natur von Wichtigkeitsklassifizierungen. Es scheint wenig Übereinstimmung darüber zu geben, welches Konzept das Ranking messen soll, was ihnen einen sehr ad-hoc-Charakter verleiht. Es gibt viele Möglichkeiten, einen Wichtigkeitswert oder eine Rangfolge zuzuweisen, und sie leiden im Allgemeinen unter Nachteilen und Vorbehalten:

  • Sie können stark vom Algorithmus abhängig sein, wie in den Wichtigkeitsrankings in zufälligen Wäldern und Gbms.
  • Sie können eine extrem hohe Varianz aufweisen und sich mit Störungen der zugrunde liegenden Daten drastisch ändern.
  • Sie können stark unter der Korrelation in den Eingabeprädiktoren leiden.

Nach alledem ist meine Frage: Was sind statistisch gültige Verwendungen von Rangfolgen mit variabler Wichtigkeit oder was ist ein überzeugendes Argument (entweder für einen Statistiker oder für einen Laien) für die Sinnlosigkeit eines solchen Wunsches? Ich interessiere mich sowohl für allgemeine theoretische Argumente als auch für Fallstudien, je nachdem, was für eine Aussage effektiver wäre.

Matthew Drury
quelle
1
Das Herausfiltern schwacher Prädiktoren mit variabler Wichtigkeit (nach einem vernünftigen Verfahren) scheint keine schreckliche Idee zu sein. Können Sie erklären, warum Sie das für schlecht halten?
DSAXTON
3
Ich nehme an, dass ich im Allgemeinen denke, dass viele statistische Prozesse nicht von "wichtigen" Prädiktoren dominiert werden, sondern von der Anhäufung vieler kleiner Effekte. Zum Beispiel könnte die Kraft der Gratregression dadurch erklärt werden, dass diese Struktur ausdrücklich anerkannt wird. Anders ausgedrückt, was ist der Grund, warum wir a priori an das Konzept eines "schwachen Prädiktors" glauben sollten, und warum sollten wir sie herausfiltern? Und warum sollten wir ein solches informelles Verfahren anwenden, wenn glmnetes verfügbar ist?
Matthew Drury
2
In allen Bereichen, in denen wir keine Experten sind, möchten wir wissen, worauf es ankommt! In vielen Geschäfts- und Managementbüchern geht es anscheinend darum, ausführlich zu erklären, dass Sie die wichtigen Probleme identifizieren und sich auf sie konzentrieren (in der Tat). Ich vermute, dass Missverständnisse hier in der Regel bei nicht statistischen Personen auftreten, wenn man annimmt, dass es eine Möglichkeit gibt, die Bedeutung zu quantifizieren, und dass es Aufgabe der statistischen Personen ist, zu wissen, wie dies zu tun ist, und sie nicht zu beunruhigen, wie schwierig es ist. Ich weiß nicht, wie ich weniger allgemein sein soll, aber einige der Diskussionen hier scheinen wichtige Punkte in Ihrer Frage zu verfehlen.
Nick Cox

Antworten:

8

Ich habe argumentiert, dass variable Wichtigkeit ein schlüpfriger Begriff ist , wie sich diese Frage stellt. Die erste Art der tautologischen Antwort auf Ihre Frage und die unrealistischen Hoffnungen derer, die die von @DexGroves festgestellten Ergebnisse mit variabler Wichtigkeit in Bezug auf die Kausalität interpretieren würden, bedürfen keiner näheren Erläuterung.

Um denjenigen gerecht zu werden, die eine Rückwärtsauswahl verwenden würden, lässt dies jedoch auch Frank Harrell als Teil einer Modellierungsstrategie zu. Ab Seite 97 seiner Regressionsmodellierungsstrategien , 2. Auflage (eine ähnliche Erklärung finden Sie auf Seite 131 der zugehörigen Kursunterlagen ):

  1. Beschränken Sie die Auswahl der Abwärtsvariablen in Rückwärtsrichtung, wenn Sparsamkeit wichtiger ist als Genauigkeit.

Diese begrenzte mögliche Verwendung der Rückwärtsauswahl ist jedoch Schritt 13, der letzte Schritt vor dem endgültigen Modell (Schritt 14). Es kommt gut nach den entscheidenden ersten Schritten:

  1. Stellen Sie so genau wie möglich relevante Daten mit breiten Verteilungen für Prädiktorwerte zusammen ...
  2. Formulieren Sie gute Hypothesen, die zur Spezifizierung relevanter Kandidatenprädiktoren und möglicher Interaktionen führen ...

Meiner Erfahrung nach möchten die Leute häufig Schritt 2 umgehen und ein automatisiertes Verfahren die intelligente Anwendung des Fachwissens ersetzen. Dies kann dazu führen, dass ein Teil der Betonung auf die variable Bedeutung gelegt wird.

Dem vollständigen Modell von Harrells Schritt 14 folgen fünf weitere Schritte zur Validierung und Anpassung mit einem letzten Schritt:

  1. Entwickeln Sie Vereinfachungen für das gesamte Modell, indem Sie es auf einen beliebigen Genauigkeitsgrad approximieren.

Wie in anderen Antworten festgestellt wurde, gibt es Probleme mit der Umsetzbarkeit, den Kosten und der Einfachheit, die für die praktische Anwendung der Modellierungsergebnisse von Bedeutung sind. Wenn ich zum Beispiel einen neuen Krebs-Biomarker entwickle, der die Prognose verbessert, aber 100.000 US-Dollar pro Test kostet, ist es möglicherweise schwierig, Versicherer oder die Regierung dazu zu überreden, für den Test zu zahlen, es sei denn, dies ist besonders nützlich. Daher ist es für jemanden nicht unangemessen, sich auf die "wichtigsten" Variablen zu konzentrieren oder ein genaues Modell in ein etwas weniger genaues, aber einfacher oder kostengünstiger zu implementierendes Modell zu vereinfachen.

Diese Variablenauswahl und Modellvereinfachung sollte jedoch einem bestimmten Zweck dienen , und ich denke, hier liegt die Schwierigkeit. Das Problem ähnelt der Bewertung von Klassifizierungsschemata nur auf der Grundlage von Prozent der richtig klassifizierten Fälle. So wie unterschiedliche Klassifizierungsfehler unterschiedliche Kosten verursachen können, können unterschiedliche Modellvereinfachungsschemata unterschiedliche Kosten verursachen, die sich gegen den erhofften Nutzen ausgleichen.

Ich denke also, dass das Problem, auf das wir uns als Analyst konzentrieren sollten, die Fähigkeit ist, diese Kosten und Nutzen mit statistischen Modellierungsverfahren verlässlich abzuschätzen und darzustellen, anstatt uns über ein abstraktes Konzept der statistischen Gültigkeit per se Sorgen zu machen. Auf den Seiten 157 bis 8 der oben verlinkten Harrell-Klassennotizen finden Sie beispielsweise ein Beispiel für die Verwendung des Bootstraps, um die Abweichungen der Rangfolge der Prädiktoren in den kleinsten Quadraten anzuzeigen. ähnliche Ergebnisse können für von LASSO ausgewählte Variablensätze gefunden werden.

Wenn diese Art von Variabilität bei der Variablenauswahl einer bestimmten praktischen Anwendung des Modells nicht im Wege steht, ist dies in Ordnung. Die Aufgabe besteht darin, abzuschätzen, wie viel und welche Probleme diese Vereinfachung mit sich bringen wird.

EdM
quelle
2
Dies ist eine großartige Antwort auf @EdM und steht im Einklang mit den Meinungen, die ich zu diesem Thema entwickelt habe. Ich mag besonders Ihre beiden Punkte, dass 1) unannehmbare Prädiktoren (aus moralischen, regulatorischen oder geschäftlichen Gründen) vor der Modellierung herausgefiltert werden sollten, 2) die endgültige Vereinfachung des Modells einem bestimmten, zuvor definierten Zweck dienen sollte. Dies sind im Wesentlichen die Punkte, die ich normalerweise mit den Fragen an meine Geschäftspartner zu lösen versuche.
Matthew Drury
Ich stimme auch Ihrem letzten Punkt zu, dass es wichtig ist, den Partnern die inhärente Varianz im endgültigen Auswahlverfahren aufzuzeigen. Im Zusammenhang mit LASSO habe ich beschlossen, für jeden Prädiktor und die bedingte Varianz der Schätzung mithilfe des Bootstraps zu schätzen, da diese nicht Null ist. Was halten Sie davon, gibt es angemessenere Möglichkeiten, diese Varianz zusammenzufassen? Pr(β0)
Matthew Drury
Trotzdem frage ich mich immer noch, ob es ein grundlegendes Konzept gibt, das die Wichtigkeitsranglisten erfassen wollen, oder ob es sich nur um Ad-hoc-Angriffe auf ein unklares statistisches Problem handelt.
Matthew Drury
1
@MatthewDrury, Frank Harrell bietet eine prinzipielle Methode zur Bewertung der "Variablenbedeutung", basierend auf dem Anteil der Log-Wahrscheinlichkeit, der durch jede Variable erklärt wird. Das ist wahrscheinlich nicht das, was weniger anspruchsvolle Individuen mit dem Satz meinen. Wie Sie habe ich den Bruchteil der Male, in denen LASSO jeden Prädiktor aus mehreren Bootstrap-Beispielen auswählt, als beste Methode verwendet, um die Launen der Variablenauswahl zu veranschaulichen. Das hat mich größtenteils von LASSO weggedrängt und zu einer Gratregression für mittelschwere Probleme geführt.
EdM
8

Dies ist völlig anekdotisch, aber ich habe festgestellt, dass variable Wichtigkeit nützlich ist, um Fehler oder Schwächen in GBMs zu identifizieren.

Variable Wichtigkeit gibt Ihnen eine Art großen Querschnitt über das Modell, der sonst schwer zu bekommen wäre. Variablen, die weiter oben in der Liste stehen, sehen mehr Aktivität (ob sie wichtiger sind oder nicht, ist eine andere Frage). Oft schießt ein sich schlecht verhaltender Prädiktor (zum Beispiel etwas Vorausschauendes oder ein Faktor mit hoher Kardinalität) nach oben.

Wenn es eine große Meinungsverschiedenheit zwischen der Bedeutung der Intuitionsvariablen und der Bedeutung der GBM-Variablen gibt, müssen in der Regel einige wertvolle Kenntnisse erworben oder ein Fehler gefunden werden.

Ich würde eine dritte Antwort zu "Warum fragst du mich das?" Hinzufügen. Frage, die lautet "weil ich verstehen will, was für meine Antwort ursächlich ist". Eep.

Dex Groves
quelle
4

Rankings mit variabler Wichtigkeit spielen in der angewandten Geschäftswelt eine bestimmte Rolle, wenn die potenziell große Anzahl von Eingaben in einen Prozess oder einen beliebigen Prozess priorisiert werden muss. Diese Informationen geben die Richtung für eine fokussierte Strategie zur Problembehebung vor, die von der niedrigsten bis zur niedrigsten Strategie reicht, z. B. zur Reduzierung der Prozesskosten, da die Variablen hebelbar und nicht feststehend sind oder strukturelle Faktoren manipulationssicher sind. Am Ende des Tages sollte dies zu einer Art A / B-Test führen.

Matt und wie bei allen Ordnungszahlen können jedoch geringfügige Nuancen oder Unterschiede zwischen Variablen mehrdeutig oder undeutlich sein und deren Nützlichkeit beeinträchtigen.

Mike Hunter
quelle
Ich bin völlig einverstanden mit der Nützlichkeit des variablen Rankings in vielen Geschäftsfällen. Aber hier bleibt die Besorgnis von "unterschiedlichen Algorithmen ergeben unterschiedliche Rankings" unberücksichtigt. Haben Sie einen Vorschlag, um das anzugehen? Siehe auch meine Frage hier stats.stackexchange.com/q/251248/71287 und die Kommentare darunter.
Aliweb
3
@aliweb Das Problem des Unterschieds hat keine einzige, feste, einheitliche Lösung. Dieser Punkt ist so subtil wie die Unterscheidung zwischen Hierarchien und Heterarchien, bei denen sich herausstellt, dass globale Rankings tatsächlich ganz lokal und vorübergehend sind. Die besten Übersichten der Literatur zur relativen variablen Bedeutung stammen wahrscheinlich von Ulrike Groemping, deren Aufsätze in Bezug auf die verschiedenen Metriken, die es gibt, ziemlich umfassend sind. Darüber hinaus ist ihr R-Modul und ihre Methode - RELAMPO - ein ebenso strenger Ansatz zur Schätzung der relativen Bedeutung wie es existiert.
Mike Hunter
3

In theoretischer Hinsicht stimme ich Ihnen voll und ganz zu. Aus praktischer Sicht ist die variable Bedeutung jedoch sehr nützlich.

Nehmen wir ein Beispiel, in dem eine Versicherungsgesellschaft die Anzahl der Fragen in einem Fragebogen reduzieren möchte, um das Risiko ihrer Kunden zu quantifizieren. Je komplizierter der Fragebogen ist, desto unwahrscheinlicher ist es, dass Kunden ihre Produkte kaufen. Aus diesem Grund möchten sie die weniger nützlichen Fragen bei der Beibehaltung des Niveaus der Risikoquantifizierung reduzieren. Die Lösung besteht häufig darin, mit variabler Wichtigkeit zu bestimmen, welche Fragen aus dem Fragebogen gelöscht werden sollen (und "mehr oder weniger" dieselbe Vorhersage über das Risikoprofil des potenziellen Kunden zu haben).

Metariat
quelle
Ich bin völlig einverstanden mit der Nützlichkeit des variablen Rankings in vielen Geschäftsfällen. Aber hier bleibt die Besorgnis von "unterschiedlichen Algorithmen ergeben unterschiedliche Rankings" unberücksichtigt. Haben Sie einen Vorschlag, um das anzugehen? Siehe auch meine Frage hier stats.stackexchange.com/q/251248/71287 und die Kommentare darunter.
Aliweb
@aliweb: Ich denke, Matthew hat dir bereits eine hervorragende Antwort auf deine Frage gegeben.
Metariat