Was genau ist „schrittweise Modellauswahl“?

8

Obwohl die Vorzüge der schrittweisen Modellauswahl bereits erörtert wurden, wird mir unklar, was genau " schrittweise Modellauswahl " oder " schrittweise Regression " ist. Ich dachte, ich hätte es verstanden, war mir aber nicht mehr so ​​sicher.

Nach meinem Verständnis sind diese beiden Begriffe synonym (zumindest in einem Regressionskontext) und beziehen sich auf die Auswahl des besten Satzes von Prädiktorvariablen in einem "optimalen" oder "besten" Modell angesichts der Daten. (Die Wikipedia-Seite finden Sie hier und eine weitere potenziell nützliche Übersicht finden Sie hier .)

Basierend auf mehreren vorherigen Threads (zum Beispiel hier: Algorithmen für die automatische Modellauswahl ) scheint es, dass die schrittweise Modellauswahl als Hauptsünde betrachtet wird. Und doch scheint es die ganze Zeit benutzt zu werden, auch von anscheinend angesehenen Statistikern. Oder vermische ich die Terminologie?

Meine Hauptfragen sind:

  1. Mit "schrittweiser Modellauswahl" oder "schrittweiser Regression" meinen wir:
    A ) sequentielle Hypothesentests wie Likelihood-Ratio-Tests oder Betrachtung von p-Werten? (Hier gibt es einen verwandten Beitrag: Warum sind p-Werte nach einer schrittweisen Auswahl irreführend? ) Ist dies gemeint und warum ist es schlecht?
    Oder
    B ) halten wir die Auswahl anhand des AIC (oder eines ähnlichen Informationskriteriums) auch für gleich schlecht? Aus der Antwort unter Algorithmen für die automatische Modellauswahl geht hervor, dass auch dies kritisiert wird. Auf der anderen Seite haben Whittingham et al. (2006; pdf ) 1 scheint darauf hinzudeuten, dass sich die auf dem informationstheoretischen (IT) Ansatz basierende Variablenauswahl von der schrittweisen Auswahl unterscheidet (und ein gültiger Ansatz zu sein scheint) ...?

    Und das ist die Quelle all meiner Verwirrung.

    Wenn die AIC-basierte Auswahl unter "schrittweise" fällt und als unangemessen angesehen wird, sind folgende Fragen zu beantworten:

  2. Wenn dieser Ansatz falsch ist, warum wird er in Lehrbüchern, Universitätskursen usw. gelehrt? Ist das alles einfach falsch?

  3. Was sind gute Alternativen für die Auswahl, welche Variablen im Modell verbleiben sollen? Ich bin auf Empfehlungen zur Verwendung von Kreuzvalidierungs- und Trainingstest-Datensätzen sowie von LASSO gestoßen.

  4. Ich denke, jeder kann zustimmen, dass es problematisch ist, alle möglichen Variablen wahllos in ein Modell zu werfen und dann schrittweise auszuwählen. Natürlich sollte ein vernünftiges Urteilsvermögen bestimmen, was anfangs passiert. Aber was ist, wenn wir bereits mit einer begrenzten Anzahl möglicher Prädiktorvariablen beginnen, die auf einigen (etwa biologischen) Kenntnissen beruhen, und all diese Prädiktoren möglicherweise unsere Reaktion erklären? Wäre dieser Ansatz der Modellauswahl immer noch fehlerhaft? Ich erkenne auch an, dass die Auswahl des "besten" Modells möglicherweise nicht angemessen ist, wenn die AIC-Werte zwischen verschiedenen Modellen sehr ähnlich sind (und in solchen Fällen eine Inferenz mit mehreren Modellen angewendet werden kann). Aber ist das zugrunde liegende Problem der Verwendung einer AIC-basierten schrittweisen Auswahl immer noch problematisch?

    Wenn wir sehen wollen, welche Variablen die Reaktion auf welche Weise zu erklären scheinen, warum ist dieser Ansatz falsch, da wir wissen, dass "alle Modelle falsch sind, aber einige nützlich"?

1. Whittingham, MJ, Stephens, PA, Bradbury, RB & Freckleton, RP (2006). Warum verwenden wir immer noch schrittweise Modellierung in Ökologie und Verhalten? Journal of Animal Ecology, 75, S. 1182–1189.

Tilen
quelle
Sowohl der AIC als auch der p-Wert sind durch schrittweise Regression irreführend! Eine intuitive Erklärung mit einem Beispiel für die schrittweise Regression mit AIC finden Sie hier: metariat.wordpress.com/2016/12/19/…
Metariat
3
Können Sie klarstellen, was genau in dem Thread Algorithmen für die automatische Modellauswahl, auf den Sie verweisen , für Sie unklar ist ? Es scheint, dass es alle Ihre Fragen beantwortet und eine ziemlich detaillierte Antwort gibt. Beantwortung der Grundfrage: Bei der schrittweisen Modellauswahl wird eine Regression mit einer Reihe von Prädiktoren durchgeführt und anschließend nacheinander (oder nacheinander) basierend auf einigen Kriterien der Modellverbesserung gelöscht, bis das "beste" Modell gefunden wird.
Tim
1
@ Tim, entschuldige mich für die verspätete Antwort. Nein, ich glaube nicht, dass es alle meine Fragen beantwortet und einige Probleme (für mich) unklar bleiben. 1) Ich wollte die Terminologie klarstellen, da verschiedene Quellen unterschiedliche Begriffe verwenden. Daher wollte ich gründlich verstehen, ob die Begriffe, auf die ich mich beziehe, Synonyme sind oder nicht. 2) Obwohl ich aus diesem Thread verstehen konnte, dass die Probleme unabhängig von den verwendeten Kriterien gleich sind, gibt es in der Literatur Inkonsistenzen. 3) Beim Lesen von Zeitungen und Büchern scheint es Meinungsverschiedenheiten darüber zu geben, was angemessen ist und was nicht (oder wann).
Tilen
1
4) Eine meiner Fragen war auch, warum dies dann immer noch gelehrt wird (unter scheinbar sachkundigen Namen), wenn es als falsch angesehen wird. Ich wollte verstehen, ob dies der Vergangenheit angehört (aber angesichts des Zeitpunkts der Veröffentlichung bestimmter Bücher nicht zu sein scheint), verschiedene Denkrichtungen oder einfach nur Unwissenheit. 5) Ich wollte verstehen, ob dieser Ansatz falsch ist, auch wenn der Startsatz der Kandidaten-Prädiktorvariablen bereits begrenzt ist. Mit anderen Worten, mein persönliches Interesse ist es, die besten Prädiktoren zu finden, wenn eine bereits reduzierte und gut durchdachte Menge gegeben ist.
Tilen
1
Fazit: Obwohl der Thread zu Algorithmen für die automatische Modellauswahl sehr informativ und nützlich war, hat er mich dennoch mit vielen Fragen und Verwirrung zurückgelassen.
Tilen

Antworten:

4

1) Der Grund, warum Sie verwirrt sind, ist, dass der Begriff "schrittweise" inkonsistent verwendet wird. Manchmal bedeutet es ziemlich spezifische Verfahren, in denenp-Werte von Regressionskoeffizienten, die auf gewöhnliche Weise berechnet werden, werden verwendet, um zu bestimmen, welche Kovariaten zu einem Modell hinzugefügt oder daraus entfernt werden, und dieser Vorgang wird mehrmals wiederholt. Es kann sich auf (a) eine bestimmte Variation dieses Verfahrens beziehen, bei der Variablen in jedem Schritt hinzugefügt oder entfernt werden können (ich denke, dies wird von SPSS als "schrittweise" bezeichnet), oder es kann sich auf (b) diese Variation zusammen mit anderen beziehen Variationen wie nur das Hinzufügen von Variablen oder nur das Entfernen von Variablen. Im weiteren Sinne kann "schrittweise" verwendet werden, um sich auf (c) jede Prozedur zu beziehen, bei der Features zu einem Modell hinzugefügt oder daraus entfernt werden, und zwar gemäß einem Wert, der jedes Mal berechnet wird, wenn ein Feature (oder eine Reihe von Features) hinzugefügt oder entfernt wird.

Diese unterschiedlichen Strategien wurden alle aus verschiedenen Gründen kritisiert. Ich würde sagen, dass sich der größte Teil der Kritik auf (b) bezieht. Der Hauptteil dieser Kritik besteht darin, dass Werte für die Merkmalsauswahl schlecht gerüstet sind (die Signifikanztests hier testen wirklich etwas ganz anderes als "sollte ich diese Variable in aufnehmen) das Modell? "), und die meisten ernsthaften Statistiker empfehlen unter allen Umständen dagegen. (c) ist kontroverser.p

2) Weil Statistikunterricht wirklich schlecht ist. Um nur ein Beispiel zu nennen: Soweit ich aus meiner eigenen Ausbildung ersehen kann, wird es anscheinend als Schlüsselelement der Statistikausbildung für Psychologie-Majors angesehen, den Schülern zu sagen, dass sie die Bessel-Korrektur verwenden sollen , um unvoreingenommene Schätzungen der Bevölkerungs-SD zu erhalten. Es ist wahr, dass Bessels Korrektur die Schätzung der Varianz unvoreingenommen macht, aber es ist leicht zu beweisen, dass die Schätzung der SD immer noch voreingenommen ist. Besser noch, Bessels Korrektur kann die MSE dieser Schätzungen erhöhen .

3) Die Variablenauswahl ist praktisch ein Feld für sich. Kreuzvalidierung und Zug-Test-Aufteilungen sind Möglichkeiten zur Bewertung eines Modells, möglicherweise nach Auswahl der Merkmale. Sie selbst geben keine Vorschläge für die zu verwendenden Funktionen. Das Lasso ist oft eine gute Wahl. So ist die beste Teilmenge.

4) Meiner Meinung nach macht es immer noch keinen Sinn, (b) zu verwenden, insbesondere wenn Sie stattdessen in (c) etwas anderes tun könnten, beispielsweise AIC. Ich habe keine Einwände gegen eine schrittweise Auswahl auf AIC-Basis, aber seien Sie sich bewusst, dass sie für die Stichprobe empfindlich sein wird (insbesondere wenn die Stichproben beliebig groß werden, wählt AIC wie das Lasso immer das komplexeste Modell). Die Modellauswahl selbst wird nicht als verallgemeinerbare Schlussfolgerung dargestellt.

Wenn wir sehen wollen, welche Variablen die Reaktion auf welche Weise zu erklären scheinen

Wenn Sie die Auswirkungen aller Variablen untersuchen möchten, müssen Sie letztendlich alle Variablen einbeziehen. Wenn Ihre Stichprobe dafür zu klein ist, benötigen Sie eine größere Stichprobe. Denken Sie daran, Nullhypothesen sind im wirklichen Leben niemals wahr. Es wird keine Reihe von Variablen geben, die einem Ergebnis zugeordnet sind, und keine Reihe anderer Variablen, die dies nicht sind . Jede Variable wird mit dem Ergebnis verknüpft - die Fragen sind, in welchem ​​Ausmaß, in welche Richtung, in welche Interaktionen mit anderen Variablen usw.

Kodiologe
quelle
Zu (4): @gung hat 220 positive Stimmen für seine Kritik an schrittweisen Prozeduren in stats.stackexchange.com/questions/20836 , aber ich denke, diese Kritik würde für AIC-basierte Prozeduren genauso gelten wie für p-value- basierte.
Amöbe
@amoeba Frank Harrells nummerierte Punkte scheinen hauptsächlich für (b) zu gelten (und sein Punkt 9 ist ein Vorteil, kein Nachteil). Gungs Beschreibung, wie Modellauswahl überanpassen kann, ist korrekt, aber dafür ist die Modellvalidierung gedacht, und das Problem gilt für alle Modellauswahlszenarien
Kodiologe
3
Ich denke, Gungs Antwort sowie Franks dort zitierte Punkte beziehen sich auf die schrittweise Auswahl ohne externe Modellvalidierung. Wenn eine schrittweise Auswahl in eine Kreuzvalidierungsschleife gestellt wird, gibt es natürlich kein prinzipielles Problem damit, selbst wenn sie auf p-Werten basiert. Wenn es überpasst, werden wir es in der kreuzvalidierten Leistung sehen. Kritikpunkte wie "Es liefert R-Quadrat-Werte, die stark voreingenommen sind, um hoch zu sein" sind nur dann sinnvoll, wenn sie ohne Kreuzvalidierung durchgeführt werden.
Amöbe
p
@ Kodiologist, danke für die Antwort, es ist sehr hilfreich. 1) Die folgenden Kommentare waren eine Offenbarung für mich: Ich hatte nicht bemerkt, dass diese ganze Diskussion im anderen Thread auf der Prämisse beruhte, dass kein Modell validiert wurde. Ich betrachtete die Modellvalidierung auf jeden Fall als wesentlichen Bestandteil, unabhängig von der Variablenauswahlmethode. 2) In Bezug auf schlechten Unterricht bin ich immer noch verwirrt, da anscheinend angesehene Leute / Universitäten / Bücher ihn zu lehren oder zu benutzen scheinen. Zum Beispiel haben Zuur et al. 2009 (Modelle mit gemischten Effekten und Erweiterungen in der Ökologie mit R) sowie andere (Faraway 2005, 2006, wenn ich mich nicht irre).
Tilen
2

In Bezug auf schrittweise vs. AIC

Schrittweise ist ein Begriff, der beschreibt, wie eine Folge von Modellen konstruiert wird und möglicherweise wie ein Modell innerhalb der Folge ausgewählt wird.

  • Bei der schrittweisen Modellkonstruktion werden Variablen einzeln oder in Gruppen gemäß einer Regel hinzugefügt oder entfernt, um zu definieren, welche der Variablen hinzugefügt / entfernt werden sollen. Dies steht im Einklang mit dem Punkt (c) des Kodiologen.
  • Bei der schrittweisen Modellauswahl vergleicht man benachbarte Modelle in der Sequenz und stoppt, wenn das betrachtete Modell beiden Nachbarn (dem vorhergehenden und dem nachfolgenden) überlegen erscheint. Dies kann durch Betrachten verschiedener Eigenschaften der Modelle erfolgen, z. B. ihrer AIC-Werte, p-Werte usw.

Inzwischen,

AIC ist ein Maß für die relative Qualität statistischer Modelle für einen bestimmten Datensatz. ( Wikipedia )

AIC kann angewendet werden, um ein Modell aus einem Pool von Kandidaten auszuwählen. Es kann als Auswahlkriterium bei der schrittweisen Auswahl verwendet werden, aber nicht nur.

So schrittweise und AIC sind zwei verschiedene Aspekte der Modellauswahl , die zusammen oder separat genutzt werden können, und in Abhängigkeit von dieser und auf anderen Erwägungen können oder nicht geeignet sein.

Richard Hardy
quelle
Vielen Dank auch für Ihre nützliche Antwort. Ja, mir ist bekannt, dass AIC getrennt von schrittweise verwendet werden kann. In meinem Bereich (Biologie) bin ich jedoch häufig mit mehreren Kandidaten für die Antwort konfrontiert. Folglich ist es oft unmöglich, eine kleine Menge von nur wenigen vorher festgelegten Modellen zu konstruieren und zu vergleichen (ohne schrittweise Vorwärts- oder Rückwärtsauswahl oder alle möglichen Kombinationen (Bagger)), selbst mit dem besten verfügbaren biologischen Wissen und sorgfältigem Denken. Irgendwelche anderen Ratschläge, was in solchen Fällen der beste Weg wäre?
Tilen
@Tilen, Regelmäßige Schätzung ist oft eine gute Idee; zB elastisches Netz oder seine Sonderfälle (Lasso und Grat) können nützlich sein. Partielle kleinste Quadrate sind ein anderer Weg.
Richard Hardy
Danke, ich werde mich darum kümmern. Sind diese Methoden viel komplizierter als beispielsweise AIC-basierte schrittweise Verfahren, oder sind sie nur neuer? Der Grund, den ich frage, ist zu verstehen, warum statistische Modellierungskurse und Bücher (zumindest einführende oder grundlegende, aber evn angewandte) schrittweise Verfahren (sowohl p-Wert- als auch AIC-basiert) anstelle der von Ihnen genannten Methoden enthalten.
Tilen
@ Tilen, wahrscheinlich beides.
Richard Hardy
Aha. Ich frage mich, ob Sie irgendwelche Gedanken zu einer direkt verwandten, aber anderen Frage haben: stats.stackexchange.com/questions/265572/… ?
Tilen