Angenommen, wir haben Kovariaten x 1 , … , x n und eine binäre Ergebnisvariable y . Einige dieser Kovariaten sind kategorisch mit mehreren Ebenen. Andere sind kontinuierlich. Wie würden Sie das "beste" Modell auswählen? Mit anderen Worten, wie wählen Sie die Kovariaten aus, die in das Modell aufgenommen werden sollen?
Würden Sie mit jeder der Kovariaten einzeln unter Verwendung einer einfachen logistischen Regression modellieren und diejenigen mit einer signifikanten Assoziation auswählen?
logistic
regression-strategies
Thomas
quelle
quelle
Antworten:
Dies ist wahrscheinlich keine gute Sache. Das Betrachten aller einzelnen Kovariaten und das anschließende Erstellen eines Modells mit den signifikanten entspricht logischerweise einem automatischen Suchvorgang. Obwohl dieser Ansatz intuitiv ist, sind Schlussfolgerungen aus dieser Prozedur nicht gültig (z. B. unterscheiden sich die wahren p-Werte von denen, die von der Software gemeldet werden). Das Problem wird umso größer, je größer der anfängliche Satz von Kovariaten ist. Wenn Sie dies trotzdem tun (und das tun leider viele Leute), können Sie das resultierende Modell nicht ernst nehmen. Stattdessen müssen Sie eine völlig neue Studie durchführen, eine unabhängige Stichprobe erstellen und das vorherige Modell anpassen, um es zu testen. Dies erfordert jedoch eine Menge Ressourcen und darüber hinaus, da der Prozess fehlerhaft ist und das vorherige Modell wahrscheinlich ein schlechtes ist.eine Menge Ressourcen verschwenden .
Ich füge hier die vollständige Formel für den AIC ein, da unterschiedliche Software unterschiedliche Informationen ausgibt. Möglicherweise müssen Sie es nur anhand der Wahrscheinlichkeit berechnen, oder Sie erhalten den endgültigen AIC oder irgendetwas dazwischen.
quelle
Es gibt viele Möglichkeiten zu wählen, welche Variablen in einem Regressionsmodell verwendet werden, einige anständige, andere schlechte und andere schreckliche. Man kann einfach in den Veröffentlichungen von Sander Greenland stöbern, von denen viele die variable Auswahl betreffen.
Generell habe ich jedoch ein paar gemeinsame "Regeln":
quelle
Wie würden Sie das "beste" Modell auswählen?
Es sind nicht genügend Informationen verfügbar, um diese Frage zu beantworten. wenn Sie ursächliche Auswirkungen auf y haben wollen Sie benötigen Regressionen zu implementieren , die widerspiegeln , was über die Verwechselung bekannt ist. Wenn Sie Vorhersagen treffen möchten, ist AIC ein vernünftiger Ansatz.
Diese Ansätze sind nicht die gleichen; Der Kontext bestimmt, welche der (vielen) Arten der Variablenauswahl mehr oder weniger geeignet ist.
quelle