Diese Frage / dieses Thema kam in einer Diskussion mit einem Kollegen auf und ich suchte nach einigen Meinungen dazu:
Ich modelliere einige Daten mithilfe einer logistischen Regression mit zufälligen Effekten, genauer gesagt einer logistischen Regression mit zufälligen Abschnitten. Für die festen Effekte habe ich 9 Variablen, die von Interesse sind und in Betracht kommen. Ich möchte eine Art Modellauswahl treffen, um die signifikanten Variablen zu finden und das „beste“ Modell zu erhalten (nur Haupteffekte).
Meine erste Idee war, den AIC zu verwenden, um verschiedene Modelle zu vergleichen, aber mit 9 Variablen war ich nicht zu aufregend, um 2 ^ 9 = 512 verschiedene Modelle zu vergleichen (Schlüsselwort: Datenbaggerung).
Ich habe dies mit einem Kollegen besprochen und er hat mir erzählt, dass er sich daran erinnert hat, über die schrittweise (oder vorwärtsgerichtete) Modellauswahl mit GLMMs gelesen zu haben. Anstatt jedoch einen p-Wert zu verwenden (z. B. basierend auf einem Likelihood-Ratio-Test für GLMMs), sollte der AIC als Ein- / Ausstiegskriterium verwendet werden.
Ich fand diese Idee sehr interessant, fand aber keine Referenzen, die dies weiter diskutierten, und mein Kollege erinnerte sich nicht daran, wo er sie gelesen hatte. Viele Bücher schlagen vor, den AIC zum Vergleichen von Modellen zu verwenden, aber ich fand keine Diskussion darüber, dies zusammen mit einem schrittweisen oder vorwärts gerichteten Modellauswahlverfahren zu verwenden.
Ich habe also grundsätzlich zwei Fragen:
Ist etwas falsch daran, den AIC in einem schrittweisen Modellauswahlverfahren als Ein- / Ausstiegskriterium zu verwenden? Wenn ja, welche Alternative wäre das?
Haben Sie einige Referenzen, die das oben beschriebene Verfahren diskutieren (auch als Referenz für einen Abschlussbericht?
Beste,
Emilia
Antworten:
Die schrittweise Auswahl ist in Mehrebenenmodellen aus den gleichen Gründen falsch wie in der "regulären" Regression: Die p-Werte sind zu niedrig, die Standardfehler zu klein, die Parameterschätzungen von 0 weg voreingenommen usw. Am wichtigsten ist, dass Sie dies ablehnen die Gelegenheit zum Nachdenken.
9 IVs sind nicht so viele. Warum hast du diese 9 gewählt? Sicher hatten Sie einen Grund.
Eine erste Sache, die Sie tun müssen, ist, sich viele Grundstücke anzusehen. Welche genauen Daten vorliegen, hängt ein wenig davon ab, ob Ihre Daten in Längsrichtung (in diesem Fall sind Diagramme mit der Zeit auf der x-Achse häufig nützlich) oder gruppiert sind. Aber schauen Sie sich sicherlich die Beziehungen zwischen den 9 IVs und Ihrem DV an (parallele Box-Plots sind eine einfache Möglichkeit).
Ideal wäre es, einige Modelle auf der Grundlage des materiellen Sinns zu erstellen und sie mit AIC, BIC oder einer anderen Maßnahme zu vergleichen. Aber wundern Sie sich nicht, wenn kein bestimmtes Modell so eindeutig am besten zur Geltung kommt. Sie sagen nicht, in welchem Bereich Sie arbeiten, aber in vielen (den meisten?) Bereichen ist die Natur kompliziert. Mehrere Modelle passen möglicherweise ungefähr gleich gut und ein anderes Modell passt möglicherweise besser zu einem anderen Datensatz (selbst wenn beide Zufallsstichproben aus derselben Population sind).
Als Referenz gibt es viele gute Bücher über nichtlineare gemischte Modelle. Welches für Sie am besten geeignet ist, hängt davon ab, a) in welchem Bereich Sie sich befinden b) in welcher Art die Daten vorliegen c) welche Software Sie verwenden.
Auf Ihren Kommentar antworten
Wenn alle 9 Variablen wissenschaftlich wichtig sind, würde ich zumindest in Betracht ziehen, sie alle einzubeziehen. Wenn eine Variable, die jeder für wichtig hält, einen kleinen Effekt hat, ist das interessant.
Zeichnen Sie alle Ihre Variablen im Laufe der Zeit und auf verschiedene Weise.
Für allgemeine Fragen zu longitudinalen Mehrebenenmodellen mag ich Hedeker und Gibbons ; Für nichtlineare Längsmodelle in SAS mag ich Molenberghs und Verbeke . Die SAS-Dokumentation selbst (für
PROC GLIMMIX
) enthält ebenfalls Anleitungen.quelle
Die Modellauswahl kann besser mit Schrumpfungsmethoden wie LASSO durchgeführt werden. Schrittweise Methoden sind zu liberal. Eine Begründung finden Sie auf Tibshiranis Webseite. Wenn Sie R verwenden, gibt es ein Paket namens,
glmmLasso
das die Modellauswahl in verallgemeinerten linearen Mischeffektmodellen unter Verwendung der LASSO-Schrumpfungsmethode ermöglicht.quelle
Eine gute Referenz für die AIC-basierte gemischte Modellauswahl in R (auch gut für Dummies) wäre Zuur_2009_Mixed_Effect_Models_and_Extensions_in_Ecology_with_R,
quelle