In einem Datensatz von zwei nicht überlappenden Populationen (Patienten & Gesunde, insgesamt ) möchte ich (aus unabhängigen Variablen) signifikante Prädiktoren für eine kontinuierliche abhängige Variable finden. Korrelation zwischen Prädiktoren ist vorhanden. Ich bin daran interessiert herauszufinden, ob einer der Prädiktoren "in der Realität" mit der abhängigen Variablen zusammenhängt (anstatt die abhängige Variable so genau wie möglich vorherzusagen). Da ich mit den zahlreichen möglichen Ansätzen überfordert war, möchte ich fragen, welcher Ansatz am besten zu empfehlen ist.300
Nach meinem Verständnis wird das schrittweise Einschließen oder Ausschließen von Prädiktoren nicht empfohlen
Führen Sie z. B. eine lineare Regression für jeden Prädiktor separat durch und korrigieren Sie die p-Werte für den Mehrfachvergleich mit FDR (wahrscheinlich sehr konservativ?)
Prinzipal-Komponenten-Regression: Schwierig zu interpretieren, da ich nicht über die Vorhersagekraft einzelner Prädiktoren, sondern nur über die Komponenten berichten kann.
Irgendwelche anderen Vorschläge?
Antworten:
Ich würde empfehlen, ein Glm mit Lasso-Regularisierung zu versuchen . Dies fügt dem Modell eine Strafe für die Anzahl der Variablen hinzu. Wenn Sie die Strafe erhöhen, verringert sich die Anzahl der Variablen im Modell.
Sie sollten Kreuzvalidierung verwenden, um den Wert des Strafparameters auszuwählen. Wenn Sie R haben, empfehle ich die Verwendung des glmnet-Pakets . Verwendung
alpha=1
für Lasso-Regression undalpha=0
für Ridge-Regression. Wenn Sie einen Wert zwischen 0 und 1 einstellen, wird eine Kombination aus Lasso und Kammstrafen verwendet, die auch als elastisches Netz bezeichnet werden.quelle
Um die Antwort von Zach (+1) zu erweitern, versuchen Sie, wenn Sie die LASSO-Methode in der linearen Regression verwenden, die Summe aus einer quadratischen Funktion und einer Absolutwertfunktion zu minimieren, dh:
Das Minimum liegt auf der Schnittkurve, hier aufgetragen mit den Konturkurven der quadratischen und quadratischen Kurve:
Sie können sehen, dass sich das Minimum auf einer der Achsen befindet, daher wurde diese Variable aus der Regression entfernt.
quelle
Was war Ihre vorherige Meinung dazu, wie viele Prädiktoren wahrscheinlich wichtig sind? Ist es wahrscheinlich, dass die meisten von ihnen einen Effekt von genau Null haben oder dass alles das Ergebnis beeinflusst, einige Variablen nur weniger als andere?
Und wie hängt der Gesundheitszustand mit der vorausschauenden Aufgabe zusammen?
Wenn Sie der Meinung sind, dass nur wenige Variablen wichtig sind, können Sie vorab (z. B. im spikeSlabGAM-Paket des R) oder mit L1 versuchen, Spike und Slab zu testen. Wenn Sie glauben, dass alle Prädiktoren das Ergebnis beeinflussen, haben Sie möglicherweise Pech.
Im Allgemeinen gelten alle Vorbehalte, die sich auf kausale Schlussfolgerungen aus Beobachtungsdaten beziehen.
quelle
Was auch immer Sie tun, es lohnt sich, Bootstrap-Konfidenzintervalle in die Rangliste der Prädiktoren aufzunehmen, um zu zeigen, dass Sie dies wirklich mit Ihrem Datensatz tun können. Ich bezweifle, dass eine der Methoden zuverlässig die "wahren" Prädiktoren finden kann.
quelle
quelle