Kann mir jemand raten, ob Folgendes sinnvoll ist:
Ich habe es mit einem gewöhnlichen linearen Modell mit 4 Prädiktoren zu tun. Ich bin mir nicht sicher, ob ich den am wenigsten signifikanten Begriff streichen soll. Der Wert liegt etwas über 0,05. Ich habe mich dafür ausgesprochen, diesen Begriff in diese Richtung zu verschieben: Die Multiplikation der Schätzung dieses Begriffs mit (zum Beispiel) dem Interquartilbereich der Probendaten für diese Variable gibt dem klinischen Effekt, den die Beibehaltung dieses Begriffs auf das Gesamtmodell hat, eine Bedeutung . Da diese Zahl sehr niedrig ist und ungefähr dem typischen Wertebereich innerhalb eines Tages entspricht, den die Variable annehmen kann, wenn sie in einem klinischen Umfeld gemessen wird, halte ich sie für klinisch nicht signifikant und könnte daher fallengelassen werden, um selbst ein sparsameres Modell zu erhalten Durch Fallenlassen wird das eingestellte etwas verringert .
quelle
Antworten:
Ich habe den Wunsch nach Sparsamkeit nie verstanden. Die Suche nach Sparsamkeit zerstört alle Aspekte der statistischen Inferenz (Verzerrung von Regressionskoeffizienten, Standardfehlern, Konfidenzintervallen, P-Werten). Ein guter Grund, Variablen beizubehalten, besteht darin, dass die Genauigkeit von Konfidenzintervallen und anderen Größen erhalten bleibt. Stellen Sie sich das so vor: Es wurden nur zwei unverzerrte Schätzer für die Restvarianz bei der gewöhnlichen multiplen Regression entwickelt: (1) die Schätzung aus dem vordefinierten (großen) Modell und (2) die Schätzung aus einem reduzierten Modell, das verallgemeinerte Grade ersetzt of freedom (GDF) für scheinbare (reduzierte) Regressionsfreiheitsgrade. GDF ist der Anzahl der Kandidatenparameter viel näher als der Anzahl der endgültigen "signifikanten" Parameter.
Hier ist eine andere Art, darüber nachzudenken. Angenommen, Sie würden eine ANOVA durchführen, um 5 Behandlungen zu vergleichen und einen 4-df-F-Test zu erhalten. Dann untersuchen Sie aus irgendeinem Grund die paarweisen Unterschiede zwischen Behandlungen mit t-Tests und haben beschlossen, einige der Behandlungen zu kombinieren oder zu entfernen (dies entspricht der schrittweisen Auswahl mit P, AIC, BIC, Cp für die 4 Dummy-Variablen). Der resultierende F-Test mit 1, 2 oder 3 df hat den Typ I-Fehler aufgeblasen. Der ursprüngliche F-Test mit 4 df enthielt eine perfekte Multiplizitätseinstellung.
quelle
Diese Antworten über die Auswahl von Variablen gehen alle davon aus, dass die Kosten für die Beobachtung von Variablen 0 betragen.
Und das stimmt nicht.
Während das Problem der Auswahl von Variablen für ein bestimmtes Modell möglicherweise eine Auswahl beinhaltet oder nicht, beinhalten die Auswirkungen auf das zukünftige Verhalten eine Auswahl.
Betrachten Sie das Problem der Vorhersage, welcher College-Lineman in der NFL am besten abschneidet. Du bist ein Pfadfinder. Sie müssen sich überlegen, welche Qualitäten der aktuellen Linemen in der NFL den Erfolg am ehesten prognostizieren. Sie messen 500 Mengen und beginnen mit der Auswahl der Mengen, die in Zukunft benötigt werden.
Was sollte man tun? Sollten Sie alle 500 behalten? Sollten einige (Sternzeichen, Wochentag geboren am) beseitigt werden?
Dies ist eine wichtige Frage und nicht akademisch. Die Beobachtung von Daten ist mit Kosten verbunden, und der Rahmen der Kostenwirksamkeit legt nahe, dass einige Variablen in Zukunft NICHT beachtet werden MÜSSEN, da ihr Wert niedrig ist.
quelle
Es gibt mindestens zwei weitere mögliche Gründe für die Beibehaltung einer Variablen: 1) Sie wirkt sich auf die Parameter für ANDERE Variablen aus. 2) Die Tatsache, dass es klein ist, ist an sich klinisch interessant
Um ungefähr 1 zu sehen, können Sie die vorhergesagten Werte für jede Person aus einem Modell mit und ohne die Variable im Modell anzeigen. Ich schlage vor, ein Streudiagramm dieser beiden Wertemengen zu erstellen. Wenn es keine großen Unterschiede gibt, ist das ein Argument gegen diesen Grund
Denken Sie für 2 darüber nach, warum Sie diese Variable in der Liste der möglichen Variablen hatten. Basiert es auf Theorie? Haben andere Forscher einen großen Effekt gefunden?
quelle
Heutzutage wird am häufigsten empfohlen, den AIC der beiden Modelle zu ermitteln und den mit dem niedrigeren AIC zu verwenden. Wenn Ihr vollständiges Modell einen AIC von -20 hat und das Modell ohne den schwächsten Prädiktor einen AIC> -20 hat, behalten Sie das vollständige Modell. Einige könnten argumentieren, dass, wenn der Unterschied <3 ist, Sie den einfacheren behalten. Ich bevorzuge den Rat, dass Sie den BIC verwenden könnten, um "Bindungen" zu lösen, wenn die AIC innerhalb von 3 voneinander liegen.
Wenn Sie mit R dann den Befehl der AIC zu bekommen , ist ...
AIC
.Ich habe hier ein Lehrbuch über Modellierung aus den frühen 90er Jahren, das vorschlägt, dass Sie alle Ihre nicht signifikanten Prädiktoren fallen lassen. Dies bedeutet jedoch, dass Sie unabhängig von der Komplexität, die der Prädiktor dem Modell hinzufügt oder daraus subtrahiert, fallen. Es ist auch nur für ANOVA, wo es um die Bedeutung der erklärten Variabilität geht und nicht um die Größe der Steigung im Lichte der anderen Erklärungen. Die moderneren Ratschläge zur Verwendung von AIC berücksichtigen diese Faktoren. Es gibt viele Gründe, warum der nicht signifikante Prädiktor eingeschlossen werden sollte, auch wenn er nicht signifikant ist. Beispielsweise kann es Korrelationsprobleme mit anderen Prädiktoren geben, bei denen es sich möglicherweise um einen relativ einfachen Prädiktor handelt. Wenn Sie den einfachsten Rat wünschen, gehen Sie zu AIC und verwenden Sie BIC, um die Bindung zu lösen und eine Differenz von 3 als Ihr Fenster der Gleichheit zu verwenden.
quelle
Wofür verwenden Sie dieses Modell? Ist Sparsamkeit ein wichtiges Ziel?
In manchen Situationen werden sparsamere Modelle bevorzugt, aber ich würde nicht sagen, dass Sparsamkeit eine gute Sache für sich ist. Sparsame Modelle können leichter verstanden und kommuniziert werden, und Sparsamkeit kann helfen, Überanpassungen vorzubeugen. Oft sind diese Probleme jedoch nicht besonders wichtig oder können auf andere Weise angegangen werden.
Das Annähern aus der entgegengesetzten Richtung, einschließlich eines zusätzlichen Terms in einer Regressionsgleichung, hat einige Vorteile, selbst in Situationen, in denen der zusätzliche Term selbst nicht von Interesse ist und das Modell nicht sehr gut passt. Vielleicht denken Sie nicht, dass dies der Fall ist ist eine wichtige Variable, die gesteuert werden muss, andere jedoch möglicherweise. Natürlich gibt es andere sehr wichtige sachliche Gründe, eine Variable auszuschließen, z. B. könnte dies durch das Ergebnis verursacht werden.
quelle
Nach Ihrer Formulierung klingt es, als ob Sie dazu neigen, den letzten Prädiktor fallen zu lassen, da sein Vorhersagewert niedrig ist. Eine wesentliche Änderung dieses Prädiktors würde keine wesentliche Änderung der Antwortvariablen bedeuten. Wenn das der Fall ist, dann mag ich dieses Kriterium für das Einschließen / Löschen des Prädiktors. Es ist mehr in der praktischen Realität begründet als der AIC oder BIC sein kann, und es ist für Ihr Publikum für diese Forschung erklärbarer.
quelle