Modellbildung und Auswahl mit Hosmer et al. 2013. Angewandte logistische Regression in R

17

Dies ist mein erster Beitrag in StackExchange, aber ich verwende ihn seit einiger Zeit als Ressource. Ich werde mein Bestes tun, um das entsprechende Format zu verwenden und die entsprechenden Änderungen vorzunehmen. Auch dies ist eine mehrteilige Frage. Ich war mir nicht sicher, ob ich die Frage in mehrere oder nur einen Beitrag aufteilen sollte. Da die Fragen alle aus einem Abschnitt im selben Text stammen, hielt ich es für relevanter, als eine Frage zu posten.

Ich erforsche die Lebensraumnutzung einer großen Säugetierart für eine Masterarbeit. Ziel dieses Projekts ist es, Forstverwaltern (die wahrscheinlich keine Statistiker sind) einen praktischen Rahmen für die Beurteilung der Lebensraumqualität auf den von ihnen bewirtschafteten Flächen in Bezug auf diese Art zu bieten. Dieses Tier ist relativ schwer zu fassen, ein Spezialist für Lebensräume und befindet sich normalerweise in abgelegenen Gebieten. Es wurden relativ wenige Studien zur Verbreitung der Arten durchgeführt, insbesondere in Bezug auf die Jahreszeit. Mehrere Tiere wurden für einen Zeitraum von einem Jahr mit GPS-Halsbändern ausgestattet. Einhundert Orte (50 Sommer und 50 Winter) wurden zufällig aus den GPS-Halsbanddaten jedes Tieres ausgewählt. Zusätzlich wurden zufällig 50 Punkte innerhalb des Heimatbereichs jedes Tieres generiert, um als "verfügbare" oder "Pseudo-Abwesenheits" -Stellen zu dienen.

Für jeden Standort wurden mehrere Lebensraumvariablen auf dem Feld erfasst (Baumdurchmesser, horizontale Bedeckung, grobe Holzabfälle usw.) und mehrere wurden aus der Ferne über das GIS erfasst (Höhe, Entfernung zur Straße, Robustheit usw.). Die Variablen sind größtenteils kontinuierlich, mit Ausnahme von 1 kategorialen Variablen mit 7 Ebenen.

Mein Ziel ist es, mithilfe der Regressionsmodellierung Ressourcenauswahlfunktionen (RSF) zu erstellen, um die relative Nutzungswahrscheinlichkeit von Ressourceneinheiten zu modellieren. Ich möchte einen saisonalen RSF (Winter und Sommer) für die Tierpopulation (Designtyp I) sowie für jedes einzelne Tier (Designtyp III) erstellen.

Ich benutze R, um die statistische Analyse durchzuführen.

Der primäre Text, den ich verwendet habe, ist ...

  • "Hosmer, DW, Lemeshow, S. & Sturdivant, RX 2013. Angewandte logistische Regression. Wiley, Chicester".

Die Mehrzahl der Beispiele in Hosmer et al. benutze STATA, ich habe auch die folgenden 2 Texte als Referenz mit R verwendet .

  • "Crawley, MJ 2005. Statistik: Eine Einführung mit RJ Wiley, Chichester, West Sussex, England."
  • "Plant, RE 2012. Geodatenanalyse in Ökologie und Landwirtschaft mit R. CRC Press, London, GBR."

Ich folge derzeit den Schritten in Kapitel 4 von Hosmer et al. für die "gezielte Auswahl von Covariaten" und haben ein paar Fragen zum Verfahren. Ich habe die ersten Schritte im folgenden Text umrissen, um meine Fragen zu beantworten.

  1. Schritt 1: Eine univariable Analyse jeder unabhängigen Variablen (ich habe eine univariable logistische Regression verwendet). Jede Variable, deren univariabler Test einen p-Wert von weniger als 0,25 hat, sollte in das erste multivariable Modell aufgenommen werden.
  2. Schritt 2: Passen Sie ein multivariables Modell an, das alle in Schritt 1 identifizierten Kovariaten für die Aufnahme enthält, und bewerten Sie die Wichtigkeit jeder Kovariate anhand des p-Werts ihrer Wald-Statistik. Variablen, die auf traditionellen Signifikanzniveaus keinen Beitrag leisten, sollten eliminiert und ein neues Modell angepasst werden. Das neuere, kleinere Modell sollte mit dem Partial-Likelihood-Ratio-Test mit dem alten, größeren Modell verglichen werden.
  3. Schritt 3: Vergleichen Sie die Werte der geschätzten Koeffizienten im kleineren Modell mit ihren jeweiligen Werten aus dem großen Modell. Jede Variable, deren Koeffizient sich in der Größe merklich geändert hat, sollte wieder in das Modell aufgenommen werden, da dies wichtig ist, um die Auswirkungen der im Modell verbleibenden Variablen anzupassen. Durchlaufen Sie die Schritte 2 und 3, bis alle wichtigen Variablen im Modell enthalten sind und die ausgeschlossenen klinisch und / oder statistisch unwichtig sind. Hosmer et al. Verwenden Sie das " Delta-Beta-Hat-Prozent " als Maß für die Änderung der Größe der Koeffizienten. Sie deuten auf eine signifikante Veränderung als Delta-Beta-Hat-Prozent von> 20% hin. Hosmer et al. Definieren Sie den Delta-Beta-Hat-Prozentsatz als Δβ^%=100θ^1β^1β^1 . Wobei der Koeffizient aus dem kleineren Modell und der Koeffizient aus dem größeren Modell ist.θ^1β^1
  4. Schritt 4: Fügen Sie jede Variable, die in Schritt 1 nicht ausgewählt wurde, einzeln zum Modell hinzu, das am Ende von Schritt 3 erhalten wurde, und überprüfen Sie ihre Signifikanz entweder durch den Wald-statistischen p-Wert oder durch den Partial Likelihood Ratio-Test, wenn es sich um eine Kategorie handelt variabel mit mehr als 2 Ebenen. Dieser Schritt ist von entscheidender Bedeutung für die Identifizierung von Variablen, die für sich genommen keinen wesentlichen Einfluss auf das Ergebnis haben, aber bei Vorhandensein anderer Variablen einen wichtigen Beitrag leisten. Wir bezeichnen das Modell am Ende von Schritt 4 als vorläufiges Haupteffektmodell .
  5. Schritte 5-7: Ich bin noch nicht so weit fortgeschritten, daher lasse ich diese Schritte zunächst aus oder speichere sie für eine andere Frage.

Meine Fragen:

  1. Was wäre in Schritt 2 als traditionelles Signifikanzniveau angemessen, ein p-Wert von <0,05, der etwas größer ist als <0,25?
  2. Wieder in Schritt 2 möchte ich sicherstellen, dass der R-Code, den ich für den Teilwahrscheinlichkeitstest verwendet habe, korrekt ist, und ich möchte sicherstellen, dass ich die Ergebnisse richtig interpretiere. Folgendes habe ich getan: anova(smallmodel,largemodel,test='Chisq')Wenn der p-Wert signifikant ist (<0,05), füge ich die Variable wieder zum Modell hinzu. Wenn er nicht signifikant ist, fahre ich mit dem Löschen fort.
  3. In Schritt 3 habe ich eine Frage bezüglich des Delta-Beta-Hat-Prozentsatzes und wann es angebracht ist, eine ausgeschlossene Variable wieder zum Modell hinzuzufügen. Zum Beispiel schließe ich eine Variable aus dem Modell aus und sie ändert das für eine andere Variable um> 20%. Die Variable mit der Änderung von> 20% in scheint jedoch unbedeutend zu sein und sieht so aus, als würde sie in den nächsten Zyklen der Schritte 2 und 3 aus dem Modell ausgeschlossen. Wie kann ich Festlegen, ob beide Variablen in das Modell einbezogen oder aus ihm ausgeschlossen werden sollen? Da ich fortfahre, indem ich jeweils 1 Variable ausschließe, indem ich zuerst die am wenigsten signifikanten Variablen lösche, zögere ich, eine Variable aus der Reihenfolge auszuschließen.Δβ^%Δβ^%
  4. Schließlich möchte ich sicherstellen, dass der Code, den ich zur Berechnung von korrekt ist. Ich habe den folgenden Code verwendet. Wenn es ein Paket gibt, das dies für mich oder einen einfacheren Weg tut, bin ich offen für Vorschläge. Δβ^%

    100*((smallmodel$coef[2]-largemodel$coef[2])/largemodel$coef[2])

GNG
quelle
aus neugier ist was die art, die du studierst?
Prognose

Antworten:

23

Pβ

Frank Harrell
quelle
3
Ja, Domänenwissen + eine gesunde Dosis Ungläubigkeit in der Einfachheit. Nehmen Sie beispielsweise nicht an, dass kontinuierliche Variablen linear wirken, es sei denn, Sie haben zuvor Daten, die Linearität belegen.
Frank Harrell
6
Das OP zitiert in seiner dritten Ausgabe einen Mainstream-Text mit Autoren, die einen großen Beitrag auf diesem Gebiet geleistet haben. Weitere in der Frage angesprochene Punkte werden in anderen einflussreichen Texten (Agresti, Gelman) erörtert. Ich spreche das nicht an, weil ich mit dieser Strategie einverstanden bin, sondern um festzustellen, dass diese Strategien in den neuesten Mainstream-Texten von angesehenen Statistikern empfohlen werden. Zusammenfassend lässt sich sagen, dass es zwar zahlreiche Literaturempfehlungen gibt, diese jedoch von der statistischen Gemeinschaft offenbar nicht abgelehnt werden.
10.
2
Das ist meiner bescheidenen Meinung nach ziemlich falsch. Die Strategien, die in einigen Texten so stark vorangetrieben wurden, wurden nie validiert. Autoren, die nicht an Simulation glauben, setzen sich dem Risiko aus, für die Verwendung von Methoden einzutreten, die nicht wie angegeben funktionieren.
Frank Harrell
2
Ja, ich weiß. Ich beziehe mich häufig auf Ihren Text und Ihre Unterlagen, und es ist eine der Quellen, aus denen ich zu meinem Schluss gekommen bin, dass ich mit der oben genannten Strategie nicht einverstanden bin. Ich übermittle nur das Dilemma des angemeldeten Benutzers. Wir können nicht alles testen. Wir setzen auf Experten wie Sie.
10.
3
@GNG: FH bezieht sich auf die Simulation, um zu zeigen, dass dieser Ansatz zur Modellauswahl tatsächlich das tut, was er in typischen Anwendungen tun soll (vermutlich, um die Genauigkeit der Vorhersagen Ihres Modells zu verbessern). Ihre (scharfsinnigen) Fragen heben die eher willkürliche, ad hoc auf der Natur beruhende Variableneinbeziehung auf einer unbestimmten Anzahl von Signifikanztests auf "traditionellen" Ebenen hervor, die theoretisch nicht nachgewiesen werden können, um die Optimierung von irgendetwas zu gewährleisten.
Scortchi
5

Methoden zur Variablenauswahl mit Statistik wie P, schrittweise Regression im klassischen Text Hosmer et al. Sollten auf jeden Fall vermieden werden.

Kürzlich bin ich auf einen Artikel gestoßen, der im internationalen Journal of Forecasting mit dem Titel " Illusions of Predictability " veröffentlicht wurde, und auf einen Kommentar zu diesem Artikel von Keith Ord . Ich kann diesen beiden Artikeln nur wärmstens empfehlen, da sie deutlich machen, dass die Verwendung von Regressionsstatistiken häufig irreführend ist. Es folgt ein Screenshot von Keith Ords Artikel, der simuliert, warum die schrittweise Regression (unter Verwendung der p-Statistik) für die Variablenauswahl schlecht ist.

Bildbeschreibung hier eingeben

Ein weiterer wunderbarer Artikel von Scott Armstrong , der in derselben Ausgabe des Journals erschien, zeigt, warum man bei der Verwendung von Regressionsanalysen für nicht experimentelle Daten mit Fallstudien sehr vorsichtig sein sollte. Seit ich diese Artikel lese, vermeide ich es, Regressionsanalysen zu verwenden, um kausale Rückschlüsse auf nicht experimentelle Daten zu ziehen. Als Praktizierender wünschte ich, ich hätte viele Jahre lang solche Artikel gelesen, die mich davor bewahrt hätten, schlechte Entscheidungen zu treffen und kostspielige Fehler zu vermeiden.

Ich glaube nicht, dass für Ihr spezifisches Problem randomisierte Experimente möglich sind. Daher würde ich empfehlen, dass Sie die Kreuzvalidierung verwenden , um Variablen auszuwählen. In diesem kostenlosen Online-Buch finden Sie ein gut ausgearbeitetes Beispiel dafür, wie Sie die Vorhersagegenauigkeit zur Auswahl von Variablen verwenden würden. Es gibt auch viele andere variable Auswahlmethoden, aber ich würde mich auf die Kreuzvalidierung beschränken.

Ich persönlich mag das Zitat von Armstrong. "Irgendwo bin ich auf die Idee gekommen, dass Statistiken die Kommunikation unterstützen sollen. Komplexe Regressionsmethoden und ein Schwarm diagnostischer Statistiken haben uns in die andere Richtung geführt."

Unten ist meine eigene Meinung. Ich bin kein Statistiker.

  • Als Biologe würden Sie diesen Punkt zu schätzen wissen. Die Natur ist sehr komplex und übernimmt logistische Funktionen. In der Natur treten keine Wechselwirkungen zwischen Variablen auf. Darüber hinaus hat die logistische Regression folgende Annahmen :

  • Die wahren bedingten Wahrscheinlichkeiten sind eine logistische Funktion der unabhängigen Variablen.

  • Es werden keine wichtigen Variablen ausgelassen. Es sind keine fremden Variablen enthalten.

  • Die unabhängigen Variablen werden fehlerfrei gemessen.
  • Die Beobachtungen sind unabhängig.
  • Die unabhängigen Variablen sind keine linearen Kombinationen voneinander.

Ich würde die Klassifizierung und den Regressionsbaum (CART (r)) als Alternative zur logistischen Regression für diese Art von Analyse empfehlen, da diese annahmenfrei ist:

  1. Nicht parametrisch / datengesteuert / Keine Annahme, dass Ihre Ausgabewahrscheinlichkeiten der logistischen Funktion entsprechen.
  2. Nicht linear
  3. ermöglicht komplexe variable Interaktion.
  4. Stellt hochinterpretierbare visuelle Bäume bereit, die ein Nicht-Statistiker wie Forstverwalter schätzen würde.
  5. Behandelt mühelos fehlende Werte.
  6. Sie müssen kein Statistiker sein, um CART nutzen zu können !!
  7. wählt automatisch Variablen durch Kreuzvalidierung aus.

CART ist eine Marke von Salford Systems. In diesem Video finden Sie eine Einführung und die Geschichte von CART. Auf der gleichen Website befinden sich auch andere Videos, z. B. karrenlogistische Regressionshybride. Ich würde es überprüfen. Eine Open-Source-Impfung in R heißt Tree , und in R gibt es viele andere Pakete wie Rassel. Wenn ich Zeit finde, werde ich das erste Beispiel in Homsers Text mit CART veröffentlichen. Wenn Sie auf der Verwendung der logistischen Regression bestehen, würde ich zumindest Methoden wie CART verwenden, um Variablen auszuwählen und dann die logistische Regression anzuwenden.

Ich persönlich bevorzuge CART wegen der oben genannten Vorteile der logistischen Regression. Dennoch würde ich sowohl die logistische Regression als auch CART oder CART-Logistc Regression Hybrid ausprobieren und feststellen, welche Methode eine bessere Vorhersagegenauigkeit und vor allem eine bessere Interpretierbarkeit bietet .

Außerdem wurde FYI CART von großen statistischen Fachzeitschriften abgelehnt und schließlich brachten die Erfinder von CART eine Monografie heraus. CART ebnete den Weg zu modernen und äußerst erfolgreichen Algorithmen für maschinelles Lernen wie Random Forest (R), Gradient Boosting Machines (GBM) und Multivariate Adaptive Regression Splines. Randomforest und GBM sind genauer als CART, aber weniger interpretierbar (Blackbox-ähnlich) als CART.

Hoffentlich ist das hilfreich. Lassen Sie mich wissen, wenn Sie diesen Beitrag nützlich finden?

Prognostiker
quelle
8
Y
3
Diese Antwort springt von allgemeinen Kommentaren, von denen viele zumindest für mich unumstritten erscheinen, zu einer sehr spezifischen und eher persönlichen Billigung von CART als Methode der Wahl. Sie haben ein Recht auf Ihre Ansichten, während andere zu ihren Einwänden berechtigt sind. Mein Vorschlag ist, dass Sie das Doppelte Ihrer Antwort deutlicher hervorheben.
Nick Cox
2
Die logistische Regression ist ein verallgemeinertes lineares Modell, aber ansonsten ist sie als ein natürlich nichtlineares Modell (in dem Sinne, dass es Kurven oder Äquivalente, nicht Linien oder Äquivalente in den üblichen Raum einfügt), das gut geeignet ist, vertretbar und in der Tat gut motiviert binäre Antworten. Der Appell an die Biologie ist hier zweischneidig; Historisch logistische Modelle für binäre Antworten wurden von Modellen für das logistische Wachstum (z. B. von Populationen) in der Biologie inspiriert!
Nick Cox
Das Patent von Soyer et al. Papier, das Armstrong-Papier und Kommentare sind alle sehr gut. Ich habe dieses Wochenende darüber gelesen. Vielen Dank, dass Sie sie vorgeschlagen haben. Da ich kein Statistiker bin, kann ich die Verwendung von CART über logistische Regression nicht kommentieren. Ihre Antwort ist jedoch sehr gut geschrieben, hilfreich und hat aufschlussreiche Kommentare erhalten. Ich habe mich über Methoden des maschinellen Lernens wie CART, MaxEnt und Boosting von Regressionsbäumen informiert und plane, sie mit meinem Ausschuss zu erörtern, um deren Einblick zu erhalten. Wenn ich etwas Freizeit habe, sollte auch das CART-Video interessant sein.
GNG
3
Mit einem Lächeln, denke ich, können wir Ihre Kommentare zu linearen Modellen umkehren und darauf bestehen, dass CART weit davon entfernt ist, annahmefrei oder sogar annahmefrei zu sein, dass die Realität wie ein Baum ist (was sonst?). Wenn du denkst, dass die Natur ein sich reibungslos änderndes Kontinuum ist, solltest du in die entgegengesetzte Richtung laufen.
Nick Cox
3

Ich denke, Sie versuchen, das Vorhandensein der Spezies mit einem Ansatz für das Vorhandensein / den Hintergrund vorherzusagen, der in Fachzeitschriften wie Methods in Ecology and Evolution, Ecography usw. gut dokumentiert ist. Vielleicht ist das R-Paket dismo für Ihr Problem nützlich. Es enthält eine schöne Vignette. Die Verwendung des dismo-Pakets oder eines ähnlichen Pakets impliziert, dass Sie Ihre Herangehensweise an das Problem ändern, aber ich glaube, dass es sich lohnt, einen Blick darauf zu werfen.

Hugo
quelle
2
Was hält Sie davon ab, nur ein Modell anzugeben? Warum die große Unsicherheit, was im Modell sein soll? Warum ist eine Modellauswahl mit GLM erforderlich?
Frank Harrell
1
Ich fürchte, Sie mischen einige Konzepte. (1) Tatsächlich handelt es sich bei maxent um Anwesenheits- / Hintergrunddaten oder Anwesenheits- / Pseudoabwesenheitsdaten. Also verwendet maxent die Nur-Anwesenheit-Daten und fügt einige Punkte aus der Landschaft hinzu, dh den Hintergrund / die Pseudo-Abwesenheiten. Somit kann es in Ihrem Fall verwendet werden. (2) GLM wurden entwickelt, um bei "echten" Abwesenheiten eingesetzt zu werden. GLM wurde jedoch für An- / Abwesenheitsdaten angepasst. (3) Das dismo-Paket bietet nicht nur verbesserte Regressionsbäume. Sie können auch GLM einsetzen, indem Sie einfach einer der Vignetten der Packung folgen (es gibt 2).
Hugo
1
Wenn Sie sich die Frage stellen, welche Variablen Sie als Prädiktoren einbeziehen sollten, lesen Sie die folgenden Artikel: Sheppard 2013. Wie wirkt sich die Auswahl von Klimavariablen auf die Vorhersage von Artenverteilungen aus? Eine Fallstudie von drei neuen Unkräutern in Neuseeland. Unkrautforschung; Harris et al. 2013. Sein oder Nichtsein? Eine variable Auswahl kann das voraussichtliche Schicksal einer bedrohten Art unter zukünftigen klimatischen Bedingungen verändern. Ecol. Manag. Restaurieren.
Hugo
2
Der Gedanke, dass variable Auswahltechniken die Überanpassung irgendwie reduzieren, ist seltsam. Die offensichtliche Einsparung von Variablen durch das Reduzieren des Modells ist eine Illusion, wenn die Reduzierung auf den Daten selbst beruht.
Frank Harrell
1
@GNG: "Meine Unsicherheit über das Belassen aller Variablen im Modell beruht auf allem, was mir über Kollinearität und Überanpassung beigebracht wurde." - Enthält Ihr Modell hochkollineare Prädiktoren? Ist Ihr Modell überpassend?
Scortchi - Wiedereinsetzung von Monica