Dies ist mein erster Beitrag in StackExchange, aber ich verwende ihn seit einiger Zeit als Ressource. Ich werde mein Bestes tun, um das entsprechende Format zu verwenden und die entsprechenden Änderungen vorzunehmen. Auch dies ist eine mehrteilige Frage. Ich war mir nicht sicher, ob ich die Frage in mehrere oder nur einen Beitrag aufteilen sollte. Da die Fragen alle aus einem Abschnitt im selben Text stammen, hielt ich es für relevanter, als eine Frage zu posten.
Ich erforsche die Lebensraumnutzung einer großen Säugetierart für eine Masterarbeit. Ziel dieses Projekts ist es, Forstverwaltern (die wahrscheinlich keine Statistiker sind) einen praktischen Rahmen für die Beurteilung der Lebensraumqualität auf den von ihnen bewirtschafteten Flächen in Bezug auf diese Art zu bieten. Dieses Tier ist relativ schwer zu fassen, ein Spezialist für Lebensräume und befindet sich normalerweise in abgelegenen Gebieten. Es wurden relativ wenige Studien zur Verbreitung der Arten durchgeführt, insbesondere in Bezug auf die Jahreszeit. Mehrere Tiere wurden für einen Zeitraum von einem Jahr mit GPS-Halsbändern ausgestattet. Einhundert Orte (50 Sommer und 50 Winter) wurden zufällig aus den GPS-Halsbanddaten jedes Tieres ausgewählt. Zusätzlich wurden zufällig 50 Punkte innerhalb des Heimatbereichs jedes Tieres generiert, um als "verfügbare" oder "Pseudo-Abwesenheits" -Stellen zu dienen.
Für jeden Standort wurden mehrere Lebensraumvariablen auf dem Feld erfasst (Baumdurchmesser, horizontale Bedeckung, grobe Holzabfälle usw.) und mehrere wurden aus der Ferne über das GIS erfasst (Höhe, Entfernung zur Straße, Robustheit usw.). Die Variablen sind größtenteils kontinuierlich, mit Ausnahme von 1 kategorialen Variablen mit 7 Ebenen.
Mein Ziel ist es, mithilfe der Regressionsmodellierung Ressourcenauswahlfunktionen (RSF) zu erstellen, um die relative Nutzungswahrscheinlichkeit von Ressourceneinheiten zu modellieren. Ich möchte einen saisonalen RSF (Winter und Sommer) für die Tierpopulation (Designtyp I) sowie für jedes einzelne Tier (Designtyp III) erstellen.
Ich benutze R, um die statistische Analyse durchzuführen.
Der primäre Text, den ich verwendet habe, ist ...
- "Hosmer, DW, Lemeshow, S. & Sturdivant, RX 2013. Angewandte logistische Regression. Wiley, Chicester".
Die Mehrzahl der Beispiele in Hosmer et al. benutze STATA, ich habe auch die folgenden 2 Texte als Referenz mit R verwendet .
- "Crawley, MJ 2005. Statistik: Eine Einführung mit RJ Wiley, Chichester, West Sussex, England."
- "Plant, RE 2012. Geodatenanalyse in Ökologie und Landwirtschaft mit R. CRC Press, London, GBR."
Ich folge derzeit den Schritten in Kapitel 4 von Hosmer et al. für die "gezielte Auswahl von Covariaten" und haben ein paar Fragen zum Verfahren. Ich habe die ersten Schritte im folgenden Text umrissen, um meine Fragen zu beantworten.
- Schritt 1: Eine univariable Analyse jeder unabhängigen Variablen (ich habe eine univariable logistische Regression verwendet). Jede Variable, deren univariabler Test einen p-Wert von weniger als 0,25 hat, sollte in das erste multivariable Modell aufgenommen werden.
- Schritt 2: Passen Sie ein multivariables Modell an, das alle in Schritt 1 identifizierten Kovariaten für die Aufnahme enthält, und bewerten Sie die Wichtigkeit jeder Kovariate anhand des p-Werts ihrer Wald-Statistik. Variablen, die auf traditionellen Signifikanzniveaus keinen Beitrag leisten, sollten eliminiert und ein neues Modell angepasst werden. Das neuere, kleinere Modell sollte mit dem Partial-Likelihood-Ratio-Test mit dem alten, größeren Modell verglichen werden.
- Schritt 3: Vergleichen Sie die Werte der geschätzten Koeffizienten im kleineren Modell mit ihren jeweiligen Werten aus dem großen Modell. Jede Variable, deren Koeffizient sich in der Größe merklich geändert hat, sollte wieder in das Modell aufgenommen werden, da dies wichtig ist, um die Auswirkungen der im Modell verbleibenden Variablen anzupassen. Durchlaufen Sie die Schritte 2 und 3, bis alle wichtigen Variablen im Modell enthalten sind und die ausgeschlossenen klinisch und / oder statistisch unwichtig sind. Hosmer et al. Verwenden Sie das " Delta-Beta-Hat-Prozent " als Maß für die Änderung der Größe der Koeffizienten. Sie deuten auf eine signifikante Veränderung als Delta-Beta-Hat-Prozent von> 20% hin. Hosmer et al. Definieren Sie den Delta-Beta-Hat-Prozentsatz als . Wobei der Koeffizient aus dem kleineren Modell und der Koeffizient aus dem größeren Modell ist.
- Schritt 4: Fügen Sie jede Variable, die in Schritt 1 nicht ausgewählt wurde, einzeln zum Modell hinzu, das am Ende von Schritt 3 erhalten wurde, und überprüfen Sie ihre Signifikanz entweder durch den Wald-statistischen p-Wert oder durch den Partial Likelihood Ratio-Test, wenn es sich um eine Kategorie handelt variabel mit mehr als 2 Ebenen. Dieser Schritt ist von entscheidender Bedeutung für die Identifizierung von Variablen, die für sich genommen keinen wesentlichen Einfluss auf das Ergebnis haben, aber bei Vorhandensein anderer Variablen einen wichtigen Beitrag leisten. Wir bezeichnen das Modell am Ende von Schritt 4 als vorläufiges Haupteffektmodell .
- Schritte 5-7: Ich bin noch nicht so weit fortgeschritten, daher lasse ich diese Schritte zunächst aus oder speichere sie für eine andere Frage.
Meine Fragen:
- Was wäre in Schritt 2 als traditionelles Signifikanzniveau angemessen, ein p-Wert von <0,05, der etwas größer ist als <0,25?
- Wieder in Schritt 2 möchte ich sicherstellen, dass der R-Code, den ich für den Teilwahrscheinlichkeitstest verwendet habe, korrekt ist, und ich möchte sicherstellen, dass ich die Ergebnisse richtig interpretiere. Folgendes habe ich getan:
anova(smallmodel,largemodel,test='Chisq')
Wenn der p-Wert signifikant ist (<0,05), füge ich die Variable wieder zum Modell hinzu. Wenn er nicht signifikant ist, fahre ich mit dem Löschen fort. - In Schritt 3 habe ich eine Frage bezüglich des Delta-Beta-Hat-Prozentsatzes und wann es angebracht ist, eine ausgeschlossene Variable wieder zum Modell hinzuzufügen. Zum Beispiel schließe ich eine Variable aus dem Modell aus und sie ändert das für eine andere Variable um> 20%. Die Variable mit der Änderung von> 20% in scheint jedoch unbedeutend zu sein und sieht so aus, als würde sie in den nächsten Zyklen der Schritte 2 und 3 aus dem Modell ausgeschlossen. Wie kann ich Festlegen, ob beide Variablen in das Modell einbezogen oder aus ihm ausgeschlossen werden sollen? Da ich fortfahre, indem ich jeweils 1 Variable ausschließe, indem ich zuerst die am wenigsten signifikanten Variablen lösche, zögere ich, eine Variable aus der Reihenfolge auszuschließen.
Schließlich möchte ich sicherstellen, dass der Code, den ich zur Berechnung von korrekt ist. Ich habe den folgenden Code verwendet. Wenn es ein Paket gibt, das dies für mich oder einen einfacheren Weg tut, bin ich offen für Vorschläge.
100*((smallmodel$coef[2]-largemodel$coef[2])/largemodel$coef[2])
Antworten:
quelle
Methoden zur Variablenauswahl mit Statistik wie P, schrittweise Regression im klassischen Text Hosmer et al. Sollten auf jeden Fall vermieden werden.
Kürzlich bin ich auf einen Artikel gestoßen, der im internationalen Journal of Forecasting mit dem Titel " Illusions of Predictability " veröffentlicht wurde, und auf einen Kommentar zu diesem Artikel von Keith Ord . Ich kann diesen beiden Artikeln nur wärmstens empfehlen, da sie deutlich machen, dass die Verwendung von Regressionsstatistiken häufig irreführend ist. Es folgt ein Screenshot von Keith Ords Artikel, der simuliert, warum die schrittweise Regression (unter Verwendung der p-Statistik) für die Variablenauswahl schlecht ist.
Ein weiterer wunderbarer Artikel von Scott Armstrong , der in derselben Ausgabe des Journals erschien, zeigt, warum man bei der Verwendung von Regressionsanalysen für nicht experimentelle Daten mit Fallstudien sehr vorsichtig sein sollte. Seit ich diese Artikel lese, vermeide ich es, Regressionsanalysen zu verwenden, um kausale Rückschlüsse auf nicht experimentelle Daten zu ziehen. Als Praktizierender wünschte ich, ich hätte viele Jahre lang solche Artikel gelesen, die mich davor bewahrt hätten, schlechte Entscheidungen zu treffen und kostspielige Fehler zu vermeiden.
Ich glaube nicht, dass für Ihr spezifisches Problem randomisierte Experimente möglich sind. Daher würde ich empfehlen, dass Sie die Kreuzvalidierung verwenden , um Variablen auszuwählen. In diesem kostenlosen Online-Buch finden Sie ein gut ausgearbeitetes Beispiel dafür, wie Sie die Vorhersagegenauigkeit zur Auswahl von Variablen verwenden würden. Es gibt auch viele andere variable Auswahlmethoden, aber ich würde mich auf die Kreuzvalidierung beschränken.
Ich persönlich mag das Zitat von Armstrong. "Irgendwo bin ich auf die Idee gekommen, dass Statistiken die Kommunikation unterstützen sollen. Komplexe Regressionsmethoden und ein Schwarm diagnostischer Statistiken haben uns in die andere Richtung geführt."
Unten ist meine eigene Meinung. Ich bin kein Statistiker.
Als Biologe würden Sie diesen Punkt zu schätzen wissen. Die Natur ist sehr komplex und übernimmt logistische Funktionen. In der Natur treten keine Wechselwirkungen zwischen Variablen auf. Darüber hinaus hat die logistische Regression folgende Annahmen :
Die wahren bedingten Wahrscheinlichkeiten sind eine logistische Funktion der unabhängigen Variablen.
Es werden keine wichtigen Variablen ausgelassen. Es sind keine fremden Variablen enthalten.
Ich würde die Klassifizierung und den Regressionsbaum (CART (r)) als Alternative zur logistischen Regression für diese Art von Analyse empfehlen, da diese annahmenfrei ist:
CART ist eine Marke von Salford Systems. In diesem Video finden Sie eine Einführung und die Geschichte von CART. Auf der gleichen Website befinden sich auch andere Videos, z. B. karrenlogistische Regressionshybride. Ich würde es überprüfen. Eine Open-Source-Impfung in R heißt Tree , und in R gibt es viele andere Pakete wie Rassel. Wenn ich Zeit finde, werde ich das erste Beispiel in Homsers Text mit CART veröffentlichen. Wenn Sie auf der Verwendung der logistischen Regression bestehen, würde ich zumindest Methoden wie CART verwenden, um Variablen auszuwählen und dann die logistische Regression anzuwenden.
Ich persönlich bevorzuge CART wegen der oben genannten Vorteile der logistischen Regression. Dennoch würde ich sowohl die logistische Regression als auch CART oder CART-Logistc Regression Hybrid ausprobieren und feststellen, welche Methode eine bessere Vorhersagegenauigkeit und vor allem eine bessere Interpretierbarkeit bietet .
Außerdem wurde FYI CART von großen statistischen Fachzeitschriften abgelehnt und schließlich brachten die Erfinder von CART eine Monografie heraus. CART ebnete den Weg zu modernen und äußerst erfolgreichen Algorithmen für maschinelles Lernen wie Random Forest (R), Gradient Boosting Machines (GBM) und Multivariate Adaptive Regression Splines. Randomforest und GBM sind genauer als CART, aber weniger interpretierbar (Blackbox-ähnlich) als CART.
Hoffentlich ist das hilfreich. Lassen Sie mich wissen, wenn Sie diesen Beitrag nützlich finden?
quelle
Ich denke, Sie versuchen, das Vorhandensein der Spezies mit einem Ansatz für das Vorhandensein / den Hintergrund vorherzusagen, der in Fachzeitschriften wie Methods in Ecology and Evolution, Ecography usw. gut dokumentiert ist. Vielleicht ist das R-Paket dismo für Ihr Problem nützlich. Es enthält eine schöne Vignette. Die Verwendung des dismo-Pakets oder eines ähnlichen Pakets impliziert, dass Sie Ihre Herangehensweise an das Problem ändern, aber ich glaube, dass es sich lohnt, einen Blick darauf zu werfen.
quelle