Ich möchte eine binäre logistische Regression durchführen, um das Vorhandensein oder Nichtvorhandensein von Konflikten (abhängige Variable) aus einer Reihe unabhängiger Variablen über einen Zeitraum von 10 Jahren (1997-2006) zu modellieren, wobei jedes Jahr 107 Beobachtungen enthält. Meine Unabhängigen sind:
- Bodendegradation (kategorial für 2 Arten von Degradation);
- Bevölkerungswachstum (0 - nein; 1 - ja);
- Lebensunterhaltstyp (0 - Typ eins; 1 - Typ zwei);
- Bevölkerungsdichte (drei Dichteebenen);
- NDVI kontinuierlich (max. Gemüseproduktivität);
- NDVI (Rückgang des Gemüses gegenüber dem Vorjahr - 0 - nein; 1 - ja) und
- und NDVI (Rückgang des Gemüses seit zwei Jahren - - nein; 1 - ja).
Ich bin ziemlich neu in all dem - dies ist ein Projekt, das mir mein Dozent gegeben hat - und daher wäre ich für Ratschläge oder Anleitungen dankbar. Ich habe bereits auf Multikollinarität getestet.
Im Wesentlichen sind meine Daten in 107 Beobachtungseinheiten (räumliche Regionen) aufgeteilt, die 10 Jahre umfassen (insgesamt 1070), und für jede Beobachtungseinheit wird ein Momentaufnahmewert der Bedingungen der unabhängigen Variablen zu diesem Zeitpunkt innerhalb dieser Einheit angegeben ( Region). Ich möchte wissen, wie ich meine logistische Regression (oder Tabelle) einrichten kann, um die 107 Werte jedes Jahres separat zu erkennen, damit die zeitlichen NDVI-Änderungen zwischen verschiedenen Einheitsjahren bewertet werden können.
quelle
Antworten:
Dies ist tatsächlich ein äußerst anspruchsvolles Problem und eine schwierige Frage an Ihren Dozenten!
In Bezug auf die Organisation Ihrer Daten ist ein 1070 x 10-Rechteck ausreichend. Zum Beispiel in R:
Für die Anpassung eines Modells übernimmt die Funktion glm (), die @ gui11aume vorschlägt, die Grundlagen ...
... aber das hat das Problem, dass es "Land" (ich nehme an, Sie haben Land als Ihre 107 Einheiten) als festen Effekt behandelt, wohingegen ein zufälliger Effekt angemessener ist. Die Periode wird auch als einfacher Faktor behandelt, eine Autokorrelation ist nicht zulässig.
Sie können lineare gemischte Effekte Modell wie beispielsweise in das erste Problem mit einer generali Adresse Bates et al des lme4 Paket in R. Es gibt eine schöne Einführung in einige Aspekte dieses hier . Etwas wie
wäre ein Schritt vorwärts.
Jetzt ist Ihr letztes verbleibendes Problem die Autokorrelation über Ihre 10 Perioden. Grundsätzlich sind Ihre 10 Datenpunkte in jedem Land nicht so viel wert, als wären sie 10 zufällig ausgewählte unabhängige und identisch verteilte Punkte. Mir ist keine weit verbreitete Softwarelösung für die Autokorrelation in den Residuen eines mehrstufigen Modells mit einer nicht normalen Antwort bekannt. Sicher ist es nicht in lme4 implementiert. Andere wissen vielleicht mehr als ich.
quelle
Dieses Tutorial ist umfassend.
In R müssen Sie Ihre Daten vorbereiten, z. B. Variable
data
in adata.frame
, wobei die erste Spalte Ihre 0-1-Variable (Konflikt) und die anderen Spalten die Prädiktoren sind. Bei kategorialen Variablen müssen Sie sicherstellen, dass sie vom Typ sindfactor
. Um sicherzustellen, dass beispielsweise Spalte 3 über diese Eigenschaft verfügt, können Sie diese erzwingendata[,3] <- as.factor(data[,3])
.Dann geht es nur noch darum
Dies setzt implizit voraus, dass Sie ein additives Modell haben und gibt Ihnen die geschätzten Werte. Um eine umfassendere Ausgabe mit Test für einzelne Parameter zu erhalten, können Sie dies tun
quelle