Ich habe eine Frage zur richtigen Verteilung, die zum Erstellen eines Modells mit meinen Daten verwendet werden soll. Ich führte eine Waldinventur mit 50 Parzellen durch, wobei jede Parzelle 20 m × 50 m misst. Für jedes Grundstück schätzte ich den Prozentsatz der Baumkronen, die den Boden beschatten. Jedes Grundstück hat einen Wert in Prozent für die Überdachung. Die Prozentsätze reichen von 0 bis 0,95. Ich mache ein Modell der prozentualen Baumkronenbedeckung ( Y- Variable) mit einer Matrix unabhängiger X- Variablen, die auf Satellitenbildern und Umgebungsdaten basieren.
Ich bin mir nicht sicher, ob ich eine Binomialverteilung verwenden soll, da eine Binomial-Zufallsvariable die Summe von n unabhängigen Versuchen ist (dh Bernoulli-Zufallsvariablen). Die Prozentwerte sind nicht die Summe der Versuche. Sie sind die tatsächlichen Prozentsätze. Sollte ich Gamma verwenden, obwohl es keine Obergrenze gibt? Sollte ich Prozentsätze in Ganzzahlen umwandeln und Poisson als Anzahl verwenden? Soll ich einfach bei Gauß bleiben? Ich habe nicht viele Beispiele in der Literatur oder in Lehrbüchern gefunden, die versuchen, Prozentsätze auf diese Weise zu modellieren. Hinweise oder Erkenntnisse sind willkommen.
Danke für deine Antworten. Tatsächlich ist die Beta-Distribution genau das, was ich brauche und wird in diesem Artikel ausführlich besprochen:
BN Eskelson, L. Madsen, JC Hagar & H. Temesgen (2011). Schätzung der Vegetationsbedeckung der Ufer mit Beta-Regressions- und Copula-Modellen. Forest Science, 57 (3), 212 & ndash; 221.
Diese Autoren verwenden das Betareg-Paket in R von Cribari-Neto und Zeileis.
Der folgende Artikel beschreibt eine gute Möglichkeit, eine Beta-verteilte Antwortvariable zu transformieren, wenn sie echte Nullen und / oder Einsen im Prozentbereich enthält:
- Smithson, M. und J. Verkuilen, 2006. Eine bessere Zitronenpresse? Maximum-Likelihood-Regression mit Beta-verteilten abhängigen Variablen , Psychological Methods, 11 (1): 54–71.
Antworten:
Sie haben Recht, dass die Binomialverteilung für diskrete Anteile gilt, die sich aus der Anzahl der "Erfolge" aus einer endlichen Anzahl von Bernoulli-Versuchen ergeben, und dass dies die Verteilung für Ihre Daten ungeeignet macht. Sie sollten die Gamma-Verteilung geteilt durch die Summe dieses Gammas plus eines anderen Gammas verwenden. Das heißt, Sie sollten die Beta-Verteilung verwenden , um kontinuierliche Proportionen zu modellieren.
Ich habe ein Beispiel für Beta - Regression in meiner Antwort hier: Remove Wirkung des Faktors auf dem kontinuierlichen Anteil Daten in R mit Regression .
quelle
Prozentwerte repräsentieren Raten unabhängig von der Anzahl der Proben. Sie möchten diese Prozentsätze als abhängige Variable und Satellitenbilder als erklärende Variable verwenden. Ich denke jedoch, dass nicht alle 50 Parzellen im Inventar eine ähnliche Anzahl von Proben hatten. Ein geeignetes Modell, das diese Prozentsätze mit anderen Variablen in Beziehung setzt, sollte diese Unsicherheit bei der Messung berücksichtigen und den Parzellen mit hohen Stichproben mehr Gewicht verleihen.
Darüber hinaus ist die Fehlerverteilung bei Ihren Daten eindeutig binomisch. Die Fehlervarianz ist an Grenzen am geringsten, dies wird durch eine Binomialverteilung erfasst.
Dies alles scheint mir das archetypische Beispiel für die Verwendung eines GLM mit Binomialfehlermodell zu sein.
"Statistik: Eine Einführung mit R", Kapitel 14 von Crawley, beschreibt genau dieses Thema und wie man es mit R analysiert.
quelle