Wie modelliere ich nicht negative, nicht aufgeblasene kontinuierliche Daten?

15

Ich versuche derzeit, ein lineares Modell ( family = gaussian) auf einen Indikator für die biologische Vielfalt anzuwenden , der keine Werte unter Null annehmen kann, keine Inflation aufweist und kontinuierlich ist. Die Werte reichen von 0 bis etwas über 0,25. Infolgedessen gibt es in den Residuen des Modells ein ziemlich offensichtliches Muster, das ich nicht beseitigen konnte: Bildbeschreibung hier eingeben

Hat jemand irgendwelche Ideen, wie man das löst?

David
quelle
1
Willkommen zum Lebenslauf! Beachten Sie, dass Ihr Benutzername, Ihr Identicon und ein Link zu Ihrer Benutzerseite automatisch zu jedem von Ihnen verfassten Beitrag hinzugefügt werden, sodass Sie Ihre Beiträge nicht signieren müssen. Tatsächlich bevorzugen wir, dass Sie nicht.
Silverfish
3
Wenn es auf Null aufgepumpt ist, kann es nicht kontinuierlich sein, da kontinuierliche Variablen keine Sprünge im cdf haben können (und es gibt eindeutig eins bei 0). Abgesehen von den Nullen kann es kontinuierlich sein.
Glen_b -Reinstate Monica
Related: stats.stackexchange.com/questions/105320
Amöbe sagt Reinstate Monica

Antworten:

31

Für den Fall von nicht aufgeblasenen (halb-) kontinuierlichen Verteilungen gibt es verschiedene Lösungen:

  • Tobit-Regression : setzt voraus, dass die Daten aus einer einzigen zugrunde liegenden Normalverteilung stammen, negative Werte jedoch zensiert und auf Null gestapelt werden (z. B. censReg-Paket )
  • Hürden- oder "zweistufiges" Modell: Verwenden Sie ein Binomialmodell, um vorherzusagen, ob die Werte 0 oder> 0 sind, und verwenden Sie dann ein lineares Modell (oder Gamma oder verkürztes Normal oder logarithmisches Normal), um die beobachteten Nicht-Null-Werte zu modellieren
  • 1<p<2x>0

Wenn Ihre Datenstruktur einfach genug ist, können Sie auch lineare Modelle und Permutationstests oder einen anderen robusten Ansatz verwenden, um sicherzustellen, dass Ihre Schlussfolgerung nicht durch die interessante Verteilung der Daten verfälscht wird.

Für die meisten dieser Fälle stehen R-Pakete / -Lösungen zur Verfügung.

Es gibt noch andere Fragen zur SE zu (halb-) kontinuierlichen Daten ohne Inflation (z. B. hier , hier und hier ), aber sie scheinen keine eindeutige allgemeine Antwort zu bieten ...

Siehe auch Min & Agresti, 2002, Modellierung nichtnegativer Daten mit Clumping at Zero: A Survey für eine Übersicht.

Ben Bolker
quelle
@Ben Bolker Würden Sie ein lineares Modell (oder Gamma oder verkürztes Normal oder logarithmisches Normal) verwenden, um die vorhergesagten oder tatsächlichen Nicht-Null-Werte zu modellieren?
Rolando2