Ich würde mich sehr über Ihren Rat zu folgendem Problem freuen:
Ich habe einen großen fortlaufenden Datensatz mit vielen Nullen (~ 95%) und muss den besten Weg finden, um zu testen, ob bestimmte Teilmengen davon "interessant" sind, dh nicht aus derselben Verteilung wie zu stammen scheinen der Rest. Die Nullinflation ergibt sich aus der Tatsache, dass jeder Datenpunkt auf einer Zählmessung mit echten und Abtastnullen basiert. Das Ergebnis ist jedoch kontinuierlich, da einige andere durch die Zählung gewichtete Parameter berücksichtigt werden (und wenn die Zählung Null ist, das Ergebnis ist auch Null).
Was wäre der beste Weg, dies zu tun? Ich habe das Gefühl, dass Wilcoxon- und sogar Brute-Force-Permutationstests unzureichend sind, da sie durch diese Nullen verzerrt werden. Wenn Sie sich auf Messungen ungleich Null konzentrieren, werden auch echte Nullen entfernt, die äußerst wichtig sind. Null-Inflations-Modelle für Zähldaten sind gut entwickelt, aber für meinen Fall ungeeignet.
Ich habe überlegt, eine Tweedie-Verteilung an die Daten anzupassen und dann ein glm auf response = f (subset_label) anzupassen. Theoretisch scheint dies machbar zu sein, aber ich frage mich, ob (a) dies ein Overkill ist und (b) implizit immer noch annehmen würde, dass alle Nullen Abtastnullen sind, dh (bestenfalls) auf die gleiche Weise wie eine Permutation voreingenommen wären?
Intuitiv klingt es so, als hätte man eine Art hierarchisches Design, das eine Binomialstatistik basierend auf dem Anteil der Nullen und beispielsweise eine Wilcoxon-Statistik kombiniert, die auf Nicht-Null-Werten (oder besser noch Nicht-Null-Werten, die mit einem Bruchteil von Nullen ergänzt werden) berechnet wird Nullen basierend auf einigen früheren). Klingt nach einem Bayesianischen Netzwerk ...
Hoffentlich bin ich nicht der erste, der dieses Problem hat. Ich wäre Ihnen sehr dankbar, wenn Sie mich auf geeignete vorhandene Techniken hinweisen könnten ...
Danke vielmals!
quelle
Antworten:
@msp, ich denke, Sie sehen sich ein zweistufiges Modell in diesem Anhang an (ich hatte keine Zeit, es zu lesen), aber null aufgeblasene kontinuierliche Daten sind der Typ, mit dem ich viel arbeite. Um ein parametrisches Modell an diese Daten anzupassen (um Hypothesentests zu ermöglichen), können Sie zwei Stufen anpassen, aber dann haben Sie zwei Modelle (Y ist das Ziel und X sind Kovariaten): P (Y = 0 | X) und P (Y | X; Y> 0). Sie müssen die Simulation verwenden, um diese zusammenzubringen. Gelmans Buch (und das Armpaket in R) zeigt diesen Prozess für dieses genaue Modell (unter Verwendung der logistischen Regression und der gewöhnlichen linearen Regression mit einer logarithmischen Verknüpfung).
Die andere Option, die ich gesehen habe und die mir besser gefällt, besteht darin, eine aufgeblasene Gamma-Regression von Null anzupassen, die dieselbe wie oben ist (aber Gamma als Fehler anstelle von Guassian), und Sie können sie für Hypothesentests auf P (Y | X) zusammenführen. . Ich weiß nicht, wie das in R geht, aber Sie können in SAS NLMIXED. Siehe diesen Beitrag , es funktioniert gut.
quelle
Ein ähnlicher Ansatz wie beim Fletcher-Papier wird bei Marketingtests verwendet, bei denen wir die Auswirkungen von Interventionen (z. B. Werbung) willkürlich in (a) eine Änderung der Anzahl der Käufer der Marke (dh den Anteil der Nullen) und (b) a unterteilen können Änderung der Häufigkeit des Bandkaufs (Verkäufe bei bestimmten Verkäufen erfolgen überhaupt). Dies ist ein solider Ansatz und im Marketingkontext und im ökologischen Kontext, den Fletcher diskutiert, konzeptionell sinnvoll. Tatsächlich kann dies auf (c) eine Änderung der Größe jedes Kaufs ausgedehnt werden.
quelle
Sie können die genaue Anzahl unbekannter Nullen behandeln, die jedoch zwischen 0 und der beobachteten Anzahl von Nullen liegt. Dies kann sicherlich mit einer Bayes'schen Formulierung des Modells gehandhabt werden. Möglicherweise kann auch eine Mehrfachimputationsmethode angepasst werden, um die Gewichte (zwischen 0 und 1) der Nullbeobachtungen entsprechend zu variieren.
quelle