Hypothesentest an null aufgeblasenen kontinuierlichen Daten

10

Ich würde mich sehr über Ihren Rat zu folgendem Problem freuen:

Ich habe einen großen fortlaufenden Datensatz mit vielen Nullen (~ 95%) und muss den besten Weg finden, um zu testen, ob bestimmte Teilmengen davon "interessant" sind, dh nicht aus derselben Verteilung wie zu stammen scheinen der Rest. Die Nullinflation ergibt sich aus der Tatsache, dass jeder Datenpunkt auf einer Zählmessung mit echten und Abtastnullen basiert. Das Ergebnis ist jedoch kontinuierlich, da einige andere durch die Zählung gewichtete Parameter berücksichtigt werden (und wenn die Zählung Null ist, das Ergebnis ist auch Null).

Was wäre der beste Weg, dies zu tun? Ich habe das Gefühl, dass Wilcoxon- und sogar Brute-Force-Permutationstests unzureichend sind, da sie durch diese Nullen verzerrt werden. Wenn Sie sich auf Messungen ungleich Null konzentrieren, werden auch echte Nullen entfernt, die äußerst wichtig sind. Null-Inflations-Modelle für Zähldaten sind gut entwickelt, aber für meinen Fall ungeeignet.

Ich habe überlegt, eine Tweedie-Verteilung an die Daten anzupassen und dann ein glm auf response = f (subset_label) anzupassen. Theoretisch scheint dies machbar zu sein, aber ich frage mich, ob (a) dies ein Overkill ist und (b) implizit immer noch annehmen würde, dass alle Nullen Abtastnullen sind, dh (bestenfalls) auf die gleiche Weise wie eine Permutation voreingenommen wären?

Intuitiv klingt es so, als hätte man eine Art hierarchisches Design, das eine Binomialstatistik basierend auf dem Anteil der Nullen und beispielsweise eine Wilcoxon-Statistik kombiniert, die auf Nicht-Null-Werten (oder besser noch Nicht-Null-Werten, die mit einem Bruchteil von Nullen ergänzt werden) berechnet wird Nullen basierend auf einigen früheren). Klingt nach einem Bayesianischen Netzwerk ...

Hoffentlich bin ich nicht der erste, der dieses Problem hat. Ich wäre Ihnen sehr dankbar, wenn Sie mich auf geeignete vorhandene Techniken hinweisen könnten ...

Danke vielmals!

a11msp
quelle
Aktualisieren. Bisher habe ich dieses Papier gefunden, das sich mit einem ähnlichen Problem befasst: maths.otago.ac.nz/home/downloads/david_fletcher/…
a11msp
Ich frage mich, ob diese extrem vereinfachte Annäherung sinnvoll wäre, da Nullen die absolute Mehrheit bilden: 1) Finden Sie den Anteil der Nullen in jeder Teilmenge. 2) Nehmen Sie an, dass in der Teilmenge mit der kleinsten Anzahl von Nullen alle Nullen wahr sind. 3) Entfernen Sie aus jeder Teilmenge den Anteil der Nullen, der dem Anteil der Nullen im Datensatz mit der höchsten "Null" entspricht. 4) Führen Sie nichtparametrische Standardstatistiken für diesen geänderten Datensatz aus.
a11msp
Der Hyperlink zu dem Artikel in Ihrem ersten Kommentar scheint tot zu sein. Können Sie stattdessen ein Zitat angeben?
Coip
1
Vielen Dank für den Hinweis: doi.org/10.1007/s10651-005-6817-1
a11msp

Antworten:

9

@msp, ich denke, Sie sehen sich ein zweistufiges Modell in diesem Anhang an (ich hatte keine Zeit, es zu lesen), aber null aufgeblasene kontinuierliche Daten sind der Typ, mit dem ich viel arbeite. Um ein parametrisches Modell an diese Daten anzupassen (um Hypothesentests zu ermöglichen), können Sie zwei Stufen anpassen, aber dann haben Sie zwei Modelle (Y ist das Ziel und X sind Kovariaten): P (Y = 0 | X) und P (Y | X; Y> 0). Sie müssen die Simulation verwenden, um diese zusammenzubringen. Gelmans Buch (und das Armpaket in R) zeigt diesen Prozess für dieses genaue Modell (unter Verwendung der logistischen Regression und der gewöhnlichen linearen Regression mit einer logarithmischen Verknüpfung).

Die andere Option, die ich gesehen habe und die mir besser gefällt, besteht darin, eine aufgeblasene Gamma-Regression von Null anzupassen, die dieselbe wie oben ist (aber Gamma als Fehler anstelle von Guassian), und Sie können sie für Hypothesentests auf P (Y | X) zusammenführen. . Ich weiß nicht, wie das in R geht, aber Sie können in SAS NLMIXED. Siehe diesen Beitrag , es funktioniert gut.

B_Miner
quelle
@B_Miner, vielen Dank für Ihre Antwort. Tut mir leid, dass Sie nicht genug Bewertungen haben, um Sie abzustimmen. Ich werde mir die Links ansehen! Meine einzige Sorge bei bedingten Modellen ist, dass sie postulieren, dass Nullen nicht zur zweiten (kontinuierlichen) Komponente gehören können, habe ich Recht? Fühlt sich meine Einstellung nicht eher wie ein Mischungsmodell an? Was denken Sie?
a11msp
Ich habe jetzt den im Gelman-Buch vorgeschlagenen zweistufigen Ansatz wiederholt. Wenn subset_factor (mit 25 Ebenen) als Subset-Label dient, lautet der erste Schritt fit1 = glm (Antwort ~ subset_factor, family = binomial); und der zweite Schritt ist fit2 = lm (Antwort ~ Teilmenge_Faktor, Teilmenge = Antwort> 0). Ich kann dann Simulationen ausführen, wie sie beschreiben, um die Verteilung der angepassten Antwortwerte für jede Faktorstufe zu erhalten. Ich bin mir jedoch immer noch nicht sicher, wie ich dies in das übersetzen soll, was ich brauche. Dies ist (a) die Wahrscheinlichkeit, dass die Koeffizienten nicht Null sind, und (b) die Signifikanz der Differenz zwischen Koeffizienten auf verschiedenen Faktorebenen.
a11msp
Der zweistufige Ansatz (Gelman-Methode von zwei getrennten Modellen) setzt zwei Populationen voraus, die bei Null und die oben genannten.
B_Miner
... wäre es also angebracht, einfach zu sagen, dass wenn die Auswirkung einer bestimmten Faktorstufe in einem der beiden Modelle in Gelmans Methode signifikant ist (und sich signifikant von der einer anderen Faktorstufe unterscheidet), sie insgesamt signifikant ist?
a11msp
1
Ja, der zweistufige Ansatz (Gelman-Methode von zwei getrennten Modellen) geht von zwei Populationen aus, denen bei Null und den> 0. In Bezug auf die Hypothesentests können Sie sie in Bezug auf die vorhergesagten Werte für unterschiedliche Ebenen der Eingaben einrahmen und empirisch konstruieren Konfidenzintervalle in Bezug auf die Simulationen für jeden? Für Hypothesentests für den Koeffizienten! = 0 müssen Sie dies für beide Modelle separat testen.
B_Miner
2

Ein ähnlicher Ansatz wie beim Fletcher-Papier wird bei Marketingtests verwendet, bei denen wir die Auswirkungen von Interventionen (z. B. Werbung) willkürlich in (a) eine Änderung der Anzahl der Käufer der Marke (dh den Anteil der Nullen) und (b) a unterteilen können Änderung der Häufigkeit des Bandkaufs (Verkäufe bei bestimmten Verkäufen erfolgen überhaupt). Dies ist ein solider Ansatz und im Marketingkontext und im ökologischen Kontext, den Fletcher diskutiert, konzeptionell sinnvoll. Tatsächlich kann dies auf (c) eine Änderung der Größe jedes Kaufs ausgedehnt werden.

Radfahrer
quelle
Vielen Dank! Ich frage mich, ob Ihnen eine bestehende Implementierung bekannt ist.
a11msp
1

Sie können die genaue Anzahl unbekannter Nullen behandeln, die jedoch zwischen 0 und der beobachteten Anzahl von Nullen liegt. Dies kann sicherlich mit einer Bayes'schen Formulierung des Modells gehandhabt werden. Möglicherweise kann auch eine Mehrfachimputationsmethode angepasst werden, um die Gewichte (zwischen 0 und 1) der Nullbeobachtungen entsprechend zu variieren.

GaBorgulya
quelle