Richtige Verwendung und Interpretation von Gammamodellen ohne Inflation

11

Hintergrund: Ich bin ein Biostatistiker, der derzeit mit einem Datensatz zellulärer Expressionsraten ringt. Die Studie setzte eine Vielzahl von Zellen, die in Gruppen von verschiedenen Spendern gesammelt wurden, bestimmten Peptiden aus. Zellen exprimieren entweder bestimmte Biomarker als Reaktion oder sie tun dies nicht. Die Rücklaufquoten werden dann für jede Spendergruppe aufgezeichnet. Die Antwortraten (ausgedrückt als Prozentsätze) sind das Ergebnis des Interesses, und die Peptidexposition ist der Prädiktor.

Beachten Sie, dass die Beobachtungen innerhalb der Spender zusammengefasst sind.

Da ich nur die zusammenfassenden Daten habe, behandle ich die Spender-Rücklaufquoten (zumindest vorerst) als kontinuierliche Daten.

Die Komplikation ergibt sich aus der Tatsache, dass meine Daten viele Nullen enthalten. Viel zu viele, um ignoriert zu werden. Ich denke über ein Null-Inflations-Gammamodell nach, um mit der Tatsache fertig zu werden, dass ich kontinuierliche Daten in Verbindung mit einer Überfülle von Nullen verzerrt habe. Ich habe auch das Tobit-Modell in Betracht gezogen, aber dies scheint minderwertig zu sein, da es eine Zensur an einer Untergrenze im Gegensatz zu echten Nullen voraussetzt (Ökonomen könnten sagen, dass die Unterscheidung umstritten ist).

Frage: Wann ist es im Allgemeinen angebracht, ein Gammamodell ohne Inflation zu verwenden? Das heißt, was sind die Annahmen? Und wie interpretiert man seine Schlussfolgerungen? Ich wäre dankbar für Links zu Artikeln, die dies diskutieren, falls Sie welche haben.

Ich habe auf SAS-L einen Link gefunden, in dem Dale McLerran NLMIXED-Code für ein Gammamodell ohne Inflation bereitstellt, sodass dies möglich erscheint. Trotzdem würde ich es hassen, blindlings vorzugehen.

Brenden Dufault
quelle

Antworten:

5

Erstens sehen Sie keine echten Nullen in Ausdrucksdaten. Ihr Biologe sagt das, wie alle Biologen, aber wenn ein Biologe sagt "es ist Null", bedeutet dies tatsächlich "es liegt unter meiner Erkennungsschwelle, also existiert es nicht". Es ist ein Sprachproblem aufgrund des Mangels an mathematischer Raffinesse auf diesem Gebiet. Ich spreche hier aus persönlicher Erfahrung.

Die Erklärung des null aufgeblasenen Gammas in dem von Ihnen bereitgestellten Link ist ausgezeichnet. Der physikalische Prozess, der zu Ihren Daten führt, besteht, wenn ich es verstehe, darin, einen Spender auszuwählen, dann mit einem bestimmten Peptid zu behandeln und die Reaktion anhand der Zellen dieses Spenders zu messen. Hier gibt es ein paar Schichten. Eine ist die Gesamtstärke der Reaktion des Spenders, die in das Expressionsniveau jeder bestimmten gemessenen Zelle einfließt. Wenn Sie Ihre Bernoulli-Variable im null-aufgeblasenen Gamma als "Reaktion des Spenders ist stark genug, um zu messen" interpretieren, ist dies möglicherweise in Ordnung. Beachten Sie nur, dass Sie in diesem Fall das Rauschen der Expression der einzelnen Zelle mit der Variation zwischen stark reagierenden Spendern zusammenfassen. Da das Rauschen im Ausdruck in einer einzelnen Zelle ungefähr gammaverteilt ist,

Wenn die zusätzliche Variation zwischen Spendern und Zellen Ihre Gamma-Anpassung nicht beeinträchtigt und Sie nur versuchen, die Expression gegenüber dem angewendeten Peptid zu ermitteln, gibt es keinen Grund, warum dies nicht in Ordnung sein sollte.

Wenn eine detailliertere Analyse erforderlich ist, würde ich empfehlen, ein benutzerdefiniertes hierarchisches Modell zu erstellen, das dem Prozess entspricht, der zu Ihren Messungen führt.

user873
quelle
3

Ich habe eine Lösung gefunden, die ich ziemlich elegant finde. In der Literatur gibt es einen ausgezeichneten Artikel mit dem Titel "Analyse von Daten mit wiederholten Messungen mit Verklumpung bei Null", der ein lognormales Modell mit Null-Inflation für korrelierte Daten zeigt. Die Autoren stellen ein SAS-Makro zur Verfügung, das auf PROC NLMIXED basiert und recht einfach zu implementieren ist. Die gute Nachricht ist, dass dies durch Weglassen der repeatedAnweisung im Makro zu Fällen ohne gruppierte Beobachtungen vereinfacht werden kann . Die schlechte Nachricht ist, dass NLMIXED noch nicht über die vielen Korrelationsstrukturen verfügt, die wir häufig benötigen, z. B. autoregressiv.

Das Makro heißt MIXCORR und hat eine sehr nützliche Wiki-Seite, die Sie hier finden . Das Makro selbst kann hier heruntergeladen werden .

Ich kann all diese Links nur empfehlen. Ich hoffe, Sie finden sie nützlich.

Brenden Dufault
quelle