Diskussion der binomialen Regression und Modellierungsstrategien

8

Heute habe ich eine Frage zur binomialen / logistischen Regression, die auf einer Analyse basiert, die eine Gruppe in meiner Abteilung durchgeführt hat und nach Kommentaren gesucht hat. Ich habe das folgende Beispiel zusammengestellt, um ihre Anonymität zu schützen, aber sie waren gespannt auf die Antworten.

Zunächst begann die Analyse mit einer einfachen 1 oder 0-Binomialantwort (z. B. Überleben von einer Brutzeit zur nächsten), und das Ziel bestand darin, diese Antwort als Funktion einiger Co-Variablen zu modellieren.

Für einige Personen standen jedoch mehrere Messungen einiger Co-Variablen zur Verfügung, für andere jedoch nicht. Stellen Sie sich zum Beispiel vor, die Variable x ist ein Maß für die Stoffwechselrate während der Wehen, und die Anzahl der Nachkommen variiert individuell (z. B. wurde die Variable x dreimal für Individuum A gemessen, jedoch nur einmal für Individuum B). Dieses Ungleichgewicht ist nicht auf die Stichprobenstrategie der Forscher an sich zurückzuführen, sondern spiegelt die Merkmale der Population wider, aus der sie Stichproben entnommen haben. Einige Menschen haben mehr Nachkommen als andere.

Ich sollte auch darauf hinweisen, dass die Messung der binomialen 0 \ 1-Reaktion zwischen Arbeitsereignissen nicht möglich war, da das Intervall zwischen diesen Ereignissen ziemlich kurz war. Stellen Sie sich erneut vor, die betreffende Art hat eine kurze Brutzeit, kann aber während der Saison mehr als einen Nachwuchs zur Welt bringen.

Die Forscher entschieden sich für ein Modell, bei dem sie den Mittelwert der Variablen x als eine Kovariate und die Anzahl der Nachkommen, die ein Individuum zur Welt brachte, als eine weitere Kovariate verwendeten.

Nun, ich war aus mehreren Gründen nicht an diesem Ansatz interessiert

1) Den Durchschnitt von x zu nehmen bedeutet, Informationen über die innerindividuelle Variabilität von x zu verlieren.

2) Der Mittelwert ist selbst eine Statistik. Wenn wir ihn also in das Modell einfügen, erstellen wir Statistiken über Statistiken.

3) Die Anzahl der Nachkommen eines Individuums ist im Modell enthalten, wird aber auch zur Berechnung des Mittelwerts der Variablen x verwendet, was meiner Meinung nach Probleme verursachen könnte.

Meine Frage ist also, wie die Leute diese Art von Daten modellieren würden.

Im Moment würde ich wahrscheinlich separate Modelle für Personen mit einem Nachwuchs ausführen, dann für Personen mit zwei Nachkommen usw. Außerdem würde ich nicht den Mittelwert der Variablen x verwenden und nur die Rohdaten für jede Geburt verwenden, aber ich bin es nicht überzeugt, dass dies auch viel besser ist.

Vielen Dank für Ihre Zeit

(PS: Ich entschuldige mich dafür, dass es eine ziemlich lange Frage ist, und ich hoffe, dass das Beispiel klar ist)

user3136
quelle
Sind sie streng daran interessiert, von einer Saison zur nächsten zu überleben, oder möchten sie lieber das Überleben im Laufe der Zeit modellieren?
Matt Parker

Antworten:

3

Es hört sich so an, als wären Sie in einem Dilemma, weil Sie nur 1 Antwortvariable für jede einzelne Messung haben. Ich wollte zunächst einen mehrstufigen Ansatz empfehlen. Damit dies funktioniert, müssen Sie die Reaktion auf der untersten Ebene beobachten - was Sie nicht tun -, und Sie müssen Ihre Antwort auf der individuellen Ebene beobachten (was in einem MLM Stufe 2 wäre).

1) Den Durchschnitt von x zu nehmen bedeutet, Informationen über die innerindividuelle Variabilität von x zu verlieren.

Sie verlieren die Variabilität der Kovariate x, dies ist jedoch nur wichtig, wenn die anderen in X enthaltenen Informationen mit der Antwort zusammenhängen. Es hindert Sie auch nichts daran, die Varianz von X als Kovariate einzufügen.

2) Der Mittelwert ist selbst eine Statistik. Wenn wir ihn also in das Modell einfügen, erstellen wir Statistiken über Statistiken.

Eine Statistik ist eine Funktion der beobachteten Daten. Jede Kovariate ist also eine "Statistik". Sie machen also bereits "Statistiken über Statistiken", ob Sie es mögen oder nicht. Es macht jedoch einen Unterschied, wie Sie den Steigungskoeffizienten interpretieren sollten - als Durchschnittswert und nicht als Wert bei der individuellen Geburt. Wenn Sie sich nicht für die einzelnen Geburten interessieren, ist dies wenig wichtig. Wenn Sie dies tun, kann dieser Ansatz irreführend sein.

3) Die Anzahl der Nachkommen eines Individuums ist im Modell enthalten, wird aber auch zur Berechnung des Mittelwerts der Variablen x verwendet, was meiner Meinung nach Probleme verursachen könnte.

Es wäre nur wichtig, wenn der Mittelwert von X funktional / deterministisch mit der Anzahl der Nachkommen zusammenhängt. Dies kann unter anderem dadurch geschehen, dass der Wert von X für jede Person mit der gleichen Anzahl von Geburten gleich ist. Normalerweise ist dies nicht der Fall.

Sie können ein Modell angeben, das jeden Wert von X als Kovariate enthält. Aber dies würde wahrscheinlich einige neue methodologische Untersuchungen von Ihrer Seite beinhalten, wie ich mir vorstellen würde. Ihre Wahrscheinlichkeitsfunktion wäre für verschiedene Personen aufgrund der unterschiedlichen Anzahl von Messungen innerhalb von Personen unterschiedlich. Ich denke nicht, dass die mehrstufige Modellierung in diesem Fall konzeptionell anwendbar ist . Dies liegt einfach daran, dass die Geburten keine Teilmenge oder Stichprobe innerhalb von Individuen sind. Obwohl die Mathematik die gleiche sein kann.

Eine Möglichkeit, diese Struktur zu integrieren, besteht darin, ein Modell wie das folgende zu erstellen:

(Yij|xij)Bin(Yij|nij,pij)

Wobei die Binomialantwort für das Individuum und die Anzahl der Geburten bezeichnet, die Kovariaten ist und die Anzahl der Individuen mit den gleichen Kovariatenwerten ist und auch die gleiche Anzahl hatte von Geburten. ist die Wahrscheinlichkeit, die Sie normalerweise modellieren als:Yijijxijnijpij

g(pij)=xijTβ

Für einige monotone / invertierbare Funktionen . Der "knifflige" Teil kommt ins weil die Dimension von mit variiert . Die Log-Wahrscheinlichkeit in diesem Fall ist:g(.)xijj

L=L(β)=jB[i=1Njlog[Bin(Yij|nij,g1(xijTβ))]]

Dabei ist nur die Menge der Geburten, die Sie in Ihrem Datensatz zur Verfügung haben. Um dies zu maximieren, ist es wahrscheinlich eine nicht triviale Aufgabe, und Sie werden wahrscheinlich nicht die üblichen IRLS-Gleichungen erhalten, wenn Sie eine Taylorreihenerweiterung über die aktuelle Schätzung durchführen. Die Taylor-Serie ist der Weg, den ich von hier aus gehen würde - ich habe gerade nicht die Energie, um den Prozess zu durchlaufen. Ich würde vorschlagen, dass Sie versuchen, Ihre Antwort so zu ordnen, dass sie wie ein "gewöhnliches" Binomial-GLM aussieht. Auf diese Weise können Sie die verfügbare Standardsoftware nutzen.B

Was ich Ihnen sagen kann ist, dass, wenn Sie in Bezug auf ein Beta differenzieren, das von abhängt (z. B. der Koeffizient für die Stoffwechselrate für die dritte Geburt), einige Begriffe in dieser Summe herausfallen. Dies ist im Grunde die Wahrscheinlichkeit, dass bestimmte Beobachtungen nichts zur Schätzung bestimmter Parameter beitragen (z. B. tragen Personen, die zwei oder weniger Nachkommen zur Welt bringen, nichts zur geschätzten Steigung der Stoffwechselrate bei der dritten Geburt bei).j

Zusammenfassend ist Ihre Intuition genau richtig, wenn Sie vorschlagen, dass etwas verloren geht. Der Preis für "Reinheit" kann jedoch hoch sein - insbesondere, wenn Sie Ihren eigenen Algorithmus schreiben müssen, um Ihre Schätzungen zu erhalten.

Wahrscheinlichkeitslogik
quelle
2

Ich denke, Sie könnten ein nichtlineares gemischtes Modell untersuchen. Dies sollte es Ihnen ermöglichen, die Daten, über die Sie verfügen, effektiv zu nutzen. Wenn jedoch relativ wenige Probanden mehrere Maßnahmen haben, spielt dies keine große Rolle und funktioniert möglicherweise nicht gut (ich denke, es könnte Konvergenzprobleme geben).

Wenn Sie SAS verwenden, können Sie PROC GLIMMIX verwenden. Wenn Sie RI verwenden, sollte lme4 nützlich sein.

Peter Flom
quelle