Multivariate binäre Antworten - Ratschläge zur Regressionsstrategie

7

Ich wäre dankbar für Ratschläge, wie ich mit der folgenden Situation umgehen soll: Ich habe eine Zählvariable X und vier binäre Variablen A, B, C, D. Die Zählvariable ist die unabhängige Variable (sie bezieht sich auf die Anzahl der nachteiligen Erfahrungen in der Kindheit ) und die Binärdateien sind abhängige Variablen (sie beziehen sich auf bestimmte nachteilige Ergebnisse im Erwachsenenalter). Ein Befragter im Datensatz kann eine beliebige Kombination von Ergebnissen haben, z. B. A, AC, BCD usw. Ich möchte die Stärke der Assoziation zwischen der Zählvariablen X und den Ergebnissen A, B, C, D messen, abhängig von den Ebenen der andere Ergebnisse.

Ich bin mir nicht sicher, wie ich das am besten angehen soll. Wäre es gerechtfertigt, die Rolle von Variablen umzukehren und die Zählvariable X als Ergebnis und AD als Prädiktoren zu behandeln? Dies wäre also eine negative binomiale Regression (es gibt eine Überdispersion). Auf diese Weise würde die Assoziation zwischen X und A (B, C…) geschätzt, wenn andere binäre Variablen konstant gehalten würden. Aber es scheint mir, dass es logischerweise zwielichtig wäre, wenn wir etwas vorhersagen würden, das früher passiert ist, mit etwas, das später passiert ist.

Oder sollte ich stattdessen MANOVA verwenden (aber ich habe irgendwo gelesen, dass die Interpretation der Ergebnisse nicht einfach ist).

Oder sollte ich ein verallgemeinertes lineares gemischtes Modell verwenden (noch nie zuvor ausprobiert), wie hier vorgeschlagen https://www.ncbi.nlm.nih.gov/pmc/articles/PMC2798811/ .

Filip
quelle
3
Ich freue mich sehr über diese Frage und hoffe, dass Sie verschiedene Antworten von der Community erhalten. Lassen Sie mich zunächst nur auf ein Beispiel verweisen, wie Sie möglicherweise nicht fortfahren möchten. Dieser Blog-Beitrag erzählt die Geschichte einer kritischen Neuanalyse eines Forschungspapiers in Ihrem Bereich, die durch das Versäumnis, Fragen der Konstruktvalidität zu konfrontieren , und durch das Vertrauen in atheoretische, rein assoziative Regressionsanalysen untergraben wurde .
David C. Norris
3
Es scheint Unentschlossenheit in dem zu geben, was Sie wirklich wollen. measure the strength of the association between the count variable X and the outcomes A, B, C, D conditional on the levels of the other outcomesDiese "Bedingung" legt nahe, dass tatsächlich die binären Ergebnisse die Prädiktoren sind. predicting something that happened earlier with something that happened laterist kein Problem, da wir uns im Bereich der Analyse befinden, nicht der "Natur".
ttnphns
(Forts.) Das Problem besteht jedoch darin, dass Sie zufällige Fehler platzieren - in Ihren Ergebnissen oder in Ihrer Anzahl X. Wenn Sie eine Regression mit Intervallschätzung oder p-Werten von Parametern wünschen, macht dies einen Unterschied. Wenn Sie nur die Assoziation messen müssen (einschließlich bedingt / teilweise), ist dies nicht der Fall.
ttnphns
Ist es nicht einfacher, das Problem zu "teilen": Messen Sie die Assoziation zwischen Ihrer unabhängigen Variablen X und jedem der Ergebnisse separat mit 4 Modellen, z. B. logistischer Regression? (
Um

Antworten:

9

Sie gehen davon aus, dass alle Ereignisse in der Kindheit bei der Vorhersage der Ergebnisse für Erwachsene das gleiche Gewicht haben. Angesichts dessen gibt es jedoch mehrere Möglichkeiten, um fortzufahren. Hier sind drei Hauptansätze, von denen Sie bereits einen erwähnt haben.

  1. Drehen Sie das Problem rückwärts, um die Anzahl der Ereignisse in der Kindheit angesichts des Ergebnisstatus der 4 Ereignisse vorherzusagen. Verwenden Sie ein semiparametrisches Modell, um der Zählung keine Verteilung aufzuerlegen, dh ein ordinales logistisches Modell mit proportionalen Gewinnchancen. Die Parameter dieses Rückwärtsmodells sind schwer zu interpretieren, aber der Gesamtassoziationstest und die Gesamtmaße der Assoziationsstärke sind aussagekräftig. Rückwärtsmodelle, bei denen es nur einen ursprünglichen Prädiktor gibt (wie in Ihrem Fall), sind nützlich, da das Ausmaß, in dem X Y vorhersagt, das gleiche ist wie das Ausmaß, in dem Y X im rein statistischen Sinne vorhersagt.
  2. Verwenden Sie ein vollständiges multivariates Modell für die 4 binären Ergebnisse. Es gibt verschiedene Modelle aus der Ökonometrie, die diese Situation bewältigen. Siehe Greenes Buch Econometric Analysis .
  3. Erstellen Sie eine hierarchische Reihenfolge von A, B, C, D und weisen Sie jeder Person das schlimmste der 4 Ereignisse zu, die ihnen passiert sind. Sagen Sie dieses ordinale Ergebnis mit einem semiparametrischen ordinalen Antwortmodell voraus.

Sie haben Ihre Stichprobengröße nicht erwähnt, aber das könnte ein Problem sein. Es sind mindestens 96 Beobachtungen erforderlich, um einen einfachen Einzelanteil ohne Kovariaten abzuschätzen.

Frank Harrell
quelle
4
+1. Frank, könntest du nur ein paar Zeilen mehr über Pt.2 schreiben? Dh multivariate Prozeduren für spezifisch binäre Antworten?
ttnphns
1

Das multivariate Probit-Modell könnte in Betracht gezogen werden, wie in dem von Frank Harrell erwähnten Greene-Buch beschrieben. Siehe auch (Lesaffre und Mohlenberghs, 1991 Stat. Med 10, 1391-1403). Die Idee ist, sich eine multivariate Normalverteilung (4 Dimensionen) der Neigung oder Toleranz gegenüber jedem Ereignis vorzustellen. Sie modellieren den multivariaten Normalmittelvektor als vier Funktionen der unabhängigen Variablen. Schätzen Sie die Wahrscheinlichkeit jedes Ereignisses bei gegebenem Mittelwertvektor über die Probit-Link-Funktion.

Google das Greene-Buch. Sie finden einige nützliche "Links".

Garnett
quelle