Statistische Methoden für Daten, bei denen nur ein Minimal- / Maximalwert bekannt ist

29

Gibt es einen Statistikzweig, der sich mit Daten befasst, für die keine genauen Werte bekannt sind, für die wir jedoch für jede Person entweder ein Maximum oder ein Minimum kennen, das an den Wert gebunden ist ?

Ich vermute, dass mein Problem größtenteils auf der Tatsache beruht, dass ich Schwierigkeiten habe, es statistisch auszudrücken, aber hoffentlich hilft ein Beispiel dabei, Folgendes zu verdeutlichen:

Angenommen, es gibt zwei zusammenhängende Populationen A und , sodass die Mitglieder von zu einem bestimmten Zeitpunkt in "übergehen" können , aber das Gegenteil ist nicht möglich. Der Zeitpunkt des Übergangs ist variabel, aber nicht zufällig. Beispielsweise könnte "Individuen ohne Nachkommen" und "Individuen mit mindestens einem Nachkommen" sein. Ich interessiere mich für das Alter dieser Progression, habe aber nur Querschnittsdaten. Für jede Person kann ich herausfinden, ob sie zu oder . Ich kenne auch das Alter dieser Personen. Für jede Person in der BevölkerungBABABABAIch weiß, dass das Alter beim Übergang größer sein wird als ihr aktuelles Alter. Ebenso weiß ich für Mitglieder von , dass das Alter beim Übergang WENIGER als ihr aktuelles Alter war. Die genauen Werte kenne ich aber nicht.B

Angenommen, ich habe einen anderen Faktor, den ich mit dem Alter des Übergangs vergleichen möchte. Zum Beispiel möchte ich wissen, ob die Unterart oder die Körpergröße einer Person das Alter der ersten Nachkommen beeinflusst. Ich habe auf jeden Fall einige nützliche Informationen, die diese Fragen beantworten sollten: Im Durchschnitt haben ältere Personen in einen späteren Übergang. Aber die Informationen sind unvollkommen , vor allem für jüngere Menschen. Und umgekehrt für Bevölkerung .AB

Gibt es etablierte Methoden, um mit solchen Daten umzugehen ? Ich brauche nicht unbedingt eine vollständige Methode, um eine solche Analyse durchzuführen, sondern nur einige Suchbegriffe oder nützliche Ressourcen, um an der richtigen Stelle anzufangen!

Vorsichtsmaßnahmen: Ich gehe vereinfachend davon aus, dass der Übergang von nach sofort erfolgt. Ich bin auch bereit anzunehmen, dass die meisten Individuen irgendwann zu , vorausgesetzt, sie leben lange genug. Und mir ist klar, dass longitutinal-Daten sehr hilfreich wären, aber ich gehe davon aus, dass sie in diesem Fall nicht verfügbar sind.ABB

Entschuldigung, wenn dies ein Duplikat ist, wie ich bereits sagte, besteht ein Teil meines Problems darin, dass ich nicht weiß, wonach ich suchen soll. Fügen Sie aus dem gleichen Grund gegebenenfalls weitere Tags hinzu.

Beispieldatensatz: Ssp zeigt einen von zwei Unterarten, oder . Nachwuchs zeigt entweder keinen Nachwuchs ( ) oder mindestens einen Nachwuchs ( ) anY AXYAB

 age ssp offsp
  21   Y     A
  20   Y     B
  26   X     B
  33   X     B
  33   X     A
  24   X     B
  34   Y     B
  22   Y     B
  10   Y     B
  20   Y     A
  44   X     B
  18   Y     A
  11   Y     B
  27   X     A
  31   X     B
  14   Y     B
  41   X     B
  15   Y     A
  33   X     B
  24   X     B
  11   Y     A
  28   X     A
  22   X     B
  16   Y     A
  16   Y     B
  24   Y     B
  20   Y     B
  18   X     B
  21   Y     B
  16   Y     B
  24   Y     A
  39   X     B
  13   Y     A
  10   Y     B
  18   Y     A
  16   Y     A
  21   X     A
  26   X     B
  11   Y     A
  40   X     B
   8   Y     A
  41   X     B
  29   X     B
  53   X     B
  34   X     B
  34   X     B
  15   Y     A
  40   X     B
  30   X     A
  40   X     B

Bearbeiten: Der Beispieldatensatz wurde geändert, da er nicht sehr repräsentativ war

user2390246
quelle
2
Das ist eine interessante Situation. Können Sie uns Ihre Daten mitteilen?
gung - Wiedereinsetzung von Monica
1
Ich wäre nicht in der Lage, den vollständigen Datensatz zu veröffentlichen, könnte aber einen Beispielsatz angeben.
user2390246

Antworten:

26

Dies wird als aktuelle Statusdaten bezeichnet . Sie erhalten eine Querschnittsansicht der Daten, und in Bezug auf die Reaktion wissen Sie lediglich, dass im beobachteten Alter jedes Probanden das Ereignis (in Ihrem Fall: Übergang von A nach B) eingetreten ist oder nicht. Dies ist ein Sonderfall der Intervallzensur .

Um es formal zu definieren, sei die (nicht beobachtete) wahre Ereigniszeit für Subjekt i . Lassen Sie C i die Inspektionszeit für das Subjekt i (in Ihrem Fall: Alter bei Inspektion). Wenn C i < T i , sind die Daten richtig zensiert . Ansonsten bleiben die Daten zensiert . Wir sind an der Modellierung der Verteilung von T interessiert . Für Regressionsmodelle sind wir daran interessiert zu modellieren, wie sich diese Verteilung mit einer Menge von Kovariaten X ändert .TichichCichichCich<TichTX

Um dies mit Intervallzensierungsmethoden zu analysieren, möchten Sie Ihre Daten in das allgemeine Intervallzensierungsformat bringen. Das heißt, für jedes Subjekt haben wir das Intervall , das das Intervall darstellt, in dem wir wissen, dass T i enthalten ist. Wenn also das Thema i zum Zeitpunkt c i richtig zensiert ist , schreiben wir ( c i , ) . Wenn es bei c i zensiert bleibt , würden wir es als ( 0 , c i ) darstellen .(lich,rich)Tichichcich(cich,)cich(0,cich)

Schamloser Plug: Wenn Sie Regressionsmodelle verwenden möchten, um Ihre Daten zu analysieren, können Sie dies in R tun icenReg (ich bin der Autor). Tatsächlich hat das OP in einer ähnlichen Frage zu den aktuellen Statusdaten eine schöne Demo zur Verwendung von icenReg erstellt . Zunächst zeigt er, dass das Ignorieren des zensierenden Teils und die Verwendung der logistischen Regression zu Verzerrungen führt (wichtiger Hinweis: Er bezieht sich auf die Verwendung der logistischen Regression ohne Anpassung an das Alter . Mehr dazu später.)

Ein weiteres großartiges Paket intervalenthält unter anderem statistische Log-Rank-Tests.

BEARBEITEN:

@EdM schlug vor, die logistische Regression zu verwenden, um das Problem zu lösen. Ich habe dies zu Unrecht abgelehnt und gesagt, dass Sie sich um die funktionale Form der Zeit sorgen müssten. Während ich hinter der Aussage stehe, dass Sie sich um die funktionale Form der Zeit kümmern sollten, wurde mir klar, dass es eine sehr vernünftige Transformation gab, die zu einem vernünftigen parametrischen Schätzer führt.

Insbesondere wenn wir log (time) als Kovariate in unserem Modell mit logistischer Regression verwenden, erhalten wir ein proportionales Gewinnchancenmodell mit einer logistisch-logistischen Basislinie.

Um dies zu sehen, muss zunächst angenommen werden, dass das Proportional-Odds-Regressionsmodell wie folgt definiert ist

Chancen(t|X,β)=eXTβChancenO(t)

wobei die Grundüberlebenschancen zum Zeitpunkt t sind . Beachten Sie, dass die Regressionseffekte dieselben sind wie bei der logistischen Regression. Jetzt müssen wir nur noch zeigen, dass die Basisverteilung log-logistisch ist.ChancenO(t)t

Betrachten Sie nun eine logistische Regression mit log (Time) als Kovariate. Wir haben dann

P(Y.=1|T=t)=exp(β0+β1Log(t))1+exp(β0+β1Log(t))

Mit ein wenig Arbeit können Sie dies als CDF eines log-logistischen Modells (mit einer nichtlinearen Transformation der Parameter) sehen.

R Nachweis der Gleichwertigkeit der Anfälle:

> library(icenReg)
> data(miceData)
> 
> ## miceData contains current status data about presence 
> ## of tumors at sacrifice in two groups
> ## in interval censored format: 
> ## l = lower end of interval, u = upper end
> ## first three mice all left censored
> 
> head(miceData, 3)
  l   u grp
1 0 381  ce
2 0 477  ce
3 0 485  ce
> 
> ## To fit this with logistic regression, 
> ## we need to extract age at sacrifice
> ## if the observation is left censored, 
> ## this is the upper end of the interval
> ## if right censored, is the lower end of interval
> 
> age <- numeric()
> isLeftCensored <- miceData$l == 0
> age[isLeftCensored] <- miceData$u[isLeftCensored]
> age[!isLeftCensored] <- miceData$l[!isLeftCensored]
> 
> log_age <- log(age)
> resp <- !isLeftCensored
> 
> 
> ## Fitting logistic regression model
> logReg_fit <- glm(resp ~ log_age + grp, 
+                     data = miceData, family = binomial)
> 
> ## Fitting proportional odds regression model with log-logistic baseline
> ## interval censored model
> ic_fit <- ic_par(cbind(l,u) ~ grp, 
+            model = 'po', dist = 'loglogistic', data = miceData)
> 
> summary(logReg_fit)

Call:
glm(formula = resp ~ log_age + grp, family = binomial, data = miceData)

Deviance Residuals: 
    Min       1Q   Median       3Q      Max  
-2.1413  -0.8052   0.5712   0.8778   1.8767  

Coefficients:
             Estimate Std. Error z value Pr(>|z|)   
(Intercept)  18.3526     6.7149   2.733  0.00627 **
log_age      -2.7203     1.0414  -2.612  0.00900 **
grpge        -1.1721     0.4713  -2.487  0.01288 * 
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

(Dispersion parameter for binomial family taken to be 1)

    Null deviance: 196.84  on 143  degrees of freedom
Residual deviance: 160.61  on 141  degrees of freedom
AIC: 166.61

Number of Fisher Scoring iterations: 5

> summary(ic_fit)

Model:  Proportional Odds
Baseline:  loglogistic 
Call: ic_par(formula = cbind(l, u) ~ grp, data = miceData, model = "po", 
    dist = "loglogistic")

          Estimate Exp(Est) Std.Error z-value        p
log_alpha    6.603 737.2000   0.07747  85.240 0.000000
log_beta     1.001   2.7200   0.38280   2.614 0.008943
grpge       -1.172   0.3097   0.47130  -2.487 0.012880

final llk =  -80.30575 
Iterations =  10 
> 
> ## Comparing loglikelihoods
> logReg_fit$deviance/(-2) - ic_fit$llk
[1] 2.643219e-12

Beachten Sie, dass der Effekt von grpin jedem Modell derselbe ist und sich die endgültige Log-Wahrscheinlichkeit nur durch einen numerischen Fehler unterscheidet. Die Basisparameter (dh Intercept und log_age für die logistische Regression, Alpha und Beta für das intervallzensierte Modell) sind unterschiedliche Parametrisierungen, sodass sie nicht gleich sind.

Da haben Sie es also: Die Verwendung der logistischen Regression ist gleichbedeutend mit der Anpassung der proportionalen Quoten an eine logistisch-logistische Basisverteilung. Wenn Sie mit der Anpassung dieses parametrischen Modells einverstanden sind, ist die logistische Regression durchaus sinnvoll. Ich bin vorsichtig, dass bei intervallzensierten Daten semi-parametrische Modelle aufgrund der Schwierigkeit, die Modellanpassung zu beurteilen, in der Regel bevorzugt werden, aber wenn ich wirklich geglaubt hätte, dass es keinen Platz für vollständig parametrische Modelle gibt, hätte ich sie nicht berücksichtigt icenReg.

Cliff AB
quelle
Das sieht sehr hilfreich aus. Ich werde einen Blick auf die Ressourcen werfen, auf die Sie verweisen, und mit dem icenReg-Paket spielen. Ich versuche herauszufinden, warum eine logistische Regression weniger geeignet ist - der Vorschlag von @EdM sieht an der Oberfläche so aus, als ob es funktionieren sollte. Entsteht die Voreingenommenheit, weil das "Ereignis" - hier Nachkommen - das Überleben beeinflussen könnte? Wenn es also das Überleben verringert, würden wir feststellen, dass Personen eines bestimmten Alters, die nicht reproduziert haben, überrepräsentiert sind?
user2390246
1
@ user2390246: Sie können die logistische Regression für aktuelle Statusdaten verwenden. Aber dann muss man viel arbeiten, um die funktionale Form des Alters und die Interaktion mit anderen Variablen richtig zu machen. Das ist sehr wenig trivial. Bei überlebensbasierten Modellen können Sie eine semiparametrische Basislinie ( ic_spin icenReg) verwenden, ohne sich darum zu kümmern. Wenn Sie sich außerdem die Überlebenskurven für die beiden Gruppen ansehen, wird Ihre Frage richtig beantwortet. Der Versuch, dies aus der logistischen Anpassung nachzubilden, könnte durchgeführt werden, ist aber wiederum weitaus aufwändiger als die Verwendung von Überlebensmodellen.
Cliff AB
Da stimme ich @CliffAB zu. Ich habe gezögert, eine logistische Regression zu empfehlen, weil es schwierig ist, die richtige funktionale Form für die Altersabhängigkeit zu finden. Ich habe keine Erfahrung mit der Analyse aktueller Statusdaten. Diese Form der Altersabhängigkeit nicht herausfinden zu müssen, ist ein großer Vorteil dieser Technik. Ich werde meine Antwort trotzdem aufrechterhalten, damit diejenigen, die diesen Thread später untersuchen, verstehen, wie sich dies abgespielt hat.
EdM
Mir scheint, Ihr Kommentar hier ist der springende Punkt. Es würde helfen, wenn Sie das in Ihrer Antwort entwickeln könnten. Wenn Sie beispielsweise die Beispieldaten des OP verwenden könnten, um ein LR-Modell und ein intervallzensiertes Überlebensmodell zu erstellen, zeigen Sie, wie letzteres die Forschungsfrage des OP leichter beantwortet.
gung - Reinstate Monica
1
@gung: Eigentlich habe ich die logistische Regression etwas weniger kritisch gesehen. Ich habe meine Antwort bearbeitet, um dies widerzuspiegeln.
Cliff AB
4

Dies ist ein Fall von Zensierung / Grobdaten. Angenommen, Sie glauben, dass Ihre Daten aus einer Distribution mit ansprechend verhaltenen fortlaufenden (usw.) PDF-Dateien stammenf(x) und cdf F(x). Die Standardlösung für Time-to-Event-Daten zur genauen Uhrzeitxich einer Veranstaltung zum Thema ich Bekannt ist, dass der Wahrscheinlichkeitsbeitrag ist f(xich). Wenn wir nur wissen, dass die Zeit größer war alsyich (Rechtszensur), dann ist der Wahrscheinlichkeitsbeitrag 1-F(yich)unter der Annahme einer unabhängigen Zensur. Wenn wir wissen, dass die Zeit kürzer ist alszich (Linkszensur), dann ist der Wahrscheinlichkeitsbeitrag F(zich). Schließlich, wenn die Zeit in ein Intervall fällt(yich,zich], dann wäre der Wahrscheinlichkeitsbeitrag F(zich)-F(yich).

Björn
quelle
1
Es gibt keine Notwendigkeit dafür f(x)Fortsetzung folgt. Oder sich sogar gut benommen. Es könnte sich um ein diskretes Überlebensmodell handeln (daher ist das PDF undefiniert und stattdessen wird eine PMF verwendet), und der Rest des von Ihnen Gesagten wäre korrekt, mit einer geringfügigen Anpassung (Ersetzen)F(yich) mit F(yich+).
Cliff AB
4

Dieses Problem scheint durch logistische Regression gut gelöst zu werden.

Sie haben zwei Zustände, A und B, und möchten untersuchen, mit welcher Wahrscheinlichkeit eine bestimmte Person irreversibel von Zustand A zu Zustand B gewechselt ist. Eine grundlegende Prädiktorvariable wäre das Alter zum Zeitpunkt der Beobachtung. Der andere oder die anderen interessierenden Faktoren wären zusätzliche Prädiktorvariablen.

Ihr logistisches Modell würde dann die tatsächlichen Beobachtungen des A / B-Zustands, des Alters und anderer Faktoren verwenden, um die Wahrscheinlichkeit abzuschätzen, dass es sich in Abhängigkeit von diesen Prädiktoren in Zustand B befindet. Das Alter, bei dem diese Wahrscheinlichkeit 0,5 überschreitet, könnte als Schätzung der Übergangszeit verwendet werden, und Sie würden dann die Einflüsse der anderen Faktoren auf diese vorhergesagte Übergangszeit untersuchen.

Als Antwort auf die Diskussion hinzugefügt:

Wie bei jedem linearen Modell müssen Sie sicherstellen, dass Ihre Prädiktoren so transformiert werden, dass sie in einem linearen Verhältnis zur Ergebnisvariablen stehen. In diesem Fall ist dies nicht unbedingt die logarithmische Wahrscheinlichkeit, mit der sie in den Zustand B übergegangen sind ein triviales Problem. Die Antwort von @CliffAB zeigt, wie eine Protokolltransformation der Altersvariablen verwendet werden kann.

EdM
quelle