Gibt es einen Statistikzweig, der sich mit Daten befasst, für die keine genauen Werte bekannt sind, für die wir jedoch für jede Person entweder ein Maximum oder ein Minimum kennen, das an den Wert gebunden ist ?
Ich vermute, dass mein Problem größtenteils auf der Tatsache beruht, dass ich Schwierigkeiten habe, es statistisch auszudrücken, aber hoffentlich hilft ein Beispiel dabei, Folgendes zu verdeutlichen:
Angenommen, es gibt zwei zusammenhängende Populationen und , sodass die Mitglieder von zu einem bestimmten Zeitpunkt in "übergehen" können , aber das Gegenteil ist nicht möglich. Der Zeitpunkt des Übergangs ist variabel, aber nicht zufällig. Beispielsweise könnte "Individuen ohne Nachkommen" und "Individuen mit mindestens einem Nachkommen" sein. Ich interessiere mich für das Alter dieser Progression, habe aber nur Querschnittsdaten. Für jede Person kann ich herausfinden, ob sie zu oder . Ich kenne auch das Alter dieser Personen. Für jede Person in der BevölkerungIch weiß, dass das Alter beim Übergang größer sein wird als ihr aktuelles Alter. Ebenso weiß ich für Mitglieder von , dass das Alter beim Übergang WENIGER als ihr aktuelles Alter war. Die genauen Werte kenne ich aber nicht.
Angenommen, ich habe einen anderen Faktor, den ich mit dem Alter des Übergangs vergleichen möchte. Zum Beispiel möchte ich wissen, ob die Unterart oder die Körpergröße einer Person das Alter der ersten Nachkommen beeinflusst. Ich habe auf jeden Fall einige nützliche Informationen, die diese Fragen beantworten sollten: Im Durchschnitt haben ältere Personen in einen späteren Übergang. Aber die Informationen sind unvollkommen , vor allem für jüngere Menschen. Und umgekehrt für Bevölkerung .
Gibt es etablierte Methoden, um mit solchen Daten umzugehen ? Ich brauche nicht unbedingt eine vollständige Methode, um eine solche Analyse durchzuführen, sondern nur einige Suchbegriffe oder nützliche Ressourcen, um an der richtigen Stelle anzufangen!
Vorsichtsmaßnahmen: Ich gehe vereinfachend davon aus, dass der Übergang von nach sofort erfolgt. Ich bin auch bereit anzunehmen, dass die meisten Individuen irgendwann zu , vorausgesetzt, sie leben lange genug. Und mir ist klar, dass longitutinal-Daten sehr hilfreich wären, aber ich gehe davon aus, dass sie in diesem Fall nicht verfügbar sind.
Entschuldigung, wenn dies ein Duplikat ist, wie ich bereits sagte, besteht ein Teil meines Problems darin, dass ich nicht weiß, wonach ich suchen soll. Fügen Sie aus dem gleichen Grund gegebenenfalls weitere Tags hinzu.
Beispieldatensatz: Ssp zeigt einen von zwei Unterarten, oder . Nachwuchs zeigt entweder keinen Nachwuchs ( ) oder mindestens einen Nachwuchs ( ) anY A
age ssp offsp
21 Y A
20 Y B
26 X B
33 X B
33 X A
24 X B
34 Y B
22 Y B
10 Y B
20 Y A
44 X B
18 Y A
11 Y B
27 X A
31 X B
14 Y B
41 X B
15 Y A
33 X B
24 X B
11 Y A
28 X A
22 X B
16 Y A
16 Y B
24 Y B
20 Y B
18 X B
21 Y B
16 Y B
24 Y A
39 X B
13 Y A
10 Y B
18 Y A
16 Y A
21 X A
26 X B
11 Y A
40 X B
8 Y A
41 X B
29 X B
53 X B
34 X B
34 X B
15 Y A
40 X B
30 X A
40 X B
Bearbeiten: Der Beispieldatensatz wurde geändert, da er nicht sehr repräsentativ war
quelle
Antworten:
Dies wird als aktuelle Statusdaten bezeichnet . Sie erhalten eine Querschnittsansicht der Daten, und in Bezug auf die Reaktion wissen Sie lediglich, dass im beobachteten Alter jedes Probanden das Ereignis (in Ihrem Fall: Übergang von A nach B) eingetreten ist oder nicht. Dies ist ein Sonderfall der Intervallzensur .
Um es formal zu definieren, sei die (nicht beobachtete) wahre Ereigniszeit für Subjekt i . Lassen Sie C i die Inspektionszeit für das Subjekt i (in Ihrem Fall: Alter bei Inspektion). Wenn C i < T i , sind die Daten richtig zensiert . Ansonsten bleiben die Daten zensiert . Wir sind an der Modellierung der Verteilung von T interessiert . Für Regressionsmodelle sind wir daran interessiert zu modellieren, wie sich diese Verteilung mit einer Menge von Kovariaten X ändert .Tich ich Cich ich Cich< Tich T X
Um dies mit Intervallzensierungsmethoden zu analysieren, möchten Sie Ihre Daten in das allgemeine Intervallzensierungsformat bringen. Das heißt, für jedes Subjekt haben wir das Intervall , das das Intervall darstellt, in dem wir wissen, dass T i enthalten ist. Wenn also das Thema i zum Zeitpunkt c i richtig zensiert ist , schreiben wir ( c i , ∞ ) . Wenn es bei c i zensiert bleibt , würden wir es als ( 0 , c i ) darstellen .( lich, rich) Tich ich cich ( cich, ∞ ) cich ( 0 , cich)
Schamloser Plug: Wenn Sie Regressionsmodelle verwenden möchten, um Ihre Daten zu analysieren, können Sie dies in R tun
icenReg
(ich bin der Autor). Tatsächlich hat das OP in einer ähnlichen Frage zu den aktuellen Statusdaten eine schöne Demo zur Verwendung von icenReg erstellt . Zunächst zeigt er, dass das Ignorieren des zensierenden Teils und die Verwendung der logistischen Regression zu Verzerrungen führt (wichtiger Hinweis: Er bezieht sich auf die Verwendung der logistischen Regression ohne Anpassung an das Alter . Mehr dazu später.)Ein weiteres großartiges Paket
interval
enthält unter anderem statistische Log-Rank-Tests.BEARBEITEN:
@EdM schlug vor, die logistische Regression zu verwenden, um das Problem zu lösen. Ich habe dies zu Unrecht abgelehnt und gesagt, dass Sie sich um die funktionale Form der Zeit sorgen müssten. Während ich hinter der Aussage stehe, dass Sie sich um die funktionale Form der Zeit kümmern sollten, wurde mir klar, dass es eine sehr vernünftige Transformation gab, die zu einem vernünftigen parametrischen Schätzer führt.
Insbesondere wenn wir log (time) als Kovariate in unserem Modell mit logistischer Regression verwenden, erhalten wir ein proportionales Gewinnchancenmodell mit einer logistisch-logistischen Basislinie.
Um dies zu sehen, muss zunächst angenommen werden, dass das Proportional-Odds-Regressionsmodell wie folgt definiert ist
wobei die Grundüberlebenschancen zum Zeitpunkt t sind . Beachten Sie, dass die Regressionseffekte dieselben sind wie bei der logistischen Regression. Jetzt müssen wir nur noch zeigen, dass die Basisverteilung log-logistisch ist.ChancenO( t ) t
Betrachten Sie nun eine logistische Regression mit log (Time) als Kovariate. Wir haben dann
Mit ein wenig Arbeit können Sie dies als CDF eines log-logistischen Modells (mit einer nichtlinearen Transformation der Parameter) sehen.
R Nachweis der Gleichwertigkeit der Anfälle:
Beachten Sie, dass der Effekt von
grp
in jedem Modell derselbe ist und sich die endgültige Log-Wahrscheinlichkeit nur durch einen numerischen Fehler unterscheidet. Die Basisparameter (dh Intercept und log_age für die logistische Regression, Alpha und Beta für das intervallzensierte Modell) sind unterschiedliche Parametrisierungen, sodass sie nicht gleich sind.Da haben Sie es also: Die Verwendung der logistischen Regression ist gleichbedeutend mit der Anpassung der proportionalen Quoten an eine logistisch-logistische Basisverteilung. Wenn Sie mit der Anpassung dieses parametrischen Modells einverstanden sind, ist die logistische Regression durchaus sinnvoll. Ich bin vorsichtig, dass bei intervallzensierten Daten semi-parametrische Modelle aufgrund der Schwierigkeit, die Modellanpassung zu beurteilen, in der Regel bevorzugt werden, aber wenn ich wirklich geglaubt hätte, dass es keinen Platz für vollständig parametrische Modelle gibt, hätte ich sie nicht berücksichtigt
icenReg
.quelle
ic_sp
inicenReg
) verwenden, ohne sich darum zu kümmern. Wenn Sie sich außerdem die Überlebenskurven für die beiden Gruppen ansehen, wird Ihre Frage richtig beantwortet. Der Versuch, dies aus der logistischen Anpassung nachzubilden, könnte durchgeführt werden, ist aber wiederum weitaus aufwändiger als die Verwendung von Überlebensmodellen.Dies ist ein Fall von Zensierung / Grobdaten. Angenommen, Sie glauben, dass Ihre Daten aus einer Distribution mit ansprechend verhaltenen fortlaufenden (usw.) PDF-Dateien stammenf( x ) und cdf F( x ) . Die Standardlösung für Time-to-Event-Daten zur genauen Uhrzeitxich einer Veranstaltung zum Thema ich Bekannt ist, dass der Wahrscheinlichkeitsbeitrag ist f( xich) . Wenn wir nur wissen, dass die Zeit größer war alsyich (Rechtszensur), dann ist der Wahrscheinlichkeitsbeitrag 1 - F( yich) unter der Annahme einer unabhängigen Zensur. Wenn wir wissen, dass die Zeit kürzer ist alszich (Linkszensur), dann ist der Wahrscheinlichkeitsbeitrag F( zich) . Schließlich, wenn die Zeit in ein Intervall fällt( yich, zich] , dann wäre der Wahrscheinlichkeitsbeitrag F( zich) - F( yich) .
quelle
Dieses Problem scheint durch logistische Regression gut gelöst zu werden.
Sie haben zwei Zustände, A und B, und möchten untersuchen, mit welcher Wahrscheinlichkeit eine bestimmte Person irreversibel von Zustand A zu Zustand B gewechselt ist. Eine grundlegende Prädiktorvariable wäre das Alter zum Zeitpunkt der Beobachtung. Der andere oder die anderen interessierenden Faktoren wären zusätzliche Prädiktorvariablen.
Ihr logistisches Modell würde dann die tatsächlichen Beobachtungen des A / B-Zustands, des Alters und anderer Faktoren verwenden, um die Wahrscheinlichkeit abzuschätzen, dass es sich in Abhängigkeit von diesen Prädiktoren in Zustand B befindet. Das Alter, bei dem diese Wahrscheinlichkeit 0,5 überschreitet, könnte als Schätzung der Übergangszeit verwendet werden, und Sie würden dann die Einflüsse der anderen Faktoren auf diese vorhergesagte Übergangszeit untersuchen.
Als Antwort auf die Diskussion hinzugefügt:
Wie bei jedem linearen Modell müssen Sie sicherstellen, dass Ihre Prädiktoren so transformiert werden, dass sie in einem linearen Verhältnis zur Ergebnisvariablen stehen. In diesem Fall ist dies nicht unbedingt die logarithmische Wahrscheinlichkeit, mit der sie in den Zustand B übergegangen sind ein triviales Problem. Die Antwort von @CliffAB zeigt, wie eine Protokolltransformation der Altersvariablen verwendet werden kann.
quelle