Was genau sind zensierte Daten?

14

Ich habe verschiedene Beschreibungen von zensierten Daten gelesen:

A) Wie in diesem Thread erläutert , werden nicht quantifizierte Daten unterhalb oder oberhalb eines bestimmten Schwellenwerts zensiert. Nicht quantifiziert bedeutet, dass die Daten einen bestimmten Schwellenwert überschreiten oder unterschreiten, der genaue Wert ist uns jedoch nicht bekannt. Die Daten werden dann im Regressionsmodell mit dem unteren oder oberen Schwellenwert markiert . Es stimmt mit der Beschreibung in dieser Präsentation überein , die ich sehr deutlich gefunden habe (2. Folie auf der ersten Seite). Mit anderen Worten : Y ist entweder auf ein Minimum gekappt, einen Maximalwert oder beide , weil wir nicht wissen , den wahren Wert außerhalb dieses Bereichs.

B) Ein Freund sagte mir, dass wir ein zensiertes Datenmodell auf teilweise unbekannte Y Beobachtungen anwenden können , vorausgesetzt, wir haben zumindest einige Grenzwerte für die unbekannten Yi -Ergebnisse. Zum Beispiel möchten wir den Endpreis für eine Mischung aus stillen und offenen Auktionen anhand einiger qualitativer Kriterien (Warentyp, Land, Bietervermögen usw.) schätzen. Während wir für die offenen Auktionen alle Endpreise Yi , kennen wir für die stillen Auktionen nur das erste Gebot (sagen wir 1.000 USD), aber nicht den Endpreis. Mir wurde gesagt, dass in diesem Fall Daten von oben zensiert werden und ein zensiertes Regressionsmodell angewendet werden sollte.

C) Schließlich gibt es die von der Wikipedia gegebene Definition, woY insgesamt fehlt, die Prädiktoren jedoch verfügbar sind. Ich bin nicht sicher, wie sich dieses Beispiel von abgeschnittenen Daten unterscheidet.

Was genau sind zensierte Daten?

Robert Kubrick
quelle
6
Der relevantere Wikipedia-Artikel befindet sich unter en.wikipedia.org/wiki/Censoring_%28statistics%29 . Obwohl nicht umfassend, beschreibt es zumindest die Zensierung vom Typ I und Typ II und erkennt die Intervallzensierung zusammen mit der linken und rechten Zensierung an.
whuber

Antworten:

8

Betrachten Sie die folgenden Daten zu einem Ergebnis und einer Kovariate x :yx

user y       x   
1    10      2 
2   (-∞,5]   3 
3   [4,+∞)   5   
4   [8,9]    7
5     .      .

Für Benutzer 1 liegen uns die vollständigen Daten vor. Für alle anderen haben wir unvollständige Daten. Benutzer 2, 3 und 4 werden alle zensiert: Das Ergebnis, das bekannten Werten der Kovariate entspricht, wird nicht oder nicht genau beobachtet (links-, rechts- und intervallzensiert). Manchmal ist dies ein Artefakt von Datenschutzaspekten beim Umfragedesign. In anderen Fällen geschieht dies aus anderen Gründen. Beispielsweise beobachten wir keine Löhne unterhalb des Mindestlohns oder der tatsächlichen Nachfrage nach Konzertkarten oberhalb der Kapazität der Arena.

Benutzer 5 wird abgeschnitten: Sowohl das Ergebnis als auch die Kovariate fehlen. Dies geschieht normalerweise, weil wir nur Daten über Personen sammeln, die etwas getan haben. Zum Beispiel befragen wir nur Leute, die etwas gekauft haben ( ), also schließen wir alle mit y = 0 zusammen mit ihren x aus . Wir haben möglicherweise nicht einmal eine Zeile für diesen Benutzertyp in unseren Daten, obwohl wir wissen, dass sie vorhanden sind, da wir die Regel kennen, die zum Generieren unserer Stichprobe verwendet wurde. Ein weiteres Beispiel ist die zufällige Kürzung: Wir beobachten Lohnangebote nur für Personen, die in der Belegschaft beschäftigt sind, da wir davon ausgehen, dass das Lohnangebot der Lohn ist, den Sie bei der Arbeit haben. Die Kürzung ist zufällig, da sie nicht von y abhängty>0y=0xy, aber auf einer anderen Variablen.

Kurz gesagt, bedeutet das Abschneiden einen größeren Informationsverlust als das Zensieren (Punkte A und B). Beide Arten von "Fehlen" sind systematisch.

Das Arbeiten mit dieser Art von Daten erfordert normalerweise eine starke Verteilungsannahme über den Fehler und das Ändern der Wahrscheinlichkeit, dies zu berücksichtigen. Möglich sind auch flexiblere semiparametrische Ansätze. Dies ist in Ihrem Punkt B implizit.

Dimitriy V. Masterov
quelle
2
Zwei Aspekte dieser Antwort verwirren mich. Erstens spiegeln rein fehlende Werte nicht unbedingt das Abschneiden wider. Zweitens ist die Art der Zensierung ("zufällig" vs. "informativ") oft genauso wichtig wie die Tatsache der Zensierung, was darauf hinweist, dass die Zensierung mehr beinhaltet als die bloße Aufzeichnung von Daten mit Intervallwerten.
Whuber
Dies ist ein sehr gutes Beispiel. Bedeutet dies, dass für jedes unterschiedliche "Zensierungsgrenzen" gelten können ? Wie formulieren wir das Modell in diesem Fall? Dies würde die Aussage meines Freundes in B) bestätigen. y
Robert Kubrick
1
Wenn Sie bereit sind homoskedastic zu übernehmen, normalverteilte Fehler kann die Wahrscheinlichkeit , wie geschrieben werden diese und Sie können MLE verwenden mit Beobachtung spezifische Zensur Schwellen.
Dimitriy V. Masterov
3
@Peter Ist das nicht (richtig) Zensieren? Eine Kürzung würde auftreten, wenn alle diese Personen von der Stichprobe ausgeschlossen und überhaupt nicht mitgezählt würden. Siehe en.wikipedia.org/wiki/Truncation_(statistics) .
Whuber
1
@Peter Was verwirrend ist, ist, dass Sie schreiben: "Dann wissen wir, dass der BMI dieser Person über 30 ist": Wie können Sie sich möglicherweise auf jemanden beziehen, der nicht einmal in Ihrer Stichprobe ist ("wurde nicht gezählt")? Eine Beobachtung mit der Form "BMI> 30" ist zensierend, während der vollständige Ausschluss aller solcher Beobachtungen aus Ihrer Analyse, auch wenn sie in der Population vorhanden sein könnten, Kürzung bedeutet. Im letzteren Fall kann man nur sagen: "Personen mit einem BMI über 30 wurden von der Stichprobe ausgeschlossen."
Whuber
9

Beschreibend würde ich anbieten, "eine Datenprobe wird zensiert, wenn einige Beobachtungen darin die Extremwerte der Probe annehmen oder darstellen, aber ihr wahrer Wert außerhalb des beobachteten Probenbereichs liegt". Dies ist jedoch täuschend einfach.

Lassen Sie uns zunächst diskutieren, wie wir zu dem Schluss kommen können, dass ein Datensatz zensiert wird, was uns natürlich dazu veranlasst, die in der Frage dargestellten Fälle zu diskutieren.

Angenommen, wir erhalten den folgenden Datensatz aus einer diskreten Zufallsvariablen , von der wir nur wissen, dass sie nicht negativ ist:X

{0,1,1,2,2,2,2,2,2,2}

Können wir sagen, dass der Datensatz zensiert ist? Nun, wir sind berechtigt zu glauben, dass dies der Fall sein könnte, aber das muss nicht so sein:

1) kann den Bereich { 0 , 1 habenX und eine Wahrscheinlichkeitsverteilung { 0,1 , 0,1 , 0,8 } haben . Wenn dies tatsächlich der Fall ist, scheint es hier keine Zensur zu geben, sondern nur eine "vorweggenommene" Stichprobe aus einer solchen Zufallsvariablen mit begrenzter Unterstützung und stark asymmetrischer Verteilung. {0,1,2}{0.1,0.1,0.8}

2) , aber es kann der Fall sein , dass den Bereich hat { 0 , 1 , . . . , 9 } mit einheitlicher Wahrscheinlichkeitsverteilung { 0,1 , 0,1 , . . .0 .1 } . In diesem Fall wird unser Datenmuster höchstwahrscheinlich zensiert. X{0,1,...,9}{0.1,0.1,...0.1}

Wie können wir es sagen? Wir können nicht, es sei denn, wir verfügen über Vorkenntnisse oder Informationen , die es uns erlauben, für den einen oder anderen Fall zu argumentieren. Stellen die drei in der Frage vorgestellten Fälle Vorkenntnisse zur Wirkung der Zensur dar? Mal sehen:

Fall A) beschreibt eine Situation, in der wir für einige Beobachtungen nur qualitative Informationen wie "sehr groß", "sehr klein" usw. haben, was uns dazu veranlasst, der Beobachtung einen Extremwert zuzuweisen. Es ist zu beachten, dass die bloße Nichtkenntnis des tatsächlich realisierten Werts nicht die Zuweisung eines Extremwerts rechtfertigt. Wir müssen also einige Informationen darüber haben, dass für diese Beobachtungen deren Wert alle beobachteten Werte über- oder unterschreitet. In diesem Fall ist der tatsächliche Bereich der Zufallsvariablen unbekannt, aber unsere qualitativen Informationen ermöglichen es uns , eine zensierte Stichprobe zu erstellen (es ist eine weitere Diskussion darüber, warum wir nicht einfach die Beobachtungen fallen lassen, für die wir nicht den tatsächlich realisierten Wert besitzen ).

Fall B) ist , wenn ich es richtig verstehe, keine Zensur, sondern ein Fall von kontaminierter Probe: Unsere A-priori-Information besagt, dass der Maximalwert der Zufallsvariablen nicht überschreiten darf (etwa aufgrund eines physikalischen Gesetzes oder a) Sozialgesetz - vorausgesetzt, es handelt sich um Noten aus einem Bewertungssystem, das nur die Werte 1 , 2 , 3 verwendet . Wir haben aber auch den Wert 4 und den Wert 5 beobachtet . Wie kann das sein? Fehler bei der Aufzeichnung der Daten. Aber in einem solchen Fall wissen wir nicht sicher, dass die 4 und 5 alle 3 sein sollten31,2,345453 's beobachtet (tatsächlich ist es bei Betrachtung der seitlichen Tastatur eines Computers wahrscheinlicher, dass die ' s 1 's und die 5 ' s 2 sind4152 ‚s!). Durch "Korrigieren" der Stichprobe auf irgendeine Weise machen wir sie nicht zu einer zensierten, da die Zufallsvariable in erster Linie nicht in dem aufgezeichneten Bereich liegen soll (den Werten und 5 sind also keine wahren Wahrscheinlichkeiten zugeordnet) ). 45

Fall C) bezieht sich auf eine gemeinsame Stichprobe, bei der wir eine abhängige Variable und Prädiktoren haben. Hier haben wir vielleicht eine Stichprobe, bei der sich die Werte der abhängigen Variablen aufgrund der Struktur des untersuchten Phänomens auf eines oder beide Extreme konzentrieren: In dem üblichen Beispiel "geleistete Arbeitsstunden" arbeiten Arbeitslose nicht, aber sie würden es tun gearbeitet (Überlegen Sie genau: Fällt dieser Fall wirklich unter die deskriptive "Definition" am Anfang dieser Antwort?). Wenn Sie sie also in die Regression mit den aufgezeichneten Stunden "Null" einbeziehen, entsteht eine Verzerrung. Im anderen Extremfall kann behauptet werden, dass die Höchstzahl der geleisteten Arbeitsstunden erreicht werden kann, z. B. 16/ Tag, und es kann Mitarbeiter geben, die bereit wären, so viele für eine bestimmte Bezahlung zu arbeiten. Die gesetzlichen Rahmenbedingungen lassen dies jedoch nicht zu, so dass wir solche "geleisteten Arbeitsstunden" nicht einhalten. Hier versuchen wir, die " beabsichtigte Arbeitskräfteangebotsfunktion" zu schätzen, und in Bezug auf diese Variable wird die Stichprobe als zensiert charakterisiert.
Wenn wir jedoch erklären würden, dass wir die "Funktion des Arbeitskräfteangebots angesichts des Phänomens der Arbeitslosigkeit und des rechtlichen Rahmens" abschätzen wollen, würde die Stichprobe nicht zensiert, da sie die Auswirkungen dieser beiden Aspekte widerspiegeln würde, die wir wollen es zu tun.

Wir sehen also, dass eine Datenprobe als zensiert charakterisiert wird
a) aus verschiedenen Situationen und kommt
b) erfordert eine gewisse Sorgfalt
-LET allein die Tatsache , dass es mit dem Fall verwechselt werden kann Abschneiden .

Alecos Papadopoulos
quelle
6
Dies scheint eine ökonometrische Perspektive zu sein. Es ist zu beachten, dass es in der biomedizinischen Forschung üblich ist, eine Reaktionsdauer (möglicherweise im wahrsten Sinne des Wortes Überleben) zu haben und Patienten zu zensieren, die das Ereignis bis zum Ende des Beobachtungszeitraums nicht erlebt haben. Aber auch Patienten, die während des Beobachtungszeitraums ausfielen oder verloren gingen. (Vielleicht sind sie weggezogen und der Kontakt ging verloren.) Wir können wissen, dass die Überlebenszeit> der letzte Kontakt ist, aber möglicherweise kürzer als das Ende des Beobachtungszeitraums ist.
gung - Wiedereinsetzung von Monica
Fall B ist nicht für falsche oder kontaminierte Daten. Angenommen, wir möchten den endgültigen Preis einer Mischung aus stillen und offenen Auktionen anhand einiger qualitativer Kriterien (Warentyp, Land, Bietervermögen, ...) schätzen . Für die stillen Auktionen kennen wir nur das erste Gebot (sagen wir 1.000 US-Dollar), aber nicht den endgültigen Preis. Mir wurde gesagt, dass wir die Daten der stillen Auktionen mithilfe einer Form der zensierten Modellierung verwenden können.
Robert Kubrick
1
@gung das ist sicher ein ökonometrischer ansatz, vorausgesetzt wer hat die antwort geschrieben!
Alecos Papadopoulos
1
@RobertKunrick Was Sie beschreiben, stimmt nicht mit Fall B überein. So wie Fall B beschrieben wird, beobachten wir einen Bereich von Werten, und dann erfahren wir, dass einige der beobachteten Werte in Wirklichkeit unmöglich sind. Wie passt das zum Auktionsbeispiel?
Alecos Papadopoulos
Bitte nehmen Sie es nicht als Kritik, @AlecosPapadopoulos. Ich glaube nicht, dass irgendetwas falsch ist. Ich möchte nur darauf hinweisen, dass Begriffe in verschiedenen Bereichen unterschiedlich verwendet werden und dies nicht die Konvention ist, stat / biostat.
gung - Wiedereinsetzung von Monica
2

ZiZi=ziZiaiaiAiAiZZiAiAiZiAiI(ZiA)AAiZiAiZi

[ZiZiai]ZiZi=(Xi,Yi)Yiai={x}×YYYZiai=ZZiZi

Kerl
quelle
1

Es ist wichtig, zensierte und abgeschnittene sowie fehlende Daten zu unterscheiden.

Censoring applies specifically to the issue of survival analysis and time-to-event outcomes wherein the event at hand is assumed to have occurred at some time past the point at which you stopped observing that individual. An example is men-who-have-sex-with-men (MSM) and the risk of incident HIV in a prospective study who move and cease contact with study coordinators.

Truncation applies to a continuous variable that evaluates to a specific point at which the actual value is known to be either greater than or less than that point. An example is the monitoring of subjects with HIV and the development of full blown AIDS, CD4 cell counts falling below 300 are evaluated to the lower-limit-of-detection 300.

Lastly, missing data are data that have actual values that are not observed in any sense. Censored data are not missing time-to-event data nor are they truncated.

AdamO
quelle
1
There's another use of "truncation": to describe a data-generating process where observations above/below cut-offs are unobtainable. A classic example involves counting the no.eggs found in the nests of a particular bird species, where the species can only be identified from the egg; empty nests could be from any species so the no. zeroes is unknown. If the no. eggs follows a Poisson distribution, the egg counts from non-empty nests follow a truncated Poisson. So truncation produces missing data according to a specific well defined mechanism.
Scortchi - Reinstate Monica
1
... Your cell count data are indeed censored according to many people's understanding of the term, which is not restricted to time-to-event measurements, because you know everything about each subject except how far below 300 his cell count is; "truncation" here (alternatively "Winsorization") describes the method of analysis, viz the treatment of values below 300 as if they were equal to 300.
Scortchi - Reinstate Monica
A clear reference on the survival analysis concept of censoring: itl.nist.gov/div898/handbook/apr/section1/apr131.htm.
Eric O Lebigot
-1
  1. Censored: This is a term used to indicate that the period of observation was cut off before the event of interest occurred. So ''censored data'' indicate that the period of a particular event as not or never occurred
Abdulfatah Lawal
quelle
3
Welcome to the site. If this is copied from some source, please cite the source.
gung - Reinstate Monica
3
Censoring applies to much more than time-dependent observations. For instance, chemical concentrations measurements that are below the limit of detection are censored, too.
whuber
@whuber: May I offer a friendly amendment to that observation. The chemical concentrations that fall below the limit of detection are indeed censored, but since they cannot possibly be negative, analyses should consider them as truncated at zero. My own understanding of the truncation-censoring distinction is that truncation applies to the range of parameters that are possible for the underlying distribution.
DWin
@DWin Thank you for that thoughtful clarification. I can only agree with the first point. In the great majority of datasets I have analyzed, though, it was necessary to re-express concentrations as logarithms--and there the distinction disappears. In other datasets where background has been subtracted (such as radiological measurements), there is no definite left endpoint, either. Your second point strikes me as unusual: I have never seen "truncation" used to refer to creating a subset of a distribution family.
whuber