Ich habe verschiedene Beschreibungen von zensierten Daten gelesen:
A) Wie in diesem Thread erläutert , werden nicht quantifizierte Daten unterhalb oder oberhalb eines bestimmten Schwellenwerts zensiert. Nicht quantifiziert bedeutet, dass die Daten einen bestimmten Schwellenwert überschreiten oder unterschreiten, der genaue Wert ist uns jedoch nicht bekannt. Die Daten werden dann im Regressionsmodell mit dem unteren oder oberen Schwellenwert markiert . Es stimmt mit der Beschreibung in dieser Präsentation überein , die ich sehr deutlich gefunden habe (2. Folie auf der ersten Seite). Mit anderen Worten : ist entweder auf ein Minimum gekappt, einen Maximalwert oder beide , weil wir nicht wissen , den wahren Wert außerhalb dieses Bereichs.
B) Ein Freund sagte mir, dass wir ein zensiertes Datenmodell auf teilweise unbekannte Beobachtungen anwenden können , vorausgesetzt, wir haben zumindest einige Grenzwerte für die unbekannten -Ergebnisse. Zum Beispiel möchten wir den Endpreis für eine Mischung aus stillen und offenen Auktionen anhand einiger qualitativer Kriterien (Warentyp, Land, Bietervermögen usw.) schätzen. Während wir für die offenen Auktionen alle Endpreise , kennen wir für die stillen Auktionen nur das erste Gebot (sagen wir 1.000 USD), aber nicht den Endpreis. Mir wurde gesagt, dass in diesem Fall Daten von oben zensiert werden und ein zensiertes Regressionsmodell angewendet werden sollte.
C) Schließlich gibt es die von der Wikipedia gegebene Definition, wo insgesamt fehlt, die Prädiktoren jedoch verfügbar sind. Ich bin nicht sicher, wie sich dieses Beispiel von abgeschnittenen Daten unterscheidet.
Was genau sind zensierte Daten?
quelle
Antworten:
Betrachten Sie die folgenden Daten zu einem Ergebnis und einer Kovariate x :y x
Für Benutzer 1 liegen uns die vollständigen Daten vor. Für alle anderen haben wir unvollständige Daten. Benutzer 2, 3 und 4 werden alle zensiert: Das Ergebnis, das bekannten Werten der Kovariate entspricht, wird nicht oder nicht genau beobachtet (links-, rechts- und intervallzensiert). Manchmal ist dies ein Artefakt von Datenschutzaspekten beim Umfragedesign. In anderen Fällen geschieht dies aus anderen Gründen. Beispielsweise beobachten wir keine Löhne unterhalb des Mindestlohns oder der tatsächlichen Nachfrage nach Konzertkarten oberhalb der Kapazität der Arena.
Benutzer 5 wird abgeschnitten: Sowohl das Ergebnis als auch die Kovariate fehlen. Dies geschieht normalerweise, weil wir nur Daten über Personen sammeln, die etwas getan haben. Zum Beispiel befragen wir nur Leute, die etwas gekauft haben ( ), also schließen wir alle mit y = 0 zusammen mit ihren x aus . Wir haben möglicherweise nicht einmal eine Zeile für diesen Benutzertyp in unseren Daten, obwohl wir wissen, dass sie vorhanden sind, da wir die Regel kennen, die zum Generieren unserer Stichprobe verwendet wurde. Ein weiteres Beispiel ist die zufällige Kürzung: Wir beobachten Lohnangebote nur für Personen, die in der Belegschaft beschäftigt sind, da wir davon ausgehen, dass das Lohnangebot der Lohn ist, den Sie bei der Arbeit haben. Die Kürzung ist zufällig, da sie nicht von y abhängty>0 y=0 x y , aber auf einer anderen Variablen.
Kurz gesagt, bedeutet das Abschneiden einen größeren Informationsverlust als das Zensieren (Punkte A und B). Beide Arten von "Fehlen" sind systematisch.
Das Arbeiten mit dieser Art von Daten erfordert normalerweise eine starke Verteilungsannahme über den Fehler und das Ändern der Wahrscheinlichkeit, dies zu berücksichtigen. Möglich sind auch flexiblere semiparametrische Ansätze. Dies ist in Ihrem Punkt B implizit.
quelle
Beschreibend würde ich anbieten, "eine Datenprobe wird zensiert, wenn einige Beobachtungen darin die Extremwerte der Probe annehmen oder darstellen, aber ihr wahrer Wert außerhalb des beobachteten Probenbereichs liegt". Dies ist jedoch täuschend einfach.
Lassen Sie uns zunächst diskutieren, wie wir zu dem Schluss kommen können, dass ein Datensatz zensiert wird, was uns natürlich dazu veranlasst, die in der Frage dargestellten Fälle zu diskutieren.
Angenommen, wir erhalten den folgenden Datensatz aus einer diskreten Zufallsvariablen , von der wir nur wissen, dass sie nicht negativ ist:X
Können wir sagen, dass der Datensatz zensiert ist? Nun, wir sind berechtigt zu glauben, dass dies der Fall sein könnte, aber das muss nicht so sein:
1) kann den Bereich { 0 , 1 habenX und eine Wahrscheinlichkeitsverteilung { 0,1 , 0,1 , 0,8 } haben . Wenn dies tatsächlich der Fall ist, scheint es hier keine Zensur zu geben, sondern nur eine "vorweggenommene" Stichprobe aus einer solchen Zufallsvariablen mit begrenzter Unterstützung und stark asymmetrischer Verteilung. {0,1,2} {0.1,0.1,0.8}
2) , aber es kann der Fall sein , dass den Bereich hat { 0 , 1 , . . . , 9 } mit einheitlicher Wahrscheinlichkeitsverteilung { 0,1 , 0,1 , . . .0 .1 } . In diesem Fall wird unser Datenmuster höchstwahrscheinlich zensiert.X {0,1,...,9} {0.1,0.1,...0.1}
Wie können wir es sagen? Wir können nicht, es sei denn, wir verfügen über Vorkenntnisse oder Informationen , die es uns erlauben, für den einen oder anderen Fall zu argumentieren. Stellen die drei in der Frage vorgestellten Fälle Vorkenntnisse zur Wirkung der Zensur dar? Mal sehen:
Fall A) beschreibt eine Situation, in der wir für einige Beobachtungen nur qualitative Informationen wie "sehr groß", "sehr klein" usw. haben, was uns dazu veranlasst, der Beobachtung einen Extremwert zuzuweisen. Es ist zu beachten, dass die bloße Nichtkenntnis des tatsächlich realisierten Werts nicht die Zuweisung eines Extremwerts rechtfertigt. Wir müssen also einige Informationen darüber haben, dass für diese Beobachtungen deren Wert alle beobachteten Werte über- oder unterschreitet. In diesem Fall ist der tatsächliche Bereich der Zufallsvariablen unbekannt, aber unsere qualitativen Informationen ermöglichen es uns , eine zensierte Stichprobe zu erstellen (es ist eine weitere Diskussion darüber, warum wir nicht einfach die Beobachtungen fallen lassen, für die wir nicht den tatsächlich realisierten Wert besitzen ).
Fall B) ist , wenn ich es richtig verstehe, keine Zensur, sondern ein Fall von kontaminierter Probe: Unsere A-priori-Information besagt, dass der Maximalwert der Zufallsvariablen nicht überschreiten darf (etwa aufgrund eines physikalischen Gesetzes oder a) Sozialgesetz - vorausgesetzt, es handelt sich um Noten aus einem Bewertungssystem, das nur die Werte 1 , 2 , 3 verwendet . Wir haben aber auch den Wert 4 und den Wert 5 beobachtet . Wie kann das sein? Fehler bei der Aufzeichnung der Daten. Aber in einem solchen Fall wissen wir nicht sicher, dass die 4 und 5 alle 3 sein sollten3 1,2,3 4 5 4 5 3 's beobachtet (tatsächlich ist es bei Betrachtung der seitlichen Tastatur eines Computers wahrscheinlicher, dass die ' s 1 's und die 5 ' s 2 sind4 1 5 2 ‚s!). Durch "Korrigieren" der Stichprobe auf irgendeine Weise machen wir sie nicht zu einer zensierten, da die Zufallsvariable in erster Linie nicht in dem aufgezeichneten Bereich liegen soll (den Werten und 5 sind also keine wahren Wahrscheinlichkeiten zugeordnet) ). 4 5
Fall C) bezieht sich auf eine gemeinsame Stichprobe, bei der wir eine abhängige Variable und Prädiktoren haben. Hier haben wir vielleicht eine Stichprobe, bei der sich die Werte der abhängigen Variablen aufgrund der Struktur des untersuchten Phänomens auf eines oder beide Extreme konzentrieren: In dem üblichen Beispiel "geleistete Arbeitsstunden" arbeiten Arbeitslose nicht, aber sie würden es tun gearbeitet (Überlegen Sie genau: Fällt dieser Fall wirklich unter die deskriptive "Definition" am Anfang dieser Antwort?). Wenn Sie sie also in die Regression mit den aufgezeichneten Stunden "Null" einbeziehen, entsteht eine Verzerrung. Im anderen Extremfall kann behauptet werden, dass die Höchstzahl der geleisteten Arbeitsstunden erreicht werden kann, z. B.16 / Tag, und es kann Mitarbeiter geben, die bereit wären, so viele für eine bestimmte Bezahlung zu arbeiten. Die gesetzlichen Rahmenbedingungen lassen dies jedoch nicht zu, so dass wir solche "geleisteten Arbeitsstunden" nicht einhalten. Hier versuchen wir, die " beabsichtigte Arbeitskräfteangebotsfunktion" zu schätzen, und in Bezug auf diese Variable wird die Stichprobe als zensiert charakterisiert.
Wenn wir jedoch erklären würden, dass wir die "Funktion des Arbeitskräfteangebots angesichts des Phänomens der Arbeitslosigkeit und des rechtlichen Rahmens" abschätzen wollen, würde die Stichprobe nicht zensiert, da sie die Auswirkungen dieser beiden Aspekte widerspiegeln würde, die wir wollen es zu tun.
Wir sehen also, dass eine Datenprobe als zensiert charakterisiert wird
a) aus verschiedenen Situationen und kommt
b) erfordert eine gewisse Sorgfalt
-LET allein die Tatsache , dass es mit dem Fall verwechselt werden kann Abschneiden .
quelle
quelle
Es ist wichtig, zensierte und abgeschnittene sowie fehlende Daten zu unterscheiden.
Censoring applies specifically to the issue of survival analysis and time-to-event outcomes wherein the event at hand is assumed to have occurred at some time past the point at which you stopped observing that individual. An example is men-who-have-sex-with-men (MSM) and the risk of incident HIV in a prospective study who move and cease contact with study coordinators.
Truncation applies to a continuous variable that evaluates to a specific point at which the actual value is known to be either greater than or less than that point. An example is the monitoring of subjects with HIV and the development of full blown AIDS, CD4 cell counts falling below 300 are evaluated to the lower-limit-of-detection 300.
Lastly, missing data are data that have actual values that are not observed in any sense. Censored data are not missing time-to-event data nor are they truncated.
quelle
quelle