Was ist der Unterschied zwischen Zensur und Kürzung?

30

In dem Buch Statistische Modelle und Methoden für Lebensdauerdaten heißt es:

Zensieren: Wenn eine Beobachtung aufgrund einer zufälligen Ursache unvollständig ist.
Trunkierung: Wenn die Unvollständigkeit der Beobachtung auf einen systematischen Auswahlprozess zurückzuführen ist, der dem Studiendesign eigen ist.

Was bedeutet "systematischer Auswahlprozess, der dem Studiendesign inhärent ist" in der Definition der Kürzung?

Was ist der Unterschied zwischen Zensur und Kürzung?

ABC
quelle
3
Schauen Sie sich die Antwort hier an .
Dimitriy V. Masterov
3
Zensur: "Wir haben irgendwo eine Beobachtung in dieser Region gemacht, aber wir wissen nicht, was es ist." Trunkierung: "Beobachtung? Welche Beobachtung?"
Glen_b
Woher stammen Ihre Definitionen?
Glen_b -Reinstate Monica
1
@ Glen_b Ich habe meine Frage bearbeitet.
ABC

Antworten:

57

Die Definitionen variieren und die beiden Begriffe werden manchmal synonym verwendet. Ich werde versuchen, die häufigsten Verwendungen anhand des folgenden Datensatzes zu erklären:

11.25245

Zensur : Einige Beobachtungen werden zensiert, was bedeutet, dass wir nur wissen, dass sie unter (oder über) einigen Grenzen liegen. Dies kann beispielsweise auftreten, wenn wir die Konzentration einer Chemikalie in einer Wasserprobe messen. Wenn die Konzentration zu niedrig ist, kann das Laborgerät das Vorhandensein der Chemikalie nicht erkennen. Es kann jedoch noch vorhanden sein, sodass wir nur wissen, dass die Konzentration unter der Nachweisgrenze des Labors liegt.

<1.5<1.5245,

Abschneiden : Der Prozess, der die Daten generiert, ist so, dass nur Ergebnisse oberhalb (oder unterhalb) der Abschneidegrenze beobachtet werden können. Dies kann beispielsweise der Fall sein, wenn Messungen mit einem Detektor durchgeführt werden, der nur aktiviert wird, wenn die von ihm erfassten Signale einen bestimmten Grenzwert überschreiten. Es kann viele schwache eingehende Signale geben, aber wir können mit diesem Detektor niemals feststellen, ob es sich um einen Detektor handelt.

245
MånsT
quelle
Bei dieser Verwendung der Begriffe ist "zensiert" also irreführend, wenn wir über die nichttechnischen Verwendungen des Wortes nachdenken? dh in diesem statistischen Sinne bedeutet es etwas wie "vage" oder "nur dafür bekannt, dass es in einem bestimmten Bereich liegt", und nicht in einem nichttechnischen Sinne - dh unterdrückt oder entfernt, wie wenn ein Buch aus dem Handel genommen wird, weil von seinem Inhalt.
Mars
3
Als konkretes Beispiel für Kürzungen hören Autoversicherungen nie von Unfällen, bei denen der Schaden geringer ist als der Selbstbehalt, weil die Leute dort nicht melden. Dies ist Linksabschneidung; Wir sehen niemals Daten zu diesen Vorfällen. Als Beispiel für die richtige Zensur: Wenn ein kranker Patient beschließt, nicht mehr zum Arzt zu gehen oder in eine andere Stadt zu ziehen, ist nur bekannt, dass er am Tag seiner Abreise noch am Leben war, aber wir wissen nicht, wann er gestorben ist .
David White
@Mars: Ich bin damit einverstanden, dass es sich aus der modernen, nicht-technischen Verwendung, in der "Zensur" alle Spuren entfernt und "Abschneiden" Details entfernt, rückwärts anhört. In der Statistik wird "Zensur" jedoch in einem eher altmodischen, nichttechnischen Sinn verwendet, bei dem ein Zensor Spuren von etwas entfernen, aber nicht beseitigen kann: schwarze Kästchen oder Unschärfen, die über anstößigen Teilen eines Fotos oder Videos platziert sind, Pieptöne, die die Profanität verdecken im Radio oder in Briefen von Soldaten an die Heimat oder in geheimen Dokumenten, in denen die zensierten (moderneren Begriffe "redigiert") Teile abgedunkelt sind.
Wayne
Stellen Sie sich vor, ich messe die Zeitspanne zwischen zwei Arten von Ereignisereignissen. Aber ich kann nur ein Jahr lang ein Ereignis aufzeichnen. Wird die Zeit zensiert oder verkürzt?
skan
4

Genau wie aus einer anderen Perspektive (Programmierung), sind Zensieren und Abschneiden zwei verschiedene Operationen.

Wenn ich mit einem vertraulichen Datensatz arbeite, zum Beispiel Sozialversicherungsnummern und Telefonnummern, kann ich ihn zensieren oder zensieren lassen, bevor der Zugriff gewährt wird:

123-12-1234 => 999-99-9999
567-56-5678 => 999-99-9999
(906) 123-4567 => (000) 000-0000

Auf diese Weise kann der Rest der Anwendung wie gewohnt mit ähnlichen Datenstrukturen arbeiten, jedoch ohne echten Informationsgehalt oder ohne die Weitergabe privater Informationen.

Beim Abschneiden hingegen werden die verbleibenden Werte nach einem bestimmten Punkt abgeschnitten. Um an einer Anwendung zu arbeiten, benötige ich nicht hunderttausende von Datensätzen, sondern nur jeweils ~ 50, wodurch der Datenzugriff viel schneller und die Datensätze kleiner werden.

Eine ähnliche Variante der Kürzung ist das Einfügen eines Werts in eine Spalte oder einen Datentyp mit begrenzter Länge oder Genauigkeit:

abcdefghijklmnopqrstuv => abcdef
10.23412421345 => 10.23
10.92455311 => 10
Ehryk
quelle
1
+1 Es ist wichtig zu wissen, dass Zensur und Kürzung außerhalb der Statistik völlig unterschiedliche Bedeutungen haben können!
MånsT