In dem Buch Statistische Modelle und Methoden für Lebensdauerdaten heißt es:
Zensieren: Wenn eine Beobachtung aufgrund einer zufälligen Ursache unvollständig ist.
Trunkierung: Wenn die Unvollständigkeit der Beobachtung auf einen systematischen Auswahlprozess zurückzuführen ist, der dem Studiendesign eigen ist.
Was bedeutet "systematischer Auswahlprozess, der dem Studiendesign inhärent ist" in der Definition der Kürzung?
Was ist der Unterschied zwischen Zensur und Kürzung?
Antworten:
Die Definitionen variieren und die beiden Begriffe werden manchmal synonym verwendet. Ich werde versuchen, die häufigsten Verwendungen anhand des folgenden Datensatzes zu erklären:
Zensur : Einige Beobachtungen werden zensiert, was bedeutet, dass wir nur wissen, dass sie unter (oder über) einigen Grenzen liegen. Dies kann beispielsweise auftreten, wenn wir die Konzentration einer Chemikalie in einer Wasserprobe messen. Wenn die Konzentration zu niedrig ist, kann das Laborgerät das Vorhandensein der Chemikalie nicht erkennen. Es kann jedoch noch vorhanden sein, sodass wir nur wissen, dass die Konzentration unter der Nachweisgrenze des Labors liegt.
Abschneiden : Der Prozess, der die Daten generiert, ist so, dass nur Ergebnisse oberhalb (oder unterhalb) der Abschneidegrenze beobachtet werden können. Dies kann beispielsweise der Fall sein, wenn Messungen mit einem Detektor durchgeführt werden, der nur aktiviert wird, wenn die von ihm erfassten Signale einen bestimmten Grenzwert überschreiten. Es kann viele schwache eingehende Signale geben, aber wir können mit diesem Detektor niemals feststellen, ob es sich um einen Detektor handelt.
quelle
Genau wie aus einer anderen Perspektive (Programmierung), sind Zensieren und Abschneiden zwei verschiedene Operationen.
Wenn ich mit einem vertraulichen Datensatz arbeite, zum Beispiel Sozialversicherungsnummern und Telefonnummern, kann ich ihn zensieren oder zensieren lassen, bevor der Zugriff gewährt wird:
Auf diese Weise kann der Rest der Anwendung wie gewohnt mit ähnlichen Datenstrukturen arbeiten, jedoch ohne echten Informationsgehalt oder ohne die Weitergabe privater Informationen.
Beim Abschneiden hingegen werden die verbleibenden Werte nach einem bestimmten Punkt abgeschnitten. Um an einer Anwendung zu arbeiten, benötige ich nicht hunderttausende von Datensätzen, sondern nur jeweils ~ 50, wodurch der Datenzugriff viel schneller und die Datensätze kleiner werden.
Eine ähnliche Variante der Kürzung ist das Einfügen eines Werts in eine Spalte oder einen Datentyp mit begrenzter Länge oder Genauigkeit:
quelle