Kennt jemand eine gute Datenanonymisierungssoftware? Oder vielleicht ein Paket für R, das Daten anonymisiert? Offensichtlich erwarten Sie keine unknackbare Anonymisierung - Sie möchten es nur schwierig machen.
Warnung: Beachten Sie, dass es sehr schwierig sein kann, Daten so zu anonymisieren, dass eine erneute Identifizierung (De-Anonymisierung) verhindert wird, ohne dass ein großer Teil des Werts der Daten verloren geht. Dies ist keine Situation, in der Sie einfach ein Stück Software darauf werfen können, ohne darüber nachzudenken. Der Schutz der Anonymität der Menschen erfordert sorgfältige Überlegungen. In diesem Artikel erfahren Sie beispielsweise, warum dies nicht trivial ist.
Ein Beispiel für eine warnende Geschichte ist die Netflix-Herausforderung, bei der ein scheinbar anonymisierter Datensatz tatsächlich mit der Identität von Netflix-Benutzern verknüpft wurde - oder die Veröffentlichung anonymisierter AOL-Suchdatensätze, mit denen viele (von Forschern entdeckte) immer noch in Verbindung gebracht werden könnten Individuen durch differenziertere Analyse. Ein anderes Beispiel stammt aus Massachusetts, wo eine Krankenkasse Daten zu allen staatlichen Mitarbeitern veröffentlichte, nachdem sie diese anonymisiert hatte, indem sie Namen, Adressen, SSNs usw. entfernte. Ein Datenschutzforscher entdeckte jedoch, dass es immer noch möglich war, Personen neu zu identifizierenAls Demonstration wurde gezeigt, wie die Gesundheitsakten des Gouverneurs identifiziert werden können. Später zeigte sie beispielsweise, dass die meisten Menschen nur anhand ihrer Postleitzahl (oder ihres Zensus-Trakts), ihres Geburtsdatums und ihres Geschlechts eindeutig identifiziert werden können. Es handelte sich um Geschichten von Personen, die Daten sorgfältig anonymisierten. Sie dachten, sie hätten gute Arbeit bei der Anonymisierung geleistet und wussten einfach nicht, wie schwierig dieses Problem ist. Diese warnenden Geschichten sollten Ihnen Pause geben.
Aus diesen Gründen rate ich Ihnen davon ab, Ihren Datensatz selbst zu anonymisieren, wenn Sie keine Vorkenntnisse in diesem Bereich haben.
Wichtig: Die zur Anonymisierung der Daten erforderlichen Techniken hängen wahrscheinlich stark von der Art der Daten und der Anwendungsdomäne ab, in der Sie arbeiten. Leider haben Sie diese Informationen nicht angegeben. Infolgedessen ist es fast unmöglich, Ihnen gute Ratschläge zur Anonymisierung Ihres Datensatzes zu geben.
Ich kann mir vorstellen, dass es verlockend ist, diese Antwort als nicht hilfreich anzusehen, denn anstatt zu sagen: "Sei glücklich, mach dir keine Sorgen, wirf einfach dieses magische Stück Software auf deine Daten und du musst nicht denken", sage ich. warte, das ist schwieriger als es auf den ersten Blick erscheint, sei vorsichtig ". Mir ist klar, dass diese Botschaft vielleicht nicht sehr beliebt ist, aber ich denke, das ist eine Botschaft, die die Leute hören müssen.
Ein Ansatz wäre die Verwendung von Bloom-Filtern. Auf der SAFELINK- Projektwebsite finden Sie Programme in Java und Python. Die Erklärungsmethode finden Sie hier .
Es gibt auch einen interessanten Ansatz zur Anaonymisierung von Zeichenfolgen im Zusammenhang mit der Datensatzverknüpfung unter Verwendung von n-Gramm, der von der ANU Data Mining Group entwickelt wurde . Das Papier mit Beschreibung und Beispiel-Python-Code finden Sie hier .
Antworten:
Das Cornell Anonymization Tookit ist Open Source. Ihre Forschungsseite enthält Links zu zugehörigen Veröffentlichungen.
quelle
Warnung: Beachten Sie, dass es sehr schwierig sein kann, Daten so zu anonymisieren, dass eine erneute Identifizierung (De-Anonymisierung) verhindert wird, ohne dass ein großer Teil des Werts der Daten verloren geht. Dies ist keine Situation, in der Sie einfach ein Stück Software darauf werfen können, ohne darüber nachzudenken. Der Schutz der Anonymität der Menschen erfordert sorgfältige Überlegungen. In diesem Artikel erfahren Sie beispielsweise, warum dies nicht trivial ist.
Ein Beispiel für eine warnende Geschichte ist die Netflix-Herausforderung, bei der ein scheinbar anonymisierter Datensatz tatsächlich mit der Identität von Netflix-Benutzern verknüpft wurde - oder die Veröffentlichung anonymisierter AOL-Suchdatensätze, mit denen viele (von Forschern entdeckte) immer noch in Verbindung gebracht werden könnten Individuen durch differenziertere Analyse. Ein anderes Beispiel stammt aus Massachusetts, wo eine Krankenkasse Daten zu allen staatlichen Mitarbeitern veröffentlichte, nachdem sie diese anonymisiert hatte, indem sie Namen, Adressen, SSNs usw. entfernte. Ein Datenschutzforscher entdeckte jedoch, dass es immer noch möglich war, Personen neu zu identifizierenAls Demonstration wurde gezeigt, wie die Gesundheitsakten des Gouverneurs identifiziert werden können. Später zeigte sie beispielsweise, dass die meisten Menschen nur anhand ihrer Postleitzahl (oder ihres Zensus-Trakts), ihres Geburtsdatums und ihres Geschlechts eindeutig identifiziert werden können. Es handelte sich um Geschichten von Personen, die Daten sorgfältig anonymisierten. Sie dachten, sie hätten gute Arbeit bei der Anonymisierung geleistet und wussten einfach nicht, wie schwierig dieses Problem ist. Diese warnenden Geschichten sollten Ihnen Pause geben.
Aus diesen Gründen rate ich Ihnen davon ab, Ihren Datensatz selbst zu anonymisieren, wenn Sie keine Vorkenntnisse in diesem Bereich haben.
Wichtig: Die zur Anonymisierung der Daten erforderlichen Techniken hängen wahrscheinlich stark von der Art der Daten und der Anwendungsdomäne ab, in der Sie arbeiten. Leider haben Sie diese Informationen nicht angegeben. Infolgedessen ist es fast unmöglich, Ihnen gute Ratschläge zur Anonymisierung Ihres Datensatzes zu geben.
Ich kann mir vorstellen, dass es verlockend ist, diese Antwort als nicht hilfreich anzusehen, denn anstatt zu sagen: "Sei glücklich, mach dir keine Sorgen, wirf einfach dieses magische Stück Software auf deine Daten und du musst nicht denken", sage ich. warte, das ist schwieriger als es auf den ersten Blick erscheint, sei vorsichtig ". Mir ist klar, dass diese Botschaft vielleicht nicht sehr beliebt ist, aber ich denke, das ist eine Botschaft, die die Leute hören müssen.
quelle
Schauen Sie sich das sdcMicro- Paket auf CRAN an. Einer der Autoren hat einen Artikel verfasst , der auch über die enthaltene Vignette hinausgeht.
quelle
Ein Ansatz wäre die Verwendung von Bloom-Filtern. Auf der SAFELINK- Projektwebsite finden Sie Programme in Java und Python. Die Erklärungsmethode finden Sie hier .
Es gibt auch einen interessanten Ansatz zur Anaonymisierung von Zeichenfolgen im Zusammenhang mit der Datensatzverknüpfung unter Verwendung von n-Gramm, der von der ANU Data Mining Group entwickelt wurde . Das Papier mit Beschreibung und Beispiel-Python-Code finden Sie hier .
quelle