Ich arbeite an einem Projekt, in dem Kommilitonen gebeten werden, ihre ursprünglichen Textdaten zur weiteren Analyse mithilfe von Data Mining-Techniken weiterzugeben. Ich halte es für angemessen, die Namen der Schüler mit ihren Einsendungen zu anonymisieren.
Abgesehen von den besseren Lösungen einer URL, bei der die Schüler ihre Arbeit einreichen und ein Backend-Skript die anonymisierte ID einfügt. Welche Art von Lösungen könnte ich den Schülern anweisen, diese selbst zu implementieren, um ihre eigenen Namen zu anonymisieren?
Ich bin immer noch ein Noob in diesem Bereich. Ich weiß nicht, was die Normen sind. Ich dachte, die Lösung könnte ein Hashing-Algorithmus sein. Das klingt nach einer besseren Lösung, als sich einen falschen Namen auszudenken, da zwei Personen denselben falschen Namen auswählen könnten. Mögliche Personen könnten denselben falschen Namen auswählen. Was sind einige der Bedenken, die ich beachten sollte?
Antworten:
Ich vermutete, dass Sie die Namen als Bezeichner verwendeten. Du solltest nicht; Sie sind nicht einzigartig und werfen dieses Datenschutzproblem auf. Verwenden Sie stattdessen die Schülernummern, die Sie anhand ihrer IDs überprüfen können und die in Hash-Form gespeichert sind. Verwenden Sie den Nachnamen des Schülers als Salz (bilden Sie die zu hashende Zeichenfolge durch Verketten der ID-Nummer und des Nachnamens).
quelle
Eine Standardpraxis in der Psychologie (bei der Sie Teilnehmer codieren möchten, um verschiedene Messungen miteinander zu verknüpfen) besteht darin, dass die Teilnehmer die Initialen und das Geburtsdatum des Mädchennamens ihrer Mutter auswählen, z. B. im Format XX-JJMMTT.
Dies kann natürlich zu Konflikten führen. Andererseits glaube ich nicht, dass es einen todsicheren konfliktfreien Anonymisierungsalgorithmus gibt, den Ihre Schüler tun könnten, ohne alle anderen Schüler zu kennen . Die Namen und Geburtsdaten der Mütter könnten identisch sein, die eigenen Geburtsdaten könnten identisch sein, die Schuhgrößen könnten sein, Lieblings-Superhelden-Charaktere ... Das einzige, woran ich denken könnte, wären (US-) Sozialversicherungsnummern, aber das wollen Sie wirklich nicht benutze sie .
Fazit: Anonymisieren im Backend. Oder überlegen Sie , wie @Emre vorschlägt , ob Sie überhaupt eine Kennung benötigen. Vielleicht reicht der DB-generierte Index?
quelle