Ein Name: zuerst, möglicherweise eine Mitte und ein Nachname.
Ich bin gespannt, wie viele Informationen Sie aus einem Namen mithilfe öffentlich verfügbarer Datensätze abrufen können. Ich weiß, dass Sie mit US-Volkszählungsdaten mit einer geringen bis hohen Wahrscheinlichkeit (abhängig von der Eingabe) Folgendes erreichen können: 1) Geschlecht. 2) Rennen.
Facebook hat genau das verwendet, um mit angemessener Genauigkeit die rassistische Verteilung der Benutzer ihrer Website herauszufinden (https://www.facebook.com/note.php?note_id=205925658858).
Was kann noch abgebaut werden? Ich suche nichts Bestimmtes, dies ist eine sehr offene Frage, um meine Neugier zu stillen.
Meine Beispiele sind US-spezifisch, daher nehmen wir an, dass der Name der Name einer Person in den USA ist. Aber wenn jemand öffentlich verfügbare Datensätze für andere Länder kennt, bin ich auch mehr als offen für sie.
Ich bin mir nicht ganz sicher, ob dies der richtige Ort dafür ist. Wenn dies nicht der Fall ist, würde ich mich freuen, wenn mich jemand auf einen geeigneteren Ort hinweisen könnte.
Ich hoffe, das ist eine interessante Frage, und das ist der richtige Ort!
Antworten:
Dies ist keine ernsthafte Antwort, aber ich habe mich gerade an etwas aus einem Buch erinnert, das ich vor einem Jahr gelesen habe. In Freakonomics gibt es ein Kapitel darüber , was Sie anhand des Namens über eine Person sagen können. Das Kapitel basiert auf dem Forschungsbericht des Autors Die Ursachen und Folgen von eindeutig schwarzen Namen
Ich glaube, ich habe in diesem Artikel einen Auszug oder eine Zusammenfassung davon gefunden
quelle
Aus dem Vornamen werden Region, Alter und Immigrantenstatus der ersten Generation vorhergesagt. Aus dem Nachnamen können Sie den geografischen Standort des ursprünglichen Patronyms vorhersagen. Für den vollständigen Namen können Sie den sozialen und wirtschaftlichen Status vorhersagen (Thurston Howell III).
quelle
Eine weitere der größten Quellen für Familiendaten ist die Reihe von Genealogie-Sites. Ich denke, die meisten westlichen Menschen werden wahrscheinlich von einem entfernten oder sonstigen Familienmitglied in einigen von ihnen aufgeführt, und jede solche Aufnahme wird mit einem normalerweise umfassenden Stammbaum versehen, der Orte, Geburtsdaten usw. enthält. Sehr informativ.
Wenn Sie diese Daten mit Freundesdiagrammen in Facebook abgleichen, da die Leute dazu neigen, Geschwister / Cousins (und gelegentlich Eltern / Kinder) hinzuzufügen, und dann die Standortdaten mit Wahlrollen und Verzeichnissen verwenden, können Sie Personen in der Regel sogar mit gebräuchlichen Namen identifizieren. und erhalten eine überraschend große Menge an Daten über sie.
quelle
Das letzte Kapitel von Freakonomics (2005, Steven D. Levitt und Stephen J. Dubner) enthält eine faszinierende Diskussion über Namen, insbesondere in Bezug auf den sozioökonomischen Status und die Rasse.
Sie haben eine Liste von Vornamen, die möglicherweise gut mit der Analyse der Nachnamen durch FB korrelieren oder nicht. Sie beschreiben auch, wie sich die Namenswahl diachron (im Laufe der Zeit) ändert.
Wer weiß - der Auswahlname der Eltern ist möglicherweise genauer als das, was die Leute über die Volkszählung berichten.
quelle
Sie haben oben viele gute Vorschläge, daher erwähne ich nur eine interessante Anekdote. Ein Sommerstudent (heute ein bekannter Informatiker) in einem Unternehmensforschungslabor (das namenlos bleiben soll) untersuchte die Daten aus dem Online-Telefonverzeichnis des Unternehmens und erstellte ein Vorhersagemodell für die Gehaltsstufe unter Verwendung von Zeichen n-Gramm aus Namen. Der stärkste Prädiktor war, dass ez_ eine niedrigere Gehaltsstufe anzeigte, ein Ergebnis, von dem ich glaube, dass er nicht ermutigt wurde, darüber zu sprechen ...
quelle
Sie könnten wahrscheinlich herausfinden:
Was übrigens bedeutet, dass Sie niemals etwas aus der obigen Liste für Ihre Passwörter, geheimen Fragen usw. verwenden sollten.
quelle
Darden und Robinson (1976) versuchten, eine sprachliche Struktur zu finden, die die Assoziationen der Menschen über die Vornamen der Männer lenkt. Sie baten zwei Gruppen von Fächern (Soziologiestudenten und Marineoffiziere), eine Reihe gebräuchlicher amerikanischer Namen anhand semantischer Unterschiede wie weich-zäh, gemein-edel und Stadt-Land zu bewerten. Sie fragten auch nach Ähnlichkeitsurteilen zwischen den verschiedenen Namenspaaren und korrelierten zur Validierung die Mittelwerte aus den semantischen Differentialen mit den Dimensionen, die sie sowohl in Drei- als auch in Vier-D-Lösungen unter Verwendung des TORSCA-MDS-Verfahrens fanden.
Die Autoren fanden heraus, dass ihre 3-D-Lösung in etwa dem klassischen Trio von Aktivierung, Bewertung und Wirksamkeit von Osgood entspricht. In vier Dimensionen passte der Raum etwas besser zu den Daten, und hier interpretierten sie die Struktur als abhängig von „Charakter“, „Reife“, „Geselligkeit“ und „Männlichkeit“, obwohl diese Skalen nicht annähernd so gut definiert zu sein scheinen wie die Autoren vorgeschlagen. Ein überraschender Befund aus der Studie war, dass zumindest für diese beiden kleinen Stichproben (n = 83 und 21) keine Dimension auftrat, die der Unterscheidung zwischen Vorname und Spitzname entsprach.
Darden, DK und Robinson, IE (1976). Mehrdimensionale Skalierung der Vornamen von Männern: Ein soziolinguistischer Ansatz. Sociometry, 39 , 4, 422 & ndash; 431.
quelle
Die Menge an Informationen, die gefunden werden kann, variiert stark, von Rasse und Geschlecht bis zu allen Arten von persönlichen Informationen. Ihre beste Wahl, um die Informationen zu erhalten, sind Websites sozialer Netzwerke wie Facebook, da diese im Allgemeinen mehr Informationen liefern als Cencus-Datenbanken.
quelle
Abhängig von den verwendeten Quellen können Sie eine Vielzahl von Informationen erhalten. Volkszählungsdaten sind offensichtlich. Sie können auch Informationen von Facebook, MySpace und anderen sozialen Netzwerken erhalten. Sie könnten wahrscheinlich auch öffentliche Nachrichtenarchive nach Erwähnungen ihres Namens durchsuchen. Vielleicht sogar die ungeklärten Grundstücke, die einige Staaten haben.
Wenn Sie ein Beispiel aus der Praxis sehen möchten, was getan werden kann, besuchen Sie pipl.com
quelle
Sie können nach Abschlüssen, Führerschein und Polizeiaufzeichnungen suchen (ist es die richtige Übersetzung?). Bei Facebook finden Sie Informationen zu Hobbys, Sport und Musik. Sie können auch nach dem Social-Media-Anteil anderer Benutzer mit einem bestimmten Namen suchen. (Ich würde mich für diese Ergebnisse interessieren)
quelle
Vergessen Sie nicht die Scrabble-Scores, z. B. die Scrabble-Score-Funktion von Wolfram Alpha
quelle
Wenn Sie etwas über den Standort der Person wissen, sind Wählerregistrierungsdatenbanken eine Informationsquelle. Viele der Wählerregistrierungsdatenbanken sind verfügbar (gegen Gebühr; es gibt Unternehmen, die sie kaufen und gegen eine Gebühr Online-Abfragezugriff auf sie gewähren). Die Wählerregistrierungsdatenbank enthält möglicherweise die Adresse und / oder das Geburtsdatum der Person. Mit diesen Informationen können Sie die Person möglicherweise in anderen Datenbanken nachschlagen.
Es gibt jedoch Grenzen, wie viel dies hilft. Dies kann hilfreich sein, wenn Sie die Stadt oder den Landkreis kennen, in der die Person lebt, und wenn ihr Name ziemlich ungewöhnlich ist. Aber wenn dies ein gebräuchlicher Name ist oder Sie nicht wissen, wo sie leben, wird es Ihnen wahrscheinlich nicht helfen.
quelle
Eine der größten Quellen für öffentlich zugängliche Daten, einschließlich vieler anderer nützlicher Attribute, ist das Büro der Bezirksschreiber für Aufzeichnungen über Eigentumsrechte. Das Problem bezieht sich auf das Zusammenführen aller Daten. Einige Staaten stellen eine zentrale Datenbank bereit, andere jedoch nicht.
quelle
Das Vorhandensein von mittleren Initialen ist bereits sehr interessant und könnte uns etwas über die ethnische Zugehörigkeit erzählen. http://blog.scraperwiki.com/2012/06/15/middle-names-in-the-united-states-over-time/
quelle