Ich versuche, einige meiner Daten zu analysieren, aber meine Daten weisen viele Inkonsistenzen auf.
Ich habe eine SQL-Tabelle, die ich analysieren möchte.
Die Tabelle ist eine Tabelle von Universitäten mit folgender Struktur: name:string, city:string, state:string, country:string
Name ist immer vorhanden, jedoch können Stadt, Bundesland, Land fehlen. Mein Hauptproblem ist, dass es eine Menge Tippfehler und unterschiedliche Ablehnungen eines Universitätsnamens gibt. Zum Beispiel hier die Deklination der Standford Unversity, die ich finde, wenn ich das tue SELECT "universities".* FROM "perm_universities" WHERE (name like '%stanford%')
:
stanford university - stanford - ca - united states of america
the leland stanford junior university - stanford - ca - united states of america
leland stanford jr. university - stanford - ca - united states of america
stanford university graduate school of business - stanford - ca - united states of america
the leland stanford junior university (stanford university) - stanford - ca - united states of america
leland stanford junior university - stanford - ca - united states of america
stanford university - stanford - -
leland stanford jr. university, graduate school of business - stanford - ca - united states of america
stanford law school - stanford - ca - united states of america
stanford - stanford - ca - united states of america
stanford university, graduate school of business - stanford - ca - united states of america
stanford graduate school of business - stanford - ca - united states of america
stanford univerity - stanford - ca - united states of america
stanford university (the leland stanford junior university) - stanford - ca - united states of america
the leland stanford jr. university - palo alto - ca - united states of america
leland stanford junior university, school of law - stanford - ca / n/a - united states of america
stanford universit - stanford - ca - united states of america
the leland stanford university - stanford - ca - united states of america
leland standford stanford junior university - stanford - ca - united states of america
stanford university - cambridge - ma - united states of america
the leland stanford junior university 'stanford university' - stanford - ca - united states of america
stanford university school of law - stanford - ca - united states of america
stanford univresity - stanford - ca - united states of america
the leland stanford jr. university (stanford university) - stanford - ca - united states of america
leeland stanford junior university - stanford - ca - united states of america
leland stanford junion university - - ca - united states of america
leland stanford junior university (stanford university) - stanford - ca - united states of america
the leland stanford junior university - stanford - -
stanford university - graduate school of business - stanford - ca - united states of america
graduate school of business, stanford university - stanford - ca - united states of america
stanford universoty - stanford - ca - united states of america
leland stanford junior university - stanford - -
stanford univeristy - palo alto - ca - united states of america
leland stanford university - palo alto - ca - united states of america
stanford university - stanford - ca / n/a - united states of america
the leland stanford junior university, stanford university - stanford - ca - united states of america
the leland stanford junior university graduate school of business - stanford - ca - united states of america
stanford universtiy - stanford - ca - united states of america
stanford univerisity - stanford - ca - united states of america
stanford university - stanford - ct - united states of america
stanford law scool - stanford - ca - united states of america
mba: stanford university - stanford - ca - united states of america
Sie sind alle die gleiche Universität, aber einige haben Tippfehler, einige haben unterschiedliche Namen, einige haben keine Städte, einige haben die falschen Städte, ... Die Daten sind nicht großartig.
Also versuche ich es zu beheben. Wie kann ich diese Daten konsolidieren?
Antworten:
Da dieses Dataset bereits in einer Tabelle organisiert ist, können Sie Standard-SQL-Funktionen nutzen, um einen großen Teil der Bereinigung durchzuführen. Ein Datensatz scheint aus 4 Feldern zu bestehen, zum Beispiel:
Sie können die folgenden Schritte ausführen, um eine übersichtlichere Darstellung dieses Datensatzes zu erhalten:
quelle
Dies ist ziemlich schwierig, ohne zuerst Ihren Datensatz zu strukturieren. Es gibt einen Grund, warum bereinigte Datensätze Tausende von Dollar kosten, weil sie versuchen, diese Probleme für Sie zu bereinigen.
Sie können zunächst ein Taxonomiesystem erstellen. Zuerst geben Sie der allgemeinen "Stanford University" den Ausweis "1". So etwas wie die "Stanford Graduate School of Business" würde die ID "1.2.5" erhalten, wobei sich die neue "2" auf die Abteilung für Graduiertenschulen bezieht, "5" auf die Kategorie der Business Schools. Es hängt wirklich davon ab, was Ihr Endziel ist. Kurz gesagt, erstellen Sie eine Liste mit IDs für mögliche Unterteilungen, "Absolventen, Studenten usw.". und dann weitere Unterteilungen.
Für Standorte können Sie normalerweise einen "primären" und einen "sekundären" Standort definieren, dh "Palo Alto" und "Stanford", die Sie durch Histogrammierung der Anzahl für jeden Standort und Auswahl der beiden oberen Standorte bestimmen können.
Zum Korrigieren von Rechtschreibfehlern können Sie die Google-Such-API verwenden und die Option "Ergebnisse anzeigen für ..." ausnutzen, um die richtige Schreibweise zu erhalten.
quelle