Ich kenne jemanden, der an einem Projekt arbeitet, bei dem Datendateien unabhängig von den Spalten oder Datentypen aufgenommen werden. Die Aufgabe besteht darin, eine Datei mit einer beliebigen Anzahl von Spalten und verschiedenen Datentypen zu erstellen und zusammenfassende Statistiken zu den numerischen Daten auszugeben.
Er ist sich jedoch nicht sicher, wie er Datentypen für bestimmte zahlenbasierte Daten dynamisch zuweisen soll. Beispielsweise:
CITY
Albuquerque
Boston
Chicago
Dies sind offensichtlich keine numerischen Daten und werden als Text gespeichert. Jedoch,
ZIP
80221
60653
25525
sind nicht eindeutig als kategorisch gekennzeichnet. Seine Software würde die Postleitzahl als numerische und zusammenfassende Ausgabestatistik dafür zuweisen, was für diese Art von Daten nicht sinnvoll ist.
Ein paar Ideen, die wir hatten, waren:
- Wenn eine Spalte nur aus Ganzzahlen besteht, kennzeichnen Sie sie als kategorisch. Das würde natürlich nicht funktionieren, aber es war eine Idee.
- Wenn eine Spalte weniger als n hat eindeutige Werte hat und numerisch ist, kennzeichnen Sie sie als kategorisch. Dies könnte näher sein, aber es könnte immer noch Probleme mit durchfallenden numerischen Daten geben.
- Pflegen Sie eine Liste allgemeiner numerischer Daten, die eigentlich kategorisch sein sollten, und vergleichen Sie die Spaltenüberschriften mit dieser Liste, um Übereinstimmungen zu erhalten. Zum Beispiel wäre alles, was "ZIP" enthält, kategorisch.
Mein Bauch sagt mir, dass es keine Möglichkeit gibt, numerische Daten genau als kategorial oder numerisch zuzuweisen, aber ich hoffte auf einen Vorschlag. Jeder Einblick, den Sie haben, wird sehr geschätzt.
quelle
Antworten:
Mir ist kein narrensicherer Weg dazu bekannt. Hier ist eine Idee aus meinem Kopf:
quelle
Wenn Sie beispielsweise die Anzahl der Kinder einer Familie haben (die beispielsweise zwischen 0 und 5 liegen kann), handelt es sich um eine kategoriale oder numerische Variable? Eigentlich hängt es von Ihrem Problem ab und davon, wie Sie es lösen wollen. In diesem Sinne können Sie Folgendes tun:
Bei diskreten Werten könnte ein zusätzlicher Test sein: Verwenden Sie ein Regressionsmodell, um einige der Parameter zu schätzen und zu überprüfen, ob die geschätzten Werte im ursprünglichen Wertesatz enthalten sind. Wenn dies nicht der Fall ist, handelt es sich wahrscheinlich um kategoriale Daten (wie dies bei ZIP der Fall ist).
Es hat in der Vergangenheit relativ gut für mich funktioniert ...
quelle
Da diese Frage gekreuzt wurde, sind die ersten Kommentare von @nickcox zu Cross Validated von hoher Relevanz und zutreffend. Meine Ansichten sind etwas anders. Zum Beispiel würde ich die Frage umformulieren und in zwei Teile zerlegen: Erstens gibt es die Frage, wie man einen Strom unbekannter Informationen nach Datentyp klassifizieren würde und zweitens, welche Art von Fehlklassifizierungsrate zu erwarten ist. Beide Fragen sind sofort beantwortbar, wenn sich jemand die Zeit dafür nehmen möchte.
Die erste Ausgabe besteht darin, ein regelbasiertes Expertensystem zu entwickeln, das den vorläufigen Vorschlägen in den Kommentaren und Antworten zu diesen Themen unter Verwendung von Beispielen realer Daten entspricht, die leicht verfügbar sind.
Zweitens, da diese realen Daten bekannte Datentypen enthalten, wird der Klassifizierungsfehler bewertet.
Ein dritter Schritt würde darin bestehen, die Regeln iterativ zu aktualisieren, um die Informationen, die durchlaufen werden, genauer wiederzugeben - soweit dies möglich ist.
Meiner Meinung nach würde ein solches Projekt, obwohl es langwierig ist, keinen unerschwinglichen Arbeitsaufwand bedeuten.
---- Zusätzlicher Kommentar ----
Eine gute Diskussion der Merkmalsextraktion in Bezug auf den Datengenerierungsprozess, der im Lebenslauf auftaucht, ist hier:
/stats/191935/what-does-the-process-that-generates-the-data-mean-and-how-does-feature-selec
Die Merkmalsextraktion, -auswahl und das DGP sind ein hervorragender Ausgangspunkt für die Entwicklung eines Expertensystems.
quelle