Ich habe eine Liste von Wörtern, die zu verschiedenen selbst definierten Kategorien gehören. Jede Kategorie hat ein eigenes Muster (zum Beispiel hat eine eine feste Länge mit Sonderzeichen, eine andere besteht aus Zeichen, die nur in dieser Kategorie von "Wörtern" vorkommen, ...).
Zum Beispiel:
"ABC" -> type1
"ACC" -> type1
"a8 219" -> type2
"c 827" -> type2
"ASDF 123" -> type2
"123123" -> type3
...
Ich suche nach einer maschinellen Lerntechnik, um dieses Muster anhand von Trainingsdaten selbst zu lernen. Ich habe bereits versucht, einige Prädiktorvariablen (z. B. Wortlänge, Anzahl der Sonderzeichen, ...) selbst zu definieren, und dann ein neuronales Netzwerk verwendet, um die Kategorie zu lernen und vorherzusagen. Aber das ist eigentlich nicht das, was ich will. Ich möchte eine Technik, um das Muster für jede Kategorie für sich zu lernen - sogar um Muster zu lernen, an die ich nie gedacht habe.
Also gebe ich dem Algorithmus Lerndaten (bestehend aus den Beispielen für Wortkategorien) und möchte, dass er Muster für jede Kategorie lernt, um später die Kategorie aus ähnlichen oder gleichen Wörtern vorherzusagen.
Gibt es eine hochmoderne Möglichkeit, dies zu tun?
Danke für Ihre Hilfe
Antworten:
Könnte Ihr Problem so formuliert werden, dass Sie die regulären Ausdrücke ermitteln möchten, die den Zeichenfolgen in jeder Kategorie entsprechen? Dies ist ein Problem der "Regex-Erzeugung", eine Teilmenge des Problems der Grammatikinduktion (siehe auch die Website von Alexander Clark ).
Das Problem mit regulären Ausdrücken ist einfacher. Ich kann Sie auf Code frak und RegexGenerator verweisen . Der Online-RegexGenerator ++ enthält Verweise auf seine wissenschaftlichen Arbeiten zum Problem.
quelle
Sie können wiederkehrende neuronale Netze ausprobieren, bei denen Ihre Eingabe eine Folge der Buchstaben im Wort und Ihre Ausgabe eine Kategorie ist. Dies entspricht Ihren Anforderungen, sodass Sie keine Funktionen von Hand codieren.
Damit diese Methode tatsächlich funktioniert, benötigen Sie jedoch einen ziemlich großen Trainingsdatensatz.
Sie können verweisen beaufsichtigte Sequence Kennzeichnung mit Recurrent Neural Networks von Alex Graves Kapitel 2 für weitere Details.
Dies ist ein Link zum Preprint
quelle