Ich suche nach einer Quelle für Substantive, Adverbien, Adjektive und Verben in mehreren Sprachen.
Ich möchte, dass die Listen bereits getrennt sind und nicht die OED (und nicht-englische Entsprechungen) durchlaufen müssen, indem diese Listen von Hand neu erstellt werden.
Definitionen interessieren mich nicht wirklich, und ich verstehe, dass einige Wörter mehrere Wortarten sein können - das ist in Ordnung - Wörter wie "viele" können ein Substantiv oder ein Adjektiv sein und in beiden Listen vorkommen.
Kennt hier jemand eine solche Quelle? Wenn nicht, könnte mich jemand in die richtige Richtung weisen?
Ich bin damit einverstanden, dass das Format eines der folgenden ist (oder ähnlich, wenn Leute Ideen haben):
- CSV:
<word>, noun (y/n), verb (y/n), adverb (y/n), adjective (y/n)
- Klartextdateien wie "Substantive", "Verben" usw.
- eine MySQL-Tabelle
- etc
Antworten:
Ich habe WordNet von der Princeton University für einige Projekte verwendet. Dies ist eine lexikalische Datenbank in Englisch. Global WordNet ist eine Erweiterung des Projekts, die versucht, für alle Sprachen dasselbe zu tun.
Sie könnten auch an verwandten Projekten unter http://wordnet.princeton.edu/wordnet/related-projects/ interessiert sein.
quelle
Das kann überhaupt nicht helfen, ich weiß es nicht. MediaWiki verfügt jedoch über eine API zum Auflisten aller Seiten, die zu einer bestimmten Kategorie gehören. Sie können es auf Wiktionary.org verwenden.
Anmerkungen:
Beispiele:
Hoffe das hilft, es ist das, was ich mir einfallen lassen könnte.
quelle
Ich werde @ teknikqas Vorschlag von wordnet unterstützen, aber ich würde vorschlagen, dass Sie sich deren APIs ansehen.
GESCHICHTE : Ich hatte einen KI-Kurs mit einem Teil zur Sprachanalyse. Ich habe die Perl-APIs des Wordnets verwendet, um die drei wichtigsten Definitionstypen automatisch nachzuschlagen und die Phrasierung in END OF STORYTIME nahezu in Echtzeit zu klassifizieren
Es gibt APIs für viele Sprachen
Zu Ihrer Information: Das Projekt hat ein A + erhalten
quelle