Wortlistenquellen

11

Ich suche nach einer Quelle für Substantive, Adverbien, Adjektive und Verben in mehreren Sprachen.

Ich möchte, dass die Listen bereits getrennt sind und nicht die OED (und nicht-englische Entsprechungen) durchlaufen müssen, indem diese Listen von Hand neu erstellt werden.

Definitionen interessieren mich nicht wirklich, und ich verstehe, dass einige Wörter mehrere Wortarten sein können - das ist in Ordnung - Wörter wie "viele" können ein Substantiv oder ein Adjektiv sein und in beiden Listen vorkommen.

Kennt hier jemand eine solche Quelle? Wenn nicht, könnte mich jemand in die richtige Richtung weisen?

Ich bin damit einverstanden, dass das Format eines der folgenden ist (oder ähnlich, wenn Leute Ideen haben):

  • CSV: <word>, noun (y/n), verb (y/n), adverb (y/n), adjective (y/n)
  • Klartextdateien wie "Substantive", "Verben" usw.
  • eine MySQL-Tabelle
  • etc
Labyrinth
quelle

Antworten:

8

Ich habe WordNet von der Princeton University für einige Projekte verwendet. Dies ist eine lexikalische Datenbank in Englisch. Global WordNet ist eine Erweiterung des Projekts, die versucht, für alle Sprachen dasselbe zu tun.

Sie könnten auch an verwandten Projekten unter http://wordnet.princeton.edu/wordnet/related-projects/ interessiert sein.

teknikqa
quelle
1
WordNet ist der richtige Weg. Alle Spitzenforscher nutzen dies.
Ritwik Bose
4

Das kann überhaupt nicht helfen, ich weiß es nicht. MediaWiki verfügt jedoch über eine API zum Auflisten aller Seiten, die zu einer bestimmten Kategorie gehören. Sie können es auf Wiktionary.org verwenden.

Anmerkungen:

  • Jede Abfrage gibt nur 500 Ergebnisse zurück. Am Ende wird jedoch auch ein Parameter angegeben, der in einer anderen Abfrage verwendet werden soll, um die nächsten 500 Ergebnisse zu erhalten.
  • Es enthält alles in der angegebenen Kategorie, auch andere Unterkategorien.
  • Die Ergebnisse scheinen in alphabetischer Reihenfolge zu sein, obwohl alles, was mit einem Großbuchstaben beginnt, vor Kleinbuchstaben steht.

Beispiele:

Hoffe das hilft, es ist das, was ich mir einfallen lassen könnte.

Matt Blaine
quelle
1

Ich werde @ teknikqas Vorschlag von wordnet unterstützen, aber ich würde vorschlagen, dass Sie sich deren APIs ansehen.

GESCHICHTE : Ich hatte einen KI-Kurs mit einem Teil zur Sprachanalyse. Ich habe die Perl-APIs des Wordnets verwendet, um die drei wichtigsten Definitionstypen automatisch nachzuschlagen und die Phrasierung in END OF STORYTIME nahezu in Echtzeit zu klassifizieren

Es gibt APIs für viele Sprachen

Zu Ihrer Information: Das Projekt hat ein A + erhalten

Andrew Bolster
quelle