Das Buch enthält einen Hinweis, wie Sie Hilfe zu Tag-Sets finden, z.
nltk.help.upenn_tagset()
Andere sind wahrscheinlich ähnlich. (Hinweis: Möglicherweise müssen Sie dafür zuerst tagsetsden Abschnitt Modelle des Download-Helfers herunterladen. )
Jetzt bin ich neugierig: Was ist daran so mysteriös? Ich habe NLTK nie wirklich benutzt, und als ich diese Antwort gefunden habe, habe ich fünf Minuten gegoogelt und gesucht ... Ist es wirklich so versteckt?
Phipsgabler
5
Ich denke, es ist nicht die Frage, wie versteckt, dies kam auch für mich auf, als ich nur versuchte, einen einzelnen Satz zu markieren, weil ich nach dem Grund suche, warum nltk meine Verben als Substantive markiert und ich nicht wusste, wie unterschiedlich Tagsets sind kann verwendet werden. Das war auch dafür hilfreich, danke!
Telefonbox
2
@phipsgabler wenn andere wie ich sind, hatte ich falsche erwartungen. Ich erwartete eine Nachschlagetabelle / Liste / Karte, die die Pos-Akronyme wie RBauf ihre Bedeutung wie abbildet adverb. ( Hier ist ein Beispiel ; oder siehe @ Suzanas Antwort, die das Penn Treebank Tag Set verknüpft ). Aber Sie haben Recht, das eingebaute nltk.help.upenn_tagset('RB')ist hilfreich und wird zu Beginn des nltkBuches erwähnt :
Die rote Erbse
137
Um einigen Leuten Zeit zu sparen, hier eine Liste, die ich aus einem kleinen Korpus extrahiert habe. Ich weiß nicht, ob es vollständig ist, aber es sollte die meisten (wenn nicht alle) Hilfedefinitionen von upenn_tagset enthalten ...
CC : Konjunktion, Koordination
&'n and both but either et for less minus neither nor or plus so
therefore times v. versus vs. whether yet
CD : Ziffer, Kardinal
mid-1890 nine-thirty forty-two one-tenth ten million 0.5 one forty-
seven 1987 twenty '79 zero two 78-degrees eighty-four IX '60s.025
fifteen 271,124 dozen quintillion DM2,000...
DT : Bestimmer
all an another any both del each either every half la many much nary
neither no some such that the them these this those
EX : dort existenziell
there
IN : Präposition oder Konjunktion, untergeordnet
astride among uppon whether out inside pro despite on by throughout
below within for towards near behind atop around if like until below
next into if beside ...
JJ : Adjektiv oder Ziffer, Ordnungszahl
third ill-mannered pre-war regrettable oiled calamitous first separable
ectoplasmic battery-powered participatory fourth still-to-be-named
multilingual multi-disciplinary ...
further gloomier grander graver greater grimmer harder harsher
healthier heavier higher however larger later leaner lengthier less-
perfectly lesser lonelier longer louder lower more ...
RBS : Adverb, Superlativ
best biggest bluntest earliest farthest first furthest hardest
heartiest highest largest least less most nearest second tightest worst
RP : Partikel
aboard about across along apart around aside at away back before behind
by crop down ever fast for forth from go high i.e.in into just later
low more off on open out over per pie raising start teeth that through
under unto up up-pp upon whole with you
Vielen Dank! Diese Antwort sollte gewählt worden sein, da dies viel umfassender ist als nur zu antworten, indem Sie im Wesentlichen etwas in Ihre Konsole eingeben, um dies herauszufinden.
Slartibartfast
63
Der Tag-Satz hängt von dem Korpus ab, mit dem der Tagger trainiert wurde. Der Standard-Tagger von nltk.pos_tag()verwendet das Penn Treebank-Tag-Set .
In NLTK 2 können Sie wie folgt überprüfen, welcher Tagger der Standard-Tagger ist:
Das bedeutet, dass es sich um einen Maximum Entropy-Tagger handelt, der auf dem Treebank-Korpus trainiert wurde.
nltk.tag._POS_TAGGERexistiert in NLTK 3 nicht mehr, aber die Dokumentation besagt, dass der Standard-Tagger immer noch das Penn Treebank-Tag-Set verwendet.
Vielen Dank, imo ist dies eine viel nützlichere Antwort als die akzeptierte.
Dale
3
Dies ist eine unvollständige Antwort. Erstens wird nltk.tag._POS_TAGGERes nicht ausgeführt und es werden keine spezifischen Anweisungen zum Importieren bereitgestellt. Außerdem ist es die halbe Antwort, herauszufinden, welcher Tagger verwendet wird. Die Frage lautet, eine Liste aller möglichen Tags innerhalb des Taggers zu erhalten
Hamman Samuel
3
Es ist der Korpus und nicht der Tagger, der den Tag-Satz bestimmt. Sobald Sie den Korpusnamen kennen, ist der gesamte Tag-Satz nur noch eine Google-Suche entfernt.
Suzana
34
Das Folgende kann nützlich sein, um auf ein Diktat zuzugreifen, das durch Abkürzungen gekennzeichnet ist:
Sie können die Liste hier herunterladen: ftp://ftp.cis.upenn.edu/pub/treebank/doc/tagguide.ps.gz . Es enthält verwirrende Teile der Sprache, Groß- und Kleinschreibung und andere Konventionen. Auch Wikipedia hat einen interessanten Abschnitt ähnlich. Abschnitt: Verwendete Wortart-Tags.
Ich akzeptiere dies als einen praktischen Beitrag. Ich habe überlegt, die Formatierung zu verbessern, aber das könnte dem Zweck dieses Beitrags zuwiderlaufen. Bitte denken Sie daran , die Code-Formatierung in Kombination mit Zeilenumbrüchen zu bearbeiten und zu verwenden, um sowohl eine gute Formatierung als auch eine freundliche Kopier- und Einfügefreundlichkeit zu erzielen. stackoverflow.com/editing-help
Yunnosch
Ich habe darüber nachgedacht, aber ich denke, es würde es weniger bequem machen.
nltk.tag._POS_TAGGERwird nicht funktionieren. Es gibt AttributeError: Modul 'nltk.tag' hat kein Attribut '_POS_TAGGER' . Es ist nicht mehr in NLTK 3 verfügbar.
RB
auf ihre Bedeutung wie abbildetadverb
. ( Hier ist ein Beispiel ; oder siehe @ Suzanas Antwort, die das Penn Treebank Tag Set verknüpft ). Aber Sie haben Recht, das eingebautenltk.help.upenn_tagset('RB')
ist hilfreich und wird zu Beginn desnltk
Buches erwähnt :Um einigen Leuten Zeit zu sparen, hier eine Liste, die ich aus einem kleinen Korpus extrahiert habe. Ich weiß nicht, ob es vollständig ist, aber es sollte die meisten (wenn nicht alle) Hilfedefinitionen von upenn_tagset enthalten ...
CC : Konjunktion, Koordination
CD : Ziffer, Kardinal
DT : Bestimmer
EX : dort existenziell
IN : Präposition oder Konjunktion, untergeordnet
JJ : Adjektiv oder Ziffer, Ordnungszahl
JJR : Adjektiv, vergleichend
JJS : Adjektiv, Superlativ
LS : Listenelementmarkierung
MD : modales Hilfsmittel
NN : Substantiv, allgemein, Singular oder Masse
NNP : Substantiv, Eigen, Singular
NNS : Substantiv, allgemein, Plural
PDT : Vorbestimmer
POS : Genitivmarker
PRP : Pronomen, persönlich
PRP $: Pronomen, besitzergreifend
RB : Adverb
RBR : Adverb, vergleichend
RBS : Adverb, Superlativ
RP : Partikel
TO : "to" als Präposition oder Infinitivmarker
UH : Interjektion
VB : Verb, Grundform
VBD : Verb, Vergangenheitsform
VBG : Verb, Partizip Präsens oder Gerundium
VBN : Verb, Partizip Perfekt
VBP : Verb, Präsens, nicht 3. Person Singular
VBZ : Verb, Präsens, 3. Person Singular
WDT : WH-Bestimmer
WP : WH-Pronomen
WRB : Wh-Adverb
quelle
$
,''
,(
,)
,,
,--
,.
,:
,FW
,NNPS
,SYM
,WP$
, [zwei Backticks]. Siehenltk.help.upenn_tagset()
.Der Tag-Satz hängt von dem Korpus ab, mit dem der Tagger trainiert wurde. Der Standard-Tagger von
nltk.pos_tag()
verwendet das Penn Treebank-Tag-Set .In NLTK 2 können Sie wie folgt überprüfen, welcher Tagger der Standard-Tagger ist:
Das bedeutet, dass es sich um einen Maximum Entropy-Tagger handelt, der auf dem Treebank-Korpus trainiert wurde.
nltk.tag._POS_TAGGER
existiert in NLTK 3 nicht mehr, aber die Dokumentation besagt, dass der Standard-Tagger immer noch das Penn Treebank-Tag-Set verwendet.quelle
nltk.tag._POS_TAGGER
es nicht ausgeführt und es werden keine spezifischen Anweisungen zum Importieren bereitgestellt. Außerdem ist es die halbe Antwort, herauszufinden, welcher Tagger verwendet wird. Die Frage lautet, eine Liste aller möglichen Tags innerhalb des Taggers zu erhaltenDas Folgende kann nützlich sein, um auf ein Diktat zuzugreifen, das durch Abkürzungen gekennzeichnet ist:
quelle
Die Referenz finden Sie unter der offiziellen Website
Von dort kopieren und einfügen:
quelle
Sie können die Liste hier herunterladen: ftp://ftp.cis.upenn.edu/pub/treebank/doc/tagguide.ps.gz . Es enthält verwirrende Teile der Sprache, Groß- und Kleinschreibung und andere Konventionen. Auch Wikipedia hat einen interessanten Abschnitt ähnlich. Abschnitt: Verwendete Wortart-Tags.
quelle
['LS', 'TO', 'VBN', '' '', 'WP', 'UH', 'VBG', 'JJ', 'VBZ', '-', 'VBP', 'NN' , 'DT', 'PRP', ':', 'WP $', 'NNPS', 'PRP $', 'WDT', '(', ')', '.', ',', '' ' ',' $ ',' RB ',' RBR ',' RBS ',' VBD ',' IN ',' FW ',' RP ',' JJR ',' JJS ',' PDT ',' MD ', 'VB', 'WRB', 'NNP', 'EX', 'NNS', 'SYM', 'CC', 'CD', 'POS']
Basierend auf der Methode von Doug Shore, aber benutzerfreundlicher
quelle
Führen Sie dies einfach wörtlich aus.
nltk.tag._POS_TAGGER
wird nicht funktionieren. Es gibt AttributeError: Modul 'nltk.tag' hat kein Attribut '_POS_TAGGER' . Es ist nicht mehr in NLTK 3 verfügbar.quelle