Wie kann man die Komplexität eines englischen Satzes bestimmen?

10

Ich arbeite an einer App, mit der Menschen Englisch als Zweitsprache lernen können. Ich habe bestätigt, dass Sätze beim Erlernen einer Sprache helfen, indem sie zusätzlichen Kontext bereitstellen. Ich habe das getan, indem ich eine kleine Recherche in einem Klassenzimmer mit 60 Schülern durchgeführt habe.

Ich habe über hunderttausend Sätze aus Wikipedia nach verschiedenen englischen Wörtern durchsucht (einschließlich Barrons'800 Wörtern und 1000 häufigsten englischen Wörtern).

Ganze Daten finden Sie unter https://buildmyvocab.in

Um die Qualität des Inhalts zu erhalten, habe ich Sätze herausgefiltert, die länger als 160 Zeichen waren, da sie möglicherweise schwer zu verstehen sind.

Als nächsten Schritt möchte ich in der Lage sein, den Prozess des Sortierens dieser Inhalte in der Reihenfolge des leichteren Verständnisses zu automatisieren. Ich selbst bin kein englischer Muttersprachler. Ich möchte wissen, mit welchen Funktionen ich einfache Sätze von schwierigen trennen kann.

Denken Sie auch, dass dies möglich ist?

BuildMyVocab
quelle

Antworten:

8

Ja. Es gibt verschiedene Metriken, wie z. B. den Nebelindex. Textacy in Python hat eine schöne Liste und Implementierungen.

>>> ts.flesch_kincaid_grade_level
10.853709110179697
>>> ts.readability_stats
{'automated_readability_index': 12.801546064781363,
 'coleman_liau_index': 9.905629258346586,
 'flesch_kincaid_grade_level': 10.853709110179697,
 'flesch_readability_ease': 62.51222198133965,
 'gulpease_index': 55.10492845786963,
 'gunning_fog_index': 13.69506833036245,
 'lix': 45.76390294037353,
 'smog_index': 11.683781121521076,
 'wiener_sachtextformel': 5.401029023140788}
GrimSqueaker
quelle