Als «edit-distance» getaggte Fragen

8
Was sind einige effiziente Methoden, um die Unterschiede zwischen zwei großen Textkorpussen mit ähnlichen, aber unterschiedlich geordneten Inhalten zu ermitteln?

Ich habe zwei große Dateien mit Absätzen englischen Textes: Der erste Text ist ungefähr 200 Seiten lang und hat ungefähr 10 Absätze pro Seite (jeder Absatz ist 5 Sätze lang). Der zweite Text enthält fast genau die gleichen Absätze und Texte wie der erste. Es ist auch 200 Seiten lang mit 10 Absätzen...