Beim Versuch, eine Textdatei in ihr ASCII-Äquivalent zu konvertieren, erhalte ich die Fehlermeldung iconv: illegal input sequence at position
.
Befehl, den ich benutze, ist iconv -f UTF-8 -t ascii//TRANSLIT file
Der beleidigende Charakter ist æ
.
Die Textdatei selbst ist hier vorhanden .
Warum heißt es unzulässige Reihenfolge? Das Eingabezeichen ist das richtige UTF-8-Zeichen (U + 00E6).
text-processing
character-encoding
unicode
user13107
quelle
quelle
hexdump -C file
Befehl und bekam0002b220 72 75 69 6e e6 0a 20 2d 2d 20 48 6f 72 61 63 65 |ruin.. -- Horace|
als Ausgabe.Die von Ihnen verknüpfte Datei scheint in einem HTML-Dokument UTF-8 zu sein
Wenn Sie es zuerst über einen HTML-zu-Text-Konverter ausführen, z
dann scheint das UTF-8-Fragment, mit dem Sie Probleme zu haben scheinen, fehlerfrei zu transliterieren, d. h
wird
Das
html2text
Dienstprogramm ist möglicherweise nicht auf Ihrem System installiert. Wenn Sie es nicht finden / installieren können, gibt es andere Konverter, einschließlich eines Python-Moduls.quelle
file
Befehl sagt ASCII, aber der Grund ist, dass nur der Anfang der Datei angezeigt wird und das ISO-8859-1-Zeichen weit entfernt an Position 181536 erscheint.