Als «unicode» getaggte Fragen

395
Was ist Unicode, UTF-8, UTF-16?

Was ist die Basis für Unicode und warum wird UTF-8 oder UTF-16 benötigt? Ich habe dies bei Google recherchiert und auch hier gesucht, aber es ist mir nicht klar. In VSS wird beim Durchführen eines Dateivergleichs manchmal die Meldung angezeigt, dass die beiden Dateien unterschiedliche UTFs haben....

360
Warum ist 2+ 40 gleich 42?

Ich war verblüfft, als mir ein Kollege diese Zeile der JavaScript-Warnung 42 zeigte. alert(2+ 40); Führen Sie das Code-Snippet ausHide resultsErweitern Sie das Snippet Es stellt sich schnell heraus, dass das, was wie ein Minuszeichen aussieht, tatsächlich ein arkanes Unicode-Zeichen mit...

359
Wie greife ich nach allen Nicht-ASCII-Zeichen?

Ich habe mehrere sehr große XML-Dateien und versuche, die Zeilen zu finden, die Nicht-ASCII-Zeichen enthalten. Ich habe folgendes versucht: grep -e "[\x{00FF}-\x{FFFF}]" file.xml Dies gibt jedoch jede Zeile in der Datei zurück, unabhängig davon, ob die Zeile ein Zeichen im angegebenen Bereich...

348
So ermitteln Sie die Länge eines Strings in R.

Wie finde ich die Länge einer Zeichenfolge (Anzahl der Zeichen in einer Zeichenfolge), ohne sie in R aufzuteilen? Ich weiß, wie man die Länge einer Liste findet, aber nicht einer Zeichenfolge. Und was ist mit Unicode-Strings? Wie finde ich die Länge (in Bytes) und die Anzahl der Zeichen (Runen,...

257
UnicodeDecodeError, ungültiges Fortsetzungsbyte

Warum schlägt der folgende Punkt fehl? und warum gelingt es mit "latin-1" codec? o = "a test of \xe9 char" #I want this to remain a string as this is what I am receiving v = o.decode("utf-8") Ergebnisse in: Traceback (most recent call last): File "<stdin>", line 1, in <module>...

239
Python: \ xa0 aus String entfernen?

Ich verwende derzeit Beautiful Soup, um eine HTML-Datei zu analysieren und aufzurufen get_text(), aber es scheint, als würde mir eine Menge \ xa0 Unicode übrig bleiben, die Leerzeichen darstellen. Gibt es eine effiziente Möglichkeit, alle in Python 2.7 zu entfernen und in Leerzeichen umzuwandeln?...