Wie kann ich Unicode-Text in Notepad ++ bearbeiten?

26

Manchmal bearbeite ich englischen Text, der Unicode-Zeichen enthält. Aus irgendeinem Grund konvertiert Notepad ++ auf meinem PC Unicode-Zeichen in ???, wodurch der Text beschädigt wird und all diese Daten verloren gehen. Ich suche nach einer Möglichkeit, solchen Text zu bearbeiten und dabei Unicode-Zeichen beizubehalten. Ich benutze Consolas als meine Schriftart. Wenn die Schriftart nicht alle diese Zeichen enthält, warum sollte ich die Daten verlieren, wenn ich den Text aus Notepad ++ (über die Windows-Zwischenablage) kopiere?

Robinicks
quelle
Könnte es sein, dass Sie ein Plugin verwenden, das Unicode nicht unterstützt?
Ivo Flipse
Wenn dies Fragezeichen in Kästchen sind, dann ist es in der Tat das Symbol der Schrift für fehlende Symbole und Ihre Daten gehen nicht verloren.
Joey
Nein, es ist nicht in Kisten, stattdessen ist es das einfache "?" Charakter. Bestätigt.
Robinicks
1
Möglicherweise müssen Sie die Schriftart ändern. siehe superuser.com/questions/16831/...
RamyenHead

Antworten:

15

Wenn die Datei tatsächlich in Unicode codiert ist, sollte sie von Notepad ++ automatisch erkannt werden. Die Consolas-Schriftart funktioniert gut für mich. Sie können eine dieser beiden Menüoptionen ausprobieren:

  • Kodierung -> In UTF-8 kodieren
  • Kodierung -> In UTF-8 konvertieren

Ich bin mir ziemlich sicher, dass der erste tun wird, was Sie wollen.

Verärgerte Ziege
quelle
Ich habe kein Format-Menü.
Val
1
Für die Nachwelt benötigen Sie das Menü Kodierung, nicht Format
Ken Bellows
15

Das in der Frage beschriebene Problem tritt auf, wenn ein leeres / neues Dokument auf "ANSI" festgelegt ist und Unicode- Zeichen darin eingefügt werden.

Es gibt keine automatische Erkennung, wenn ein leeres / neues Dokument verwendet wird, zumindest nicht in der Version von Notepad ++, auf der ich es getestet habe (v5.4.5). "ANSI" ist die Standardeinstellung in Notepad ++ für ein neues Dokument, es sei denn, Sie haben im Menü EinstellungenVoreinstellungen → Registerkarte Neues Dokument / Verzeichnis öffnen festgelegt .

Lösung

Die Lösung besteht darin, die Codierung vor dem Einfügen auf UTF-8 zu setzen , Menü FormatIn UTF-8 codieren :

Menübefehl "Menü Format / Encode in UTF-8" wird ausgeführt

Beispiel

Ich habe Text in ein neues Notepad ++ - Dokument kopiert, Russisch (русский язык, russkiy yazyk) von Firefox, das die russische Sprache der Wikipedia-Seite zeigt .

Wenn die Kodierung nicht von "ANSI" geändert wird , ist dies das Ergebnis:

Ergebnis des Einfügens der Unicode-Zeichenfolge "Russian (русский язык, russkiy yazyk" in ein neues Notepad ++ - Dokument, ohne die Codierung von der Standardeinstellung "ANSI" zu ändern.

Wenn die Kodierung geändert wird , ist dies das Ergebnis:

Ergebnis des Einfügens der Unicode-Zeichenfolge "Russian (русский язык, russkiy yazyk" in ein neues Notepad ++ - Dokument, nachdem die Codierung von "ANSI" auf "UTF-8" geändert wurde.

Wie in der folgenden Abbildung zu sehen ist (der kyrillische Teil ist hervorgehoben), konvertiert Notepad ++ die Unicode-Zeichen tatsächlich in ASCII 63 (hexadezimal 3F), Fragezeichen. Aus diesem Grund gehen die Unicode-Zeichen verloren (im "ANSI" -Modus), wenn Sie den Text aus der Zwischenablage kopieren (es handelt sich nicht um eine Schriftart, da Informationen verloren gehen).

Screenshot einer hexadezimalen Ansicht des Dokuments

Getestet auf: Notepad ++ v5.4.5 (UNICODE).

Peter Mortensen
quelle
5

Es gibt gute und schlechte Nachrichten.

Gute Nachricht: Notepad ++ unterstützt Unicode (zumindest, was ich sammeln kann).

Schlechte Nachrichten: Offensichtlich gibt es Unicode-Unterstützung nur unter Windows XP.

Ich habe eigentlich keinen Windows-Rechner vor mir. Soweit ich mich erinnere, gibt es irgendwo unter dem Menü Format ein Codierungsmenü. Die Codierung für Unicode ist eigentlich am häufigsten UTF-8.

Hier ist ein hübsches Bild der Unicode-Unterstützung in Notepad ++:

Bildbeschreibung hier eingeben

Josh Hunt
quelle
3

Unicode funktioniert unter Windows 7 einwandfrei. Das einzige Problem, das auftritt, ist, dass Sie die geänderten Zeichen erneut eingeben müssen. Es ist mir passiert. Ich schreibe mit skandinavischen Buchstaben, also ä -> E4, ö -> F6. Es ist eine Qual, sie alle zu ersetzen, aber es lohnt sich.

Wenn Sie eine Seite aus ANSI -> UTF-8 codieren, treten einige Zeichenprobleme auf.

Ich würde vorschlagen, dass Sie zuerst eine neue Seite in UTF-8 erstellen und dann Ihre Informationen kopieren / einfügen. Dann wird / sollte es keine Probleme geben.

Peter Mortensen
quelle
1

Das hat bei mir geklappt:

Ich habe die Schriftart auf meinem PC in Courier New im Stilkonfigurator geändert (Windows 7 mit englischem / US-Zeichensatz und Rumänisch für Nicht-Unicode-Zeichensatz). Es funktioniert mit Courier New & Tahoma Schriftarten + UTF-8 Kodierung.

Rapy Rapy
quelle
0

EncodingWählen Sie im oberen Menü die Option aus, und wählen Sie dann aus, Encode in UTF-8oder Encode in UTF-8 Without BOMSie können Text in Unicode-Codierung bearbeiten.

Siavash
quelle