Für das Layout haben wir unseren berühmten "Lorem ipsum" -Text, um zu testen, wie er aussieht.
Was ich suche, ist eine Reihe von Dateien, die Text enthalten, der mit verschiedenen Codierungen codiert ist, die ich in meinen JUnit-Tests verwenden kann, um einige Methoden zu testen, die sich mit der Zeichencodierung beim Lesen von Textdateien befassen.
Beispiel:Eine ISO 8859-1
codierte Testdatei und eine Windows-1252
codierte Testdatei haben. Das Windows-1252 muss die Unterschiede in Region 80 16 - 9F 16 auslösen . Mit anderen Worten, es muss mindestens ein Zeichen dieser Region enthalten, um sie von ISO 8859-1 zu unterscheiden.
Der vielleicht beste Satz von Testdateien ist der, bei dem die Testdatei für jede Codierung alle Zeichen einmal enthält. Aber vielleicht ist mir etw nicht bewusst - wir alle mögen dieses Kodierungsmaterial, oder? :-)
Gibt es so eine Reihe von Testdateien für Zeichencodierungsprobleme?
quelle
Antworten:
Wie wäre es mit dem Versuch, die ICU -Testsuite-Dateien zu verwenden? Ich weiß nicht, ob sie das sind, was Sie für Ihren Test benötigen, aber sie scheinen zumindest ziemlich vollständige von / zu UTF-Zuordnungsdateien zu haben: Link zum Repo für ICU-Testdateien
quelle
Der Wikipedia-Artikel über Diakritika ist ziemlich umfangreich, leider müssen Sie diese Zeichen manuell extrahieren. Es kann auch einige Mnemoniken für jede Sprache geben. Zum Beispiel verwenden wir auf Polnisch:
welches alle 9 polnischen Diakritika in einem richtigen Satz enthält. Ein weiterer nützlicher Suchhinweis sind Pangrams : Sätze, bei denen jeder Buchstabe des Alphabets mindestens einmal verwendet wird :
Die Liste der Pangrams enthält eine vollständige Zusammenfassung. Jeder möchte dies in einem einfachen Paket verpacken:
Bibliothek?
quelle
Ich kenne keine vollständigen Textdokumente, aber wenn Sie mit einer einfachen Übersicht aller Zeichensätze beginnen können, sind einige Dateien auf dem Server ftp.unicode.org verfügbar
Hier ist zum Beispiel WINDOWS-1252. Die erste Spalte ist der hexadezimale Zeichenwert und die zweite der Unicode-Wert.
ftp://ftp.unicode.org/Public/MAPPINGS/VENDORS/MICSFT/WINDOWS/CP1250.TXT
quelle
Nun, ich hatte ein Online-Tool verwendet, um meine Textzeichensätze aus Lorem Ipsum zu erstellen. Ich glaube, es kann dir helfen. Ich habe keine, die alle verschiedenen Zeichensätze auf einer einzigen Seite enthält.
http://generator.lorem-ipsum.info /
quelle