Wenn Sie in Chrome auf englischen Text doppelklicken, wird das durch Leerzeichen getrennte Wort hervorgehoben, auf das Sie geklickt haben. Das ist nicht überraschend. Neulich habe ich jedoch beim Lesen eines Textes auf Japanisch geklickt und festgestellt, dass einige Wörter an den Wortgrenzen hervorgehoben wurden, obwohl Japanisch keine Leerzeichen enthält. Hier ist ein Beispieltext:
ど こ で 生 れ た か と ん と 見 当 が つ か。 何 で も 薄 暗 じ.
Wenn Sie beispielsweise auf 薄 暗 い klicken, wird es von Chrome korrekt als einzelnes Wort hervorgehoben, obwohl es sich nicht um eine einzelne Zeichenklasse handelt (dies ist eine Mischung aus Kanji und Hiragana). Nicht alle Highlights sind korrekt, aber sie scheinen nicht zufällig zu sein.
Wie entscheidet Chrome, was hier hervorgehoben werden soll? Ich habe versucht, die Chrome-Quelle nach "japanischem Wort" zu durchsuchen, aber nur Tests für ein experimentelles Modul gefunden , das in meiner Chrome-Version nicht aktiv zu sein scheint.
quelle
Antworten:
Es stellt sich also heraus, dass v8 einen nicht standardmäßigen mehrsprachigen Wortsegmentierer hat und Japanisch verarbeitet.
Ich habe auch eine jsfiddle gemacht , die dies zeigt.
Die Qualität ist nicht erstaunlich, aber ich bin überrascht, dass dies überhaupt unterstützt wird.
quelle
Basierend auf den von JonathonW geposteten Links lautet die Antwort im Wesentlichen: "Es gibt eine große Liste japanischer Wörter und Chrome-Überprüfungen, um festzustellen, ob Sie auf ein Wort doppelklicken."
Insbesondere verwendet v8 die Intensivstation , um eine Reihe von Unicode-bezogenen Textverarbeitungsaufgaben auszuführen, einschließlich der Aufteilung von Text in Wörter . Der Grenzerkennungscode auf der Intensivstation enthält einen "Dictionary-Based BreakIterator" für Sprachen ohne Leerzeichen, einschließlich Japanisch, Chinesisch, Thailändisch usw.
Und für Ihr spezielles Beispiel von "薄 暗 い" finden Sie dieses Wort in der Kombination Chinesisch-Japanisch-Wörterbuch, das von der Intensivstation geliefert wird (Zeile 255431). Derzeit sind insgesamt 315.671 chinesische / japanische Wörter in der Liste enthalten. Wenn Sie ein Wort finden, das Chrome nicht richtig aufteilt, können Sie der Intensivstation vermutlich einen Patch senden, um dieses Wort hinzuzufügen.
quelle