エントリーの編集
エントリーの編集は全ユーザーに共通の機能です。
必ずガイドラインを一読の上ご利用ください。
Javaでの文字数カウント(サロゲートペア)に関する実験2 - Gaishimo
記事へのコメント0件
- 注目コメント
- 新着コメント
このエントリーにコメントしてみましょう。
注目コメント算出アルゴリズムの一部にLINEヤフー株式会社の「建設的コメント順位付けモデルAPI」を使用しています
- バナー広告なし
- ミュート機能あり
- ダークモード搭載
関連記事
Javaでの文字数カウント(サロゲートペア)に関する実験2 - Gaishimo
正規化できないアイヌ語表記用文字の扱いに関して 前回の記事で、サロゲートペアが含まれていた時の文字... 正規化できないアイヌ語表記用文字の扱いに関して 前回の記事で、サロゲートペアが含まれていた時の文字数カウントについて書いた。 Javaでの文字数カウント(サロゲートペア)に関する実験1 その中で対処方法の一つとして、合成文字(「か」+「゛」(濁点)のような)が含まれていた場合に、java.text.Normalizerを使って正規化する方法を紹介した。合成文字を単一の符号位置の文字に変換してしまうやり方である。 しかし、この方法だとまだ穴があった。 「か」+「゜」(丸) のようなアイヌ語表記用の片仮名や鼻濁音表記用の平仮名・片仮名が来た場合である。 これらのアイヌ語表記用の文字(25文字)はUnicode上に単一の符号位置が与えられていない。そのため正規化しようとしても当然できないということになる。 これらの文字が含まれることを考慮し、厳密に文字数をカウントしたい場合は、正規化ではなくja