[B! Java][Unicode] nobuokaのブックマーク

nobuoka id:nobuoka

JavaとUnicodeに関するnobuokaのブックマーク (1)

Javaの文字列の長さを判定するには - $shibayu36->blog;
自分の頭を整理するために書いておく。正しいかは知らない。まず前提として、Javaの内部表現としての「文字」は16ビット長のUTF-16ということがある。そうすると、普通に長さを取得すると、UTF-16のサロゲートペアで表される文字は2文字と扱われる。また、文字には合成済み文字という話がある。「か」の後に濁点を結合することで、「が」を表現するみたいなやつ。これらから、どこまで考慮して文字列の長さを取得するかでやり方が違う。 UTF-16のサロゲートペアを考慮しない UTF-16のサロゲートペアを考慮する合成済み文字を考慮する以下試したサンプルコード。 import java.text.Break Iterator; public class UnicodeCharSample { public static void main(String[] args) { // 𪛀あが St
nobuoka 2016/12/23
BreakIterator 知らなかった。便利そう

Unicode

Java
リンク
1

お知らせ

もっと読む

公式Twitter

@HatenaBookmark
リリース、障害情報などのサービスのお知らせ
@hatebu
最新の人気エントリーの配信

キーボードショートカット一覧

j次のブックマーク

k前のブックマーク

lあとで読む

eコメント一覧を開く

oページを開く

設定を変更しましたx