タグ

関連タグで絞り込む (0)

  • 関連タグはありません

タグの絞り込みを解除

objective-cとemojiに関するkenzan8000のブックマーク (2)

  • NSStringから絵文字を外す - Qiita

    日々、Xcode の機嫌を伺う読者諸賢の皆様、こんばんは。これは、Objective-C Advent Calendar 2012の3日目の記事です。以前、NSString な文字列から絵文字だけを除去する必要に駆られたことがあったので、不幸にも同じ事態に陥った方の為のメモを残しておきます。 サロゲートペア(代用対) NSString は UTF-16のラッパだそうで、その文字列にはデータ長が 16bit の文字と、サロゲートペアと呼ばれる 32bit の文字が混在しています。サロゲートペアは、上位 16bit が 0xD800~0xDBFF、下位 16bit が 0xDC00~0xDFFF の範囲に収まることになっていて、ある文字がサロゲートペアかどうかは、最初の 16bit を見ることで判別できます。 コードポイント(符号点) 通常、Unicode は U+ から始まるコードポイントと

    NSStringから絵文字を外す - Qiita
  • 絵文字を含むNSStringの正確な文字数をカウントする(2) | Tips

    ちょっと前に絵文字の混在した文字列のカウント方法について書いたら、ちゃんとカウントできない文字があると指摘された。 なるほど、確かにカウントできない文字がある。いったいどんな規則性があるのかと思っていたら、絵文字の文字コードをまとめていたサイトを教えてもらった。 それがこれ↓ iOS Emoji う~ん、まるで規則性が見当たらないと思っていたらピンときた。前は UTF8String とかやってたけど、内部の文字コードはもしかしてUTF-16ではなかろうか?と思って調べたらやっぱりUTF-16だった。それならわざわざUTF-8に変換しないでUTF-16のまま処理した方が良い。 UTF-16といえば主要なトピックはサロゲートペアだ。0xD800-0xDBFFが上位サロゲート、0xDC00-0xDFFFが下位サロゲート。( Wikipedia#Unicode 参考)なので上位サロゲートを検出した

  • 1