タグ

unicodeに関するsatococoaのブックマーク (8)

  • 絵文字を支える技術の紹介 - Qiita

    絵文字を扱う上で知っておくと良いかもしれないことをまとめてみました。 Ruiさんの記事を見て、「EmojiはSurrogate Pair以外にも、色々とおもしろい技術があるんですよ〜」思って書いてみました。 なお、書いた人はAndroidの人間なので、特に表記していない場合は主にAndroid上での動作のことを書いてます。 またQiita初めてなので読みにくい部分等がありましてもご容赦ください。 サロゲートペア(Surrogate Pairs) このエントリーを書くきっかけにもなったサロゲートペア。なぜこれが導入されたかの経緯は、Ruiさんのブログエントリーに譲るとして、技術的な解説をします。 サロゲートペアは、U+0000..U+FFFFに収まりきらなかった範囲のUnicodeコードポイント(U+10000..U+10FFFF)を、なんとか16bitでエンコードしようとして導入されました

    絵文字を支える技術の紹介 - Qiita
  • 絵文字がある種のUnicodeバグを世界から一掃しつつある件について|Rui Ueyama

    UnicodeのUTF-16エンコーディングではほとんどの文字(コードポイント)は2バイトで表現されるが、Unicodeに後から追加収録された文字の多くは4バイトで表現される。4バイト文字がうまく扱えないプログラムというのはわりとよくある。しかし世界中で広く使われるようになった絵文字がよりによって4バイト文字であるせいで、そのような文字が扱えない問題がよいペースで解決に向かいつつある。それについて少し説明してみようと思う。 Unicodeが80年代から90年代初頭にかけてデザインされたときの目標の一つは、Unicodeに含まれる文字数を65536個以内に収めることだった。現代の文章を実用的なレベルで表すためには、漢字などを含めてもそれだけの種類の文字があれば十分だと考えられたのだ。当然これは1文字を2バイトで表すことを念頭に置いていた。つまりコンピュータの揺籃期から当時に至るまで単純に英語

    絵文字がある種のUnicodeバグを世界から一掃しつつある件について|Rui Ueyama
  • Swift の文字列の長さ - Qiita

    length プロパティが無い!? たいていのプログラミング言語の文字列には length というプロパティやメンバ関数があって文字列の長さを取得できます。ところが驚くことに Swift の文字列には length プロパティがありません。Objective-C 由来の NSString にだってあるのにこれはどういうことでしょう? これは真面目に向き合うと、とても複雑な Unicode に Swift が真面目に向き合っていることに起因します。 Unicode 昔々、コンピュータは地域ごとに、酷いとメーカーごとに異なる文字コードを使っていました。これでは地域やメーカーを超えた文章ファイルのやりとりは色々と面倒なことになります。また、欧米の文字は 1 文字 1 バイトなのに対し日をはじめとした東アジアの文字は 1 文字 2 バイトで表すことが多く文字列処理が煩雑という問題もありました。こ

    Swift の文字列の長さ - Qiita
  • スマートフォンでの絵文字のコードマッピングはこんな感じ? - Qiita

    あまりこれだ!ってまとまった情報が見つけられず、かといって個別に調べるには至ってないので間違ってるかもしれない。もし間違ってたらご指摘ください、もっといい情報がある場合にも教えていただけると助かります。 Register as a new user and use Qiita more conveniently You get articles that match your needsYou can efficiently read back useful informationYou can use dark themeWhat you can do with signing up

    スマートフォンでの絵文字のコードマッピングはこんな感じ? - Qiita
  • Unicodeブロック/スクリプトを使うと日本語の正規表現に便利 - There's an echo in my head

    Oniguruma(CRuby 1.9系組み込み)とOnigumo(CRuby 2.0系組み込み)で利用できるUnicodeブロックおよびUnicodeスクリプトを使うと、日語(というか多バイトの文字列)に対する正規表現が手軽に書ける。 例えば\p{N}は全角半角にかかわらずアラビア数字にマッチする。Unicode 6.0だと四角い囲いのついた数字は数字と囲い記号の結合で表わされるけども、この数字の部分にもマッチする。 /\p{N}/ =~ "1" #=> 0 /\p{N}/ =~ "1" #=> 0 /\p{N}/ =~ "\u{0030 20E3}" #=> 0 他にもアルファベットだと\p{Alphabetic}、小文字だけなら\p{Lowercase}とか。なにが使えるかはOnigurumaのREADMEのCharacter Propertyとか、OnigumoのUnicodeP

    Unicodeブロック/スクリプトを使うと日本語の正規表現に便利 - There's an echo in my head
  • 絵文字だョ! 符号化文字集合(後編) - mixi engineer blog

    同僚の女性からクッキーをすすめられても、「サードパーティークッキーは拒否します」とキッパリお断り申し上げたiPhoneアプリ開発担当の七尾です。というか、どう考えてもホワイトデーの(ry さて先週に引き続き、iOS開発でUnicode絵文字を扱う際の注意点について書いていこうと思います。 Combining Character/結合文字 サロゲートペアの他にも同様に気をつけなければいけないのが、結合文字です。 アルファベットに対しての修飾文字を付けたり、数字を四角で囲ったりした文字があります。 そういった文字は結合文字と呼ばれ、iPhoneで入力できる文字でいうと、 1を四角で囲った文字 = 0x31 0x20E3 2を四角で囲った文字 = 0x32 0x20E3 というようになります。 結合文字の文字数を取りたい場合は、特定の修飾文字を読み飛ばせば良いだけなので、 以下のようにさらっと対

  • 絵文字だョ! 符号化文字集合(前編) - mixi engineer blog

    先日取り上げて頂いたテック総研のインタビューでは残念ながら時間の都合で、ろくろを回す事が出来なかった、iPhoneアプリ開発担当の七尾です。いやー残念。 先日お伝えしたAppleカラー絵文字文字コード表にUnicodeコードポイント、UTF-8、SoftBankUnicodeも追加したので、お知らせします。 iOS Emoji - GitHub Pages ついでに各種変換処理なども書いたり、Unicodeの仕様を調べたりしたので、文字コードのおさらいとして、いくつかUnicode絵文字を扱う上での注意点についても、メモしておこうと思います。と思ったら結構な分量になってしまったので、前半と後半に分けてお送りします。 UnicodeSet そもそも絵文字ってどこからどこまで?という問いに答えてくれるのが、UnicodeSetです。 よく使われるものだと\p{Han}(漢字の範囲を示す)だとか

    絵文字だョ! 符号化文字集合(前編) - mixi engineer blog
  • iOS Emoji

    About iOS6での絵文字はこちらです iOS5から利用できるunicode6な絵文字のキャプチャ画像とUnicodeコードポイント,UTF8,UTF16,SoftBank Unicodeでの文字コードの対応表です。 iPad絵文字キーボードと同じ順番に並んでいます。 画像が多いので、GithubPagesでは分割版のhtmlにしています。統合版のhtmlはmasterブランチに入っているので、必要な方はそちらをご利用ください。 JSON配列(ソート済み/UTF16)はこちら Smiley

  • 1