タグ

mojiに関するasipのブックマーク (8)

  • Unicode 絵文字5.0がファイナル - ドクロや吸血鬼など追加

    Unicode is a computing industry standard allowing computers to consistently represent and manipulate text expressed in most of the world's writing systems. Unicode Consortiumは3月27日(米国時間)、「The Unicode Blog: Unicode Emoji 5.0 characters now final」において、2017年6月に公開を予定しているUnicode 10.0とともに利用の開始が想定される「Unicode Emoji Version 5.0」のデータをフィックスしたとともに、フォントやコードの開発のためにベンダに対して草稿を公開したと伝えた。「Unicode Emoji Version 5.0」に

    Unicode 絵文字5.0がファイナル - ドクロや吸血鬼など追加
    asip
    asip 2017/03/30
  • UTF-8で変換できない機種依存文字を置換する

    Summary UTF-8 のページから (株) や ローマ数字の I などの文字をメールで送信すると,文字化けする. 文字化けしそうな文字を,ad hoc に機種依存しない文字に変換する. ローマ数字もカッコで括るか,スペースを挿入したほうが良いかも. Source function replaceText($str){ $arr = array( /* --- 0x2100 - 0x2138 (文字種記号) --- */ // 0x2100 - 0x210F '\xE2\x84\x80' => 'a/c', '\xE2\x84\x81' => 'a/s', '\xE2\x84\x82' => 'C', '\xE2\x84\x83' => '?', '\xE2\x84\x84' => '?', '\xE2\x84\x85' => 'c/o', '\xE2\x84\x86' => 'c/u

    asip
    asip 2010/11/06
  • 2004-11-21

    非最小形式の不正なエンコーディングに注意 UTF-8 は文字によって1文字あたりのバイト数が1バイトから4バイト(もしくは6バイト)と可変長なエンコーディングです。Unicode の各文字がどのようなバイト列で表現されるかは、下表のようになっています。 Unicode 文字範囲UTF-8 でのバイト列(2進数) U+0000〜U+007F 0xxxxxxx U+0080〜U+07FF 110xxxxx 10xxxxxx U+0800〜U+FFFF 1110xxxx 10xxxxxx 10xxxxxx U+10000〜U+10FFFF 11110xxx 10xxxxxx 10xxxxxx 10xxxxxx この表から明らかなように、ASCII の文字範囲(U+0000〜U+007F)までは、来なら1バイトで表現され、ASCII と互換のはずです。 ところが、意図的に必要以上のバイト数で文字

    2004-11-21
  • 文字コードに起因する脆弱性とその対策

    4. 徳丸浩の自己紹介 • 経歴 – 1985年 京セラ株式会社入社 – 1995年 京セラコミュニケーションシステム株式会社(KCCS)に出向・転籍 – 2008年 KCCS退職、HASHコンサルティング株式会社設立 • 経験したこと – 京セラ入社当時はCAD、計算幾何学、数値シミュレーションなどを担当 – その後、企業向けパッケージソフトの企画・開発・事業化を担当 – 1999年から、携帯電話向けインフラ、プラットフォームの企画・開発を担当 Webアプリケーションのセキュリティ問題に直面、研究、社内展開、寄稿などを開始 – 2004年にKCCS社内ベンチャーとしてWebアプリケーションセキュリティ事業を立ち上げ • その他 – 1990年にPascalコンパイラをCabezonを開発、オープンソースで公開 「大学時代のPascal演習がCabezonでした」という方にお目にかかること

    文字コードに起因する脆弱性とその対策
  • 文字コード(UTF-8,Shift_JIS,EUC-JP,ISO-2022-JP)についての俺的まとめ - 今日もスミマセン。

    「プログラマのための文字コード技術入門」を読んで自分なりに理解した点をザックリとまとめてみる。 それほど正確性を求めて書いているわけではないので、間違ってる可能性大です。 間違いなどあればコメントなど頂けるとありがたいです。 それぞれの文字コードはどう違うのか? 日語の文字コードは大きく以下の2つに分けられる JIS X 0208 文字集合をベースにしたもの Unicode文字集合をベースにしたもの JIS X 0208 文字集合をベースにした文字コードには、EUC-JP, Shift_JIS, ISO-2022-JP がある。 Unicode文字集合をベースにした文字コードには、UTF-8, UTF-16 などがある。 上で挙げた「文字コード」とは正確には「エンコーディング(文字符号化方式)」の事を指す。 文字符号化方式 文字集合って? 読んでそのまんま”文字の種類の集まり”。「キャラ

    文字コード(UTF-8,Shift_JIS,EUC-JP,ISO-2022-JP)についての俺的まとめ - 今日もスミマセン。
    asip
    asip 2010/07/13
  • 革命の日々! ハチクロはUnicodeの歴史を変えてしまったらしい

    togetterで「ISO/IEC JTC 1/SC 2/WG 2 ad hoc meetings: Emojiに関するTweets」がまとめられているようだ。 すばらしい。 → http://togetter.com/li/15979 と http://togetter.com/li/16108 一番面白かったのは「勝ち誇り」フェイス変更のくだりで この頭の左側のような「はぁ?なにこの鼻提灯」といった図面から 以下のような正しい鼻息に変更されたのだが そのときに使われた、日のマンガ文化の文脈で「勝ち誇り」がどのように抽象化されているのか という説明に使われたのが以下のコマだという 小形さんの多大なる貢献に経緯を表しつつ。そして同時に、森田先輩あなたって人は・・・・

    asip
    asip 2010/04/26
  • Twitterで使える日本人には無い発想で作られた顔文字、絵文字 - 涙目で仕事しないSE

    asip
    asip 2010/04/12
  • グーグルが絵文字を世界標準に提案した理由--国際化エンジニアに聞くプロジェクトの舞台裏(前編)

    はじめに 2008年11月27日、Googleは日の携帯電話の絵文字をUnicodeに収録する計画を公表した。これまで7回にわたってお伝えしてきた連載「絵文字が開いてしまったパンドラの箱」は、この公表から後の動きを追ったものだ。 では、それ以前の同社は何をしていたのか? つまり、Googleはどんなプロセスを経て絵文字をUnicodeに提案すると決めたのだろう。今回ご報告するのはこのことだ。 インタビューに答えてくれたのは桃井勝彦氏。氏は大学時代にスカラシップ(奨学金)で渡って以来米国に暮しつづけている。言語学・日語学を専攻する大学院生、大学教員などの経歴も持ち、1996年に学術界からNetscape国際化部門に入社。2004年にMozilla Japanの設立にかかわった後、2005年にGoogleに移った経験豊かな国際化エンジニアだ。マウンテンビューにある米社にあって、今回の符号

    グーグルが絵文字を世界標準に提案した理由--国際化エンジニアに聞くプロジェクトの舞台裏(前編)
    asip
    asip 2010/02/25
  • 1