[B! moji] asipのブックマーク

Unicode 絵文字5.0がファイナル - ドクロや吸血鬼など追加

Unicode is a computing industry standard allowing computers to consistently represent and manipulate text expressed in most of the world's writing systems. Unicode Consortiumは3月27日(米国時間)、「The Unicode Blog: Unicode Emoji 5.0 characters now final」において、2017年6月に公開を予定しているUnicode 10.0とともに利用の開始が想定される「Unicode Emoji Version 5.0」のデータをフィックスしたとともに、フォントやコードの開発のためにベンダに対して草稿を公開したと伝えた。「Unicode Emoji Version 5.0」に

asip 2017/03/30

moji

リンク

UTF-8で変換できない機種依存文字を置換する

Summary UTF-8 のページから (株) やローマ数字の I などの文字をメールで送信すると，文字化けする．文字化けしそうな文字を，ad hoc に機種依存しない文字に変換する．ローマ数字もカッコで括るか，スペースを挿入したほうが良いかも． Source function replaceText($str){ $arr = array( /* --- 0x2100 - 0x2138 (文字種記号) --- */ // 0x2100 - 0x210F '\xE2\x84\x80' => 'a/c', '\xE2\x84\x81' => 'a/s', '\xE2\x84\x82' => 'C', '\xE2\x84\x83' => '?', '\xE2\x84\x84' => '?', '\xE2\x84\x85' => 'c/o', '\xE2\x84\x86' => 'c/u

asip 2010/11/06

moji

リンク

2004-11-21

非最小形式の不正なエンコーディングに注意 UTF-8 は文字によって1文字あたりのバイト数が1バイトから4バイト(もしくは6バイト)と可変長なエンコーディングです。Unicode の各文字がどのようなバイト列で表現されるかは、下表のようになっています。 Unicode 文字範囲UTF-8 でのバイト列(2進数) U+0000〜U+007F 0xxxxxxx U+0080〜U+07FF 110xxxxx 10xxxxxx U+0800〜U+FFFF 1110xxxx 10xxxxxx 10xxxxxx U+10000〜U+10FFFF 11110xxx 10xxxxxx 10xxxxxx 10xxxxxx この表から明らかなように、ASCII の文字範囲(U+0000〜U+007F)までは、本来なら1バイトで表現され、ASCII と互換のはずです。ところが、意図的に必要以上のバイト数で文字

asip 2010/11/04

リンク

文字コードに起因する脆弱性とその対策

4. 徳丸浩の自己紹介 • 経歴 – 1985年京セラ株式会社入社 – 1995年京セラコミュニケーションシステム株式会社(KCCS)に出向・転籍 – 2008年 KCCS退職、HASHコンサルティング株式会社設立 • 経験したこと – 京セラ入社当時はCAD、計算幾何学、数値シミュレーションなどを担当 – その後、企業向けパッケージソフトの企画・開発・事業化を担当 – 1999年から、携帯電話向けインフラ、プラットフォームの企画・開発を担当 Webアプリケーションのセキュリティ問題に直面、研究、社内展開、寄稿などを開始 – 2004年にKCCS社内ベンチャーとしてWebアプリケーションセキュリティ事業を立ち上げ • その他 – 1990年にPascalコンパイラをCabezonを開発、オープンソースで公開「大学時代のPascal演習がCabezonでした」という方にお目にかかること

asip 2010/09/26

リンク

文字コード（UTF-8,Shift_JIS,EUC-JP,ISO-2022-JP）についての俺的まとめ - 今日もスミマセン。

「プログラマのための文字コード技術入門」を読んで自分なりに理解した点をザックリとまとめてみる。それほど正確性を求めて書いているわけではないので、間違ってる可能性大です。間違いなどあればコメントなど頂けるとありがたいです。それぞれの文字コードはどう違うのか？日本語の文字コードは大きく以下の２つに分けられる JIS X 0208 文字集合をベースにしたもの Unicode文字集合をベースにしたもの JIS X 0208 文字集合をベースにした文字コードには、EUC-JP, Shift_JIS, ISO-2022-JP がある。 Unicode文字集合をベースにした文字コードには、UTF-8, UTF-16 などがある。上で挙げた「文字コード」とは正確には「エンコーディング（文字符号化方式）」の事を指す。文字符号化方式文字集合って？読んでそのまんま”文字の種類の集まり”。「キャラ

asip 2010/07/13

moji

リンク

革命の日々！ハチクロはUnicodeの歴史を変えてしまったらしい

togetterで「ISO/IEC JTC 1/SC 2/WG 2 ad hoc meetings: Emojiに関するTweets」がまとめられているようだ。すばらしい。 → http://togetter.com/li/15979 と http://togetter.com/li/16108 一番面白かったのは「勝ち誇り」フェイス変更のくだりでこの頭の左側のような「はぁ？なにこの鼻提灯」といった図面から以下のような正しい鼻息に変更されたのだがそのときに使われた、日本のマンガ文化の文脈で「勝ち誇り」がどのように抽象化されているのかという説明に使われたのが以下のコマだという小形さんの多大なる貢献に経緯を表しつつ。そして同時に、森田先輩あなたって人は・・・・

asip 2010/04/26

moji

リンク

Twitterで使える日本人には無い発想で作られた顔文字、絵文字 - 涙目で仕事しないSE

asip 2010/04/12

moji

リンク

グーグルが絵文字を世界標準に提案した理由--国際化エンジニアに聞くプロジェクトの舞台裏（前編）

はじめに 2008年11月27日、Googleは日本の携帯電話の絵文字をUnicodeに収録する計画を公表した。これまで7回にわたってお伝えしてきた連載「絵文字が開いてしまったパンドラの箱」は、この公表から後の動きを追ったものだ。では、それ以前の同社は何をしていたのか？　つまり、Googleはどんなプロセスを経て絵文字をUnicodeに提案すると決めたのだろう。今回ご報告するのはこのことだ。インタビューに答えてくれたのは桃井勝彦氏。氏は大学時代にスカラシップ（奨学金）で渡って以来米国に暮しつづけている。言語学・日本語学を専攻する大学院生、大学教員などの経歴も持ち、1996年に学術界からNetscape国際化部門に入社。2004年にMozilla Japanの設立にかかわった後、2005年にGoogleに移った経験豊かな国際化エンジニアだ。マウンテンビューにある米本社にあって、今回の符号

asip 2010/02/25

moji

リンク

はてなブックマーク

タグ

関連タグで絞り込む (2)

mojiに関するasipのブックマーク (8)

お知らせ

今週のはてなブックマーク数ランキング（2024年10月第1週）

月間はてなブックマーク数ランキング（2024年9月）

今週のはてなブックマーク数ランキング（2024年9月第5週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス