タグ

unicodeに関するfavrilのブックマーク (8)

  • Twitterで見かけるハミ出した顔文字の正体 - RyoAnna

    少し前からTwitterで見かけるようになった、上下に飛び出す変な顔文字。 気持ち悪いのであまり関わらないようにしていたのだが、この顔文字の謎が明らかになったのでお伝えしたい。 いつものようにiPhoneのApp Storeをぶらぶらしていた時のこと。 Unicoder Lite (App Store)というアプリが気になりダウンロードした。 起動するとなにやら見慣れた文字が。 顔文字でよく使われるギリシャ文字やキリル文字だ。 しばらく眺めているとこんな符号が。 合成用区分符号 これが上と下の行にはみ出す顔文字の正体だった。 ためしに作ってみよう。 ベースとなる顔文字を置く。 左目に合成用区分符号を入れる。 続いて右目に。 見事にはみ出す。 Unicode(ユニコード)とは、世界中のコンピュータの文字を符号化したもの。その "U+0300-036F" に配置されているダイアクリティカルマー

    Twitterで見かけるハミ出した顔文字の正体 - RyoAnna
  • ブラウザでさくさく確認できる、Unicodeの一覧表

    ブラウザでさくさく確認できる、Unicodeの一覧表「Unicode table for you」を紹介します。

  • Unicode(東アジア) - CyberLibrarian

    Unicodeの字種の表です。 下表のリンク先のページに、十六進数の数値文字参照で記述した文字コード表を掲載しています。文字コード表中の各文字は、ユニコード・コンソーシアムが提供しているUnihanデータベースの該当文字へリンクしてあります。文字コード表中の文字は、環境によっては正しく表示されない場合がありますが、各ページからリンクしているPDFでは正しく表示されます。 字源的には同じだが字形の異なる中国語、日語、朝鮮語、ベトナム語の漢字に同じコードを与えて統合した漢字です。 CJK統合漢字、拡張Aと拡張Bには、JIS X 0213の漢字が含まれています。 拡張Bには、多数の重複字の存在が指摘されています。 拡張Fには、文字情報基盤整備事業が提案した漢字(1,645字)、大蔵経テキストデータベース研究会が提案した漢字(2,884字)も含まれています。 拡張Gには、大蔵経テキストデータベー

  • そろそろUnicodeについて一言いっておくか - 未来のいつか/hyoshiokの日記

    文字コードの標準化について日記を書いたのだが、内容がいまいちだったのでボツにして気を取り直してUnicodeについて一言いっておくことにする。先日、といっても昨年(2008年)の10月なんだけど、その中でちょと文字コードの標準化について話をしている。*1 もう1つ自分の経験としてあるのが、漢字の文字コードがあるんですけど、番号で言うとJIS X 0208とか0212とか規格の番号で皆言うわけなんですけど、実は1988年にその日語の文字コードの改正の委員会にいたんですね。 その当時、私は 30歳ぐらいなんですけど、「富士通」とか「日立」とか「NEC」の部長さんぐらいの偉い人たちが来てて、私なんか外資系で且つ30前後のぺーぺーだから、全然格下なんですよ。 そういうところで議論の主軸を担ってるのは、「富士通」「日立」「NEC」「日IBM」「東芝」「沖」、外資でいえば「ユニシス」とかの錚々たる

    そろそろUnicodeについて一言いっておくか - 未来のいつか/hyoshiokの日記
  • 文字コード表(コード対応表) 0x9-0xA - [技術資料 + 技術資料] ぺんたん info

    0x0-0x4/ 0x5-0x6/ 0x7-0x8/ 0x9-0xA/ 0xB-0xC/ 0xD-0xF コード SJIS JIS EUC UTF 0x9000       退 0x9001       送 0x9003       逃 0x9005       逅 0x9006       逆 0x900B       逋 0x900D       逍 0x900E       逎 0x900F       透 0x9010       逐 0x9011       逑 0x9013       逓 0x9014       途 0x9015       逕 0x9016       逖 0x9017       逗 0x9019       這 0x901A       通 0x901D       逝 0x901E       逞 0x901F       速 0x9020    

  • JavaとMySQLの組み合わせでUnicodeのU+00A5を用いたSQLインジェクションの可能性

    補足 この記事は旧徳丸浩の日記からの転載です(元URL、アーカイブはてなブックマーク1、はてなブックマーク2)。 備忘のため転載いたしますが、この記事は2008年12月22日に公開されたもので、当時の徳丸の考えを示すものを、基的に内容を変更せずにそのまま転載するものです。 補足終わり 今年のBlack Hat Japanには、はせがわようすけ氏が「趣味と実益の文字コード攻撃」と題して講演され話題となった。その講演資料が公開されているので、私は講演は聞き逃したが、資料は興味深く拝見した。その講演資料のP20以降には、「多対一の変換」と題して、UnicodeのU+00A5(通貨記号としての¥)が、他の文字コードに変換される際にバックスラッシュ「\」(日語環境では通貨記号)の0x5Cに変換されることから、パストラバーサルが発生する例が紹介されている。 しかし、バックスラッシュと言えばSQL

  • Unicode HOWTO

    サービス終了のお知らせ いつもYahoo! JAPANのサービスをご利用いただき誠にありがとうございます。 お客様がアクセスされたサービスは日までにサービスを終了いたしました。 今後ともYahoo! JAPANのサービスをご愛顧くださいますよう、よろしくお願いいたします。

  • WeekBuildのHACK日記 UnicodeとUTF-8の違い

    を、最近やっと知りました。 UTF-8はUnicodeを\xxxxっていう1文字が1~3バイトになる変な形式に形式に変換したもので、unicodeをファイルとかに入出力するときに使われるなんですよ。 ずっとその違いがわからなくて、SQLiteCCでTracのデータ覗いたときに、なんでunicodeなのに文字化けするんだろう???って思ってました。 (SQLiteCCはunicodeではなくutf-8をサポートしており、unicodeでSQLiteに保存した文字はSQLiteCCでは表示できなかった) 文字コードって難しい(~ヘ~;) ちなみに、 Pythonutf-8をunicodeに変換するには、 text = unicode(text,'utf-8') Shift-jisをunicodeに変換するには、 text = unicode(text,'Shift_JIS') unicode

  • 1