タグ

関連タグで絞り込む (1)

タグの絞り込みを解除

文字コードに関するmwsoftのブックマーク (9)

  • スマートフォンにおける厄介な漢字の表示実験

    情報交換でよく問題になる「厄介な漢字」は、流行のスマートフォンではどのように表示されるのだろう? これを明らかにするため、公募による実験を試みた。具体的には、実施者が問題になる文字を選定、 ツイッターにて送出、そのツィートのスクリーンショットをスマートフォンのオーナーに送ってくれるよう呼びかけた。 スマートフォン以外からの応募もあったので併せて掲載する。当日の詳細なやり取りは 「文字化けの饗宴:スマートフォンにおける厄介な文字の表示実験」を参照されたい。 実施日は2011年6月21日、実施者は小形克宏である。 送出した漢字の内訳 0面以外にある常用漢字…… 𠮟(U+20B9F) その他の0面以外の文字…… 𠮷(U+20BB7) UnicodeにあるがJIS X 0213にない字…… 髙(U+9AD9) IBM拡張文字…… 神(U+FA19) IBM拡張文字ではないJIS X

  • UnicodeとUTF-8の違いは? - Humanity

    という2chのスレがかなり勉強になったのでまとめ。 少しでも有用だと思ったものは載せてあるので結構長いです。 Unicodeのような文字集合(符号化文字集合?)やUTF-8のようなエンコーディング方式に限らず色んな文字コードにまつわる話があります。 たびたび話が繰り替えされますがそれは確認ということで。 (元スレ) 追記:簡単にまとめました。 1 :デフォルトの名無しさん:2007/04/30(月) 20:02:37 ビッグインディアンとかなんとかかんとか 3 :デフォルトの名無しさん:2007/04/30(月) 20:05:48 また、頭の悪そうなスレが・・・ >>1 それは魚とマグロの違いを訊ねるようなもんだ。 4 :デフォルトの名無しさん:2007/04/30(月) 20:06:49 魚と鮪というよりは、魚と刺身の違いのような気がする。 5 :デフォルトの名無しさん:2007/04/

    UnicodeとUTF-8の違いは? - Humanity
    mwsoft
    mwsoft 2010/11/30
    ちょこちょこ知らない話も出てきた
  • 5-1. 𛀁𛀀の技術情報

    Unicode 6.0.0より使用可能となった次の仮名2文字にまつわる情報をまとめた頁です。 𛀁𛀁: U+1B001; HIRAGANA LETTER ARCHAIC YE(ヤ行のエを表した「江」に由来する平仮名。「エ」のひらがな版) 𛀀𛀀: U+1B000; KATAKANA LETTER ARCHAIC E(あ行のえを表した「衣」に由来する片仮名。「え」のカタカナ版) 技術情報 𛀁𛀁 Unicode: U+1B001; HIRAGANA LETTER ARCHAIC YE UTF-8: f0 9b 80 81 (11110000 10011011 10000000 10000001) UTF-16: d82c dc01 (11011000 00101100 11011100 00000001) 文字参照16進数: 𛀁(𛀁) 文字参照10進数: &#1105

  • Mahjong Tiles – Test for Unicode support in Web browsers

    The Mahjong Tiles range was introduced with version 5.1.0 of the Unicode Standard, and is located in Plane 1 (the Supplementary Multilingual Plane). Windows XP and later versions support supplementary characters by default. In Windows 2000, you need to enable support for supplementary characters. These characters cannot easily be displayed in earlier versions of Windows. Mahjong is a game that ori

    mwsoft
    mwsoft 2010/02/10
    Unicodeの麻雀牌表示テストページ(FFもChromeもIEもまだ見れなかった)
  • Oracle Java Technologies | Oracle

    Java Is the Language of Possibilities Java is powering the innovation behind our digital world. Harness this potential with Java resources for student coders, hobbyists, developers, and IT leaders.

  • UTF-8の文字コード表 - 備忘帳 - オレンジ工房

    UTF-8の文字コード表なのです。いつも検索して、よそ様のページを参照させていただいていたのですが、面倒なので自分で作りました。 perlのスクリプトでガーッと出したので、見栄えはアレですが、とりあえず。 1バイト文字 2バイト文字 3バイト文字 E2 9C 80 ~ Dingbats、昔からある記号、絵文字とか E3 80 80 ~ 全角ひらがな・カタカナ EF BC 80 ~ 全角英数字、半角カナ 4バイト文字 F0 9F 8C 80 ~ たぶん今どきの皆さんの言う絵文字 F0 9F 98 80 ~ 顔文字 更新履歴 (2018-05-10 追記) コード表を全体的に再出力しました。変更点は以下の通りです。 unicode追加面、4バイト文字の表もつくりました。 各文字ブロックにタイトルを付けました。英語タイトルはUnicode仕様書PDFへ直リンクしています。 表示されてないけど、ど

  • UTF-8の冗長なエンコードとは何で、なんでそれがセキュリティ的に危ないのか?を文字コード知識レヴェル3くらいの凡プログラマが考えてみる - tohokuaikiのチラシの裏

    何故かあたり前にならない文字エンコーディングバリデーション | yohgaki's blog ってあるように、いまいち文字コードの不正な判定による危険性ってのが分かってない。 SJISの問題は、(2/3)SQLインジェクションを根絶!セキュア開発の極意 - 第5回■注目される文字コードのセキュリティ問題:ITproの記事がわかりやすかった。 というか、やっぱりPHP使ってると誰でも一度は「なんじゃこの『¥』は?」って思うもんなんで。 なるほど、確かに↓の図のように「あるバイト」が2つの意味を持つっていう文字コード形態はやばいんだなと。 EUC-JPはそんなことはしないで、1つのバイトには1つの意味しか取らせない。 だけど、これでも文字化けが起こることがある。経験的には、「マルチバイトをXX文字で切り落としたい」とかやった場合。ちゃんと文字コードを判定してくれるPHPでいえばmb_subst

  • Unicode対応 JIS X 0208 文字コード表

    Unicode対応 JIS X 0208 文字コード一覧 JIS X 0208 の区点番号、JISコード、シフトJISコード、EUCコード、Unicode(UTF-8, UTF-16)の文字コード対応一覧です。 文字コードとその文字を順に出力しているだけですので、表示される文字はフォントによって決まります。 01区~08区 JIS非漢字(各種記号、英数字、かな) 13区~13区 NEC特殊文字(機種依存) 16区~47区 JIS第1水準漢字 48区~84区 JIS第2水準漢字 文字コードについてのページや、文字コード一覧についての説明もあります。 JIS X 0208 JIS非漢字 文字コード表 区 点 JIS SJIS EUC UTF-8 UTF-16 字 01 01 2121 8140 A1A1 E38080 3000 01 02 2122 8141 A1A2 E38081 3001

  • 第8回■主要言語の文字エンコーディングの対応状況を押さえる

    文字コードの問題に正しく対応する前提として,アプリケーションが稼働する基盤ソフトウエアがマルチバイト文字列処理に対応している必要がある。特に問題となるのが,言語処理系とデータベース管理システム(DBMS)である。利用者の使い方が正しくない場合も,ぜい弱性が混入することがある。このため,今回は主要言語とデータベース(MySQLとMS SQL Server)のマルチバイト文字対応状況について説明する。 文字列の処理単位は文字単位かバイト単位か Webアプリケーション開発で人気のあるスクリプト言語の多くは,かつては文字列をバイト単位で扱っているものが多かった。以下のPerlスクリプトは“漢字”という文字列の長さを表示するものだが,ソースの文字エンコーディングによって結果が変わる。具体的には,Shift_JISやEUC-JPの場合は4,UTF-8の場合は6と表示される。原因は,このスクリプトが文字

    第8回■主要言語の文字エンコーディングの対応状況を押さえる
  • 1