タグ

文字コードに関するnone53のブックマーク (18)

  • SoftBank iPhoneのShift_JISがすごいことになっている件 - 帰ってきた💫Unicode刑事〔デカ〕リターンズ

    下図は、SoftBank iPhoneのMailが用いるShift_JISのIBM拡張文字領域*1。どうだ、驚いたろう。 SoftBank iPhoneのMailは、charset=Shift_JISをよく使う。髙村薫の「髙」や宮﨑あおいの「﨑」などのWindows外字もShift_JISで送るし、絵文字もShift_JISで送る。しかし、WindowsのIBM拡張文字領域とSoftBankの絵文字領域は、もともと衝突しており、共存できない。なので、SoftBank iPhoneのShift_JISでは、IBM拡張文字のうち下図ピンク部分が使えない。 だったらその分は、NEC選定IBM拡張文字のほうを使えばいいじゃないですか、どうせダブってるんだから(下図)。というのが、大ざっぱに言えば、SoftBank iPhoneのMailが用いるShift_JISである。 その外字領域をまとめると、

    SoftBank iPhoneのShift_JISがすごいことになっている件 - 帰ってきた💫Unicode刑事〔デカ〕リターンズ
  • Webディレクター向け 文字コードとフォントの基礎知識

    Webサイトでは画像や動画などのさまざまなコンテンツを扱いますが、多くの場合、主役となるのはテキスト情報です。Webページの制作では、テキストを正しく表示するために、文字コードとフォントを適切に選択する必要があります。 文字コードとは? 文字コードとは、コンピューターが文字を表すのに使う数値です。世界各国で言語ごとにさまざまな文字コードがあり、日語では「Shift_JIS」「EUC」といった文字コードが多く使用されています。最近では、世界中の文字を1つの文字コードで利用できるようにした「Unicode」も広く普及してきました。 Webページを作成するときは、HTMLファイル内に文字コードの指定を記述します。Webブラウザーは文字コードの指定を元に表示に使う文字コードを決定するため、HTMLで指定した文字コードと、実際に使用している文字コードとが異なると、文字化けして表示されます。また、H

    Webディレクター向け 文字コードとフォントの基礎知識
  • コンソール(cmd.exe)の文字コードを UTF-8 に - miau's blog?

    最近だとソースコードや DBUTF-8 で統一するのが当たり前になってきてますが、日語版の Windows は cmd.exe で Shift_JIS(Windows-31J)以外でエンコードされた文字を出力すると文字化けしてしまいます。 この対応について、半端ではありますがいくつか調べたのでそのお話。 ■対応方法 ○chcp 使う→これだけではダメ。 去年の頭の時点で一般的にいわれていた対策は「chcp 65001」にするというもの。 chcp 65001 でもこれってうまくいかないんですよね。「これは UTF-8 ですよ。」という内容のテキストファイルを出力すると、こんな感じ。 (ラスタフォント。マルチバイトが 1 バイトずつ認識されてる。) (Lucida Console。文字認識はうまくいってるけどフォントが該当文字を持っていない。) (Win7 上でのラスタフォント。元々

  • ゆかしメディア|『ヘッジファンド』から『慶応幼稚舎』まで

  • UnicodeのIVSがもたらすメリットとデメリット

    UnicodeのIVS(Ideographic Variation Sequence)は、漢字を表すUnicodeの直後に Variation Selectorと呼ばれるコードを付加し、漢字の「異体字」を表現する方法だ。IVSによって、従来よりも多くの字体が利用可能になる反面、データの「名寄せ」が困難になる恐れもある。文字コードに詳しい京都大学人文科学研究所附属東アジア人文情報学研究センターの安岡孝一准教授が、IVSの利点と懸念すべきポイントを解説する。(日経コンピュータ) 筆者がITproに「漢字1文字が最大8バイト、Unicodeの「IVS」とは?」を寄稿してから約1年が経って、IVSに新たな動きがあった。常用漢字表の改正(2010年11月30日)に前後して、4195字のIVSが追加されると同時に、IVS技術促進協議会が発足したのだ。IVSの拡大によって、これまでフォント切り換えでしか

    UnicodeのIVSがもたらすメリットとデメリット
    none53
    none53 2011/01/27
    UnicodeのIVSがもたらすメリットとデメリット - 新常用漢字が引き起こ
  • 日本語と文字コード

    コンピュータは主にアメリカで発達してきたため、未だにアルファベットや数字などの1バイト(7/8ビット)を基単位として扱う前提で作られているものが中心です。そのなかで日語のように多くの文字を必要とする言語は、1文字を表わすのに2バイト以上を要するため、いろいろな困難が伴います。特にインターネットを通じて様々な環境の情報を交換するにあたって、思わぬ問題に遭遇するケースが増えてきました。ここでは、こうしたことを考えるために必要な、日語の文字コードに関する基を整理しておきます。 JIS漢字コード(情報交換用符号化漢字集合) 区点コード JISコード(符号化方式) シフトJISコード EUCコード ASCIIとJISローマ字 Unicode 主要コード規格のまとめ 参考文献、リソース 文字化けしたメールの復元 | The Web KANZAKI ホームページ JIS漢字コード(情報交換用符号

  • 文字コードの部屋 -- 機種依存文字の歴史

    大きな憂です。なんでもかんでもベンダーの責任にしてしまいがちですが、WindowsMac OS を眺めただけでは、よくわかりません。その前身である MS-DOS と 漢字 Talk までさかのぼることで、ようやく問題の質が見えてきます。 目次 機種依存文字とは何か? IBM とその互換機にまつわる歴史 … IBM 拡張文字 NEC とその互換機にまつわる歴史NEC 特殊文字、NEC 選定 IBM 拡張文字 Microsoft にまつわる歴史 Apple にまつわる歴史Apple 標準システム外字 まとめ 1. 機種依存文字とは何か? 来用意されていない、メーカやユーザが独自に作成した拡張文字を「外字」といい、古くからワープロなどで利用されてきました。近年、パソコン通信・インターネットなどのネットワークが普及することによって、OS を越えた文章のやりとりができるように

  • JIS X 0208 の文字コード表

    JIS X 0208 の文字コード表です。 JIS X 0208 文字コード表 01区~08区 各種記号、英数字、かな 09区~15区 未定義(機種依存) (13区 NEC拡張外字) 16区~47区 JIS第一水準漢字 48区~84区 JIS第二水準漢字 85区~94区 未定義(機種依存) (89区~92区 NEC拡張外字) JIS コードの場合、エスケープシーケンスは、表示していません。 このページは、以下のページにあるPerl スクリプトにより自動作成しています。 ASHのプログラムソース ●JIS漢字 JIS SJIS EUC +0 +1 +2 +3 +4 +5 +6 +7 +8 +9 +A +B +C +D +E +F 01区 2120 813F A1A0   、 。 , . ・ : ; ? ! ゛ ゜ ´ ` ¨ 01区 2130 814F A1B0 ^  ̄ _ ヽ ヾ ゝ ゞ

  • 新常用漢字表が迫るUnicode移行、「シフトJIS」では対応不可能 | 日経 xTECH(クロステック)

    普段使用する漢字の指針となる「常用漢字表」が、2010年度にも改正される。新たに追加される196文字の中に、文字コード「シフトJIS」にない漢字が含まれているため、情報システムに大きな影響を与えそうだ。最新のJIS規格「JIS X 0213:2004」の改正に委員としてかかわった京都大学人文科学研究所附属東アジア人文情報学研究センターの安岡孝一准教授が、問題の核心を解説する。     (日経コンピュータ) 2009年11月10日、文部科学省の「文化審議会国語分科会」において、常用漢字表の改正案が承認された。現行の常用漢字表にある1945字から「銑」「錘」「勺」「匁」「脹」の5字を削除し、新たに196字を追加する改正案で、2010年度の内閣告示を目指している。 新しい常用漢字表が告示されると、「シフトJIS」や「EUC-JP」といった従来からある文字コードを使用するシステムで大きな問題が生じ

    新常用漢字表が迫るUnicode移行、「シフトJIS」では対応不可能 | 日経 xTECH(クロステック)
  • アジアの文字コード

    ここでは、日を除くアジア諸国の文字コードをご紹介します。 中国語で用いられる漢字には、繁体字(Traditional Chinese)と、簡体字(Simplified Chinese)があります。繁体字は1960年代以前に中国で用いられていた伝統的な漢字で、伝統字や正体字とも呼ばれ、現在でも台湾や香港で用いられています。簡体字は、中国が繁体字を簡略化して1964年に「簡化字総表」としてまとめた漢字で、中国土やシンガポールで用いられています。 中国 1980年に国家標準総局が簡体字の文字コードGB 2312(ジービーニサンイチニ;Guójiā Biāozhǔn(国家标准) 2312 = 信息交换用汉字编码字符集 基集)を制定しました。GBコード(ジービコード)やGB基漢字(ジービキホンカンジ)とも呼ばれます。その後もいくつかの国家規格が制定されています。GB 2312を採用したEU

  • 小形克宏の「文字の海、ビットの舟」――文字コードが私たちに問いかけるもの

    小形克宏の「文字の海、ビットの舟」 ―― 文字コードが私たちに問いかけるもの [Reported by 小形克宏] 第1部 2000JISがやってきた 第1回 2000JISとはなんだ? (2000年1月19日) 第2回 2000JISの原案はなぜ修整されたか? (2000年1月26日)加筆修正 2000年2月22日 第3回 前回までの訂正と補遺 (2000年2月2日)加筆修正 2000年2月22日 第4回 JCS委員長、芝野耕司の反論(前編) (2000年2月9日)加筆修正 2000年2月12日 第5回 JCS委員長、芝野耕司の反論(後編) (2000年2月16日)加筆修正 2000年2月22日 特別編 MacOS Xの新フォントと2000JISの関係 (2000年2月23日) 特別編2 ISO/IEC 10646で却下された(?)JIS X 0213の新漢字一覧表 (2000年3月8日

  • 日本語OpenTypeフォントの分裂の歴史 - 帰ってきた💫Unicode刑事〔デカ〕リターンズ

    CMapの系統図を描いてみた。 上図左上、源流となっているUniJIS-UCS2は、Adobe-Japan1-4(AJ14)をレパートリとするCMapである。 Appleは、2001年9月リリースのMac OS X 10.1でApple Publishing Glyph Set(APGS)を投入し、JIS X 0213:2000をサポートした。APGSはレパートリとしてはAJ14のスーパーセットだが、主にJIS X 0213との整合性を高めるために、既存のマッピングに変更が加えられている。 2002年9月、AdobeはAPGSを追認する形でAdobe-Japan1-5(AJ15)を策定したが、Appleによるマッピング変更の一部(主としてプロポーショナル・グリフの採用)には追随しなかった。このためAJ15以降のCMapには、Apple用のもの(UniJISX0213系)とそれ以外(UniJ

    日本語OpenTypeフォントの分裂の歴史 - 帰ってきた💫Unicode刑事〔デカ〕リターンズ
  • Mac OS Xの文字コード問題に関するメモ

    文字情報基盤(Moji_Joho)のIVS登録にともなう公開レビュー(PRI 259)にコメントした。PDFはこちら。日語。もう、最初から最後まで日語。 安岡孝一さんが挙げていた(yasuokaの日記:文字情報基盤のIVS登録第1弾)ような「Hanyo-DenshiとMoji_JohoでIVSをシェアしようとしてるが、グリフに差異が見られる例」については、いくつか見つけたものの、リストの最初のほうしかチェックできなかったので、言及するのを断念。他にも、CJK互換漢字グリフの扱い、Ken Lundeさんが挙げていた(CJK Type: PRI 259)U+6723とU+81A7の問題など、いろいろ論点はあると思うが、今回はスルーした。 iPhoneや携帯における絵文字の扱いに関して、SoftBankへの要望がいくつかあるので(それから、先日コメント欄でお願いされたので)、メモ。 その1・

    Mac OS Xの文字コード問題に関するメモ
  • 第6回 先行バイトの埋め込み | gihyo.jp

    今回は、「⁠先行バイトの埋め込み」という攻撃方法について紹介します。 ご存じのとおり、ほとんどの符号化方式(文字エンコーディング)においては、ひらがなや漢字などASCII以外のほとんどの文字は、1文字が複数バイトにて構成されています。たとえば、ひらがなの「あ」は、Shift_JISにおいては0x82 0xA0という2バイト、UTF-8においては0xE3 0x81 0x82という3バイトで表現されます。 攻撃者がマルチバイト文字の先行バイト部分だけを与えることにより、来存在している後続の文字を無効にしてしまうのが、今回紹介する「先行バイトの埋め込み」という攻撃方法です。 先行バイト埋め込みの具体例 では、具体的な例を見ていきましょう。 たとえば、Shift_JISで書かれたHTMLとして、次のようなものがあったとします。 name: <input type=text value="" />

    第6回 先行バイトの埋め込み | gihyo.jp
  • 文字コード最新リンク集2005

    正規表現/文字コード最新リンク2005 [3000URL最新人気リンク発表][お報せ][開発管理運営者][サイトマップ] ★リンク追加希望はホムペ紹介掲示板へ | 文字主体の高速表示リンク集 | 紹介文付き ■:最近行ってない | ■:最近行った | ●リンク切れ最終チェック:2003/10/26 NEWSだ!(^o^)/ : 台風 - 地図検索 Start is Hello world : HSP - C - Borland - VB - DLL&OCX - Web開発 - DB - 正規表現 コミュニティ : 掲示板 - 市場 - 出会い  トレンド : そよ風くん(風力発電機) メモ帳(M)あります : 小説 - 料理 - 占い - ? - 辞書&文例 - HARD - SOFT - 政 - 名スレ ◆文字コード表 ◆日はjp ◆Unicode時代のWeb開発 ◆Un

  • 文字コードの解説 ━トップ━

    文字コードの解説ページです。 日語の文字セットとコーディングについて解説します。 今後主流になると思われる UNICODE についても解説しています。

  • 文字コード表

    JIS X 0201 の文字コード一覧 JIS X 0201 の文字コード一覧です。 JIS X 0201では、JISローマ字とJISカナが定義されています。 20-7E JISローマ字:ASCII A0-DF JISカナ:半角カナ(非推奨) 文字コードについてのページやUnicode対応の JIS X 0201 の文字コード一覧もあります。 JIS X 0201 文字コード表 JISローマ字:ASCII JIS SJIS EUC +0 +1 +2 +3 +4 +5 +6 +7 +8 +9 +A +B +C +D +E +F 20 20 20 ! " # $ % & ' ( ) * + , - . / 30 30 30 0 1 2 3 4 5 6 7 8 9 : ; < = > ? 40 40 40 @ A B C D E F G H I J K L M N O 50 50 50 P Q

  • 404 Not Found

    このファイルは削除されました(File Not Found) 戻る(back)

  • 1