タグ

文字コードに関するabbey_rita_sadyのブックマーク (7)

  • miniturbo::Memo - 携帯電話での文字コード対応表 まとめ

    このリストを見る限り、最近の機種は殆どが対応しているようです。SO506iCがEUC-JPに対応しているのは意外でした。 各社の仕様書を見比べると、Shift JISは全社とも対応していて、DoCoMoのXHTML対応機種に限りUTF-8にも対応していることが記載されていました。また、SoftBankの携帯電話はメール及びウェブの文字コードを手動選択できるようです。各社の仕様書を以下にリンクいたしましたので、ご覧ください。 iモード対応HTMLの概要 iモード対応XHTMLの概要 EZWeb サーバ設定・文字コード指定 SoftBank Developers Support Site なお、検証への誘導をしていただいた真琴さんと、多くの機種を検証していただいたreaさん、サンプルを怪しみながらも協力してくれた僕の友人、それからわざわざコメントorトラックバックしていただいた皆々様方に深く感

  • UTF-8/UTF-16/UTF-32 を処理系の内部エンコーディングに使う場合のそれぞれのメリット - higepon blog

    ごく最近調べて実装したり、人に聞いたメモなので間違っていたらぜひ御指摘を。 UTF-8 ascii が 1byte で ascii に一致する。 これが大きい。 処理系が実装されている C のコードで、絶対に ascii だと分かっている変数にたいして、標準C関数を使いまくれるのがうれしい。 文字列リテラルも可搬性を維持したまま使える。 strcmp("hige-func", hoge) これが UTF-32 だったら、たとえ全てが ascii と分かっていても専用の関数(ブリッジ?)を作らないと行けない。 fopen とか。 あとはasciiばかりの場合には効率が良いとか。 UTF-16 2byteに収まる。 サロゲートペアの部分なんか気にしないぜと男気を見せれば、完全2byteの世界になること。 UTF-32 完全 4byte 固定なので処理がとても楽。*1 L"abあ" は、何文字?

    UTF-8/UTF-16/UTF-32 を処理系の内部エンコーディングに使う場合のそれぞれのメリット - higepon blog
  • 文字列と UTF-8 バイト列の相互変換: Days on the Moon

    やっていることは「高度な JavaScript 技集」の「UTF-8 <-> UTF16 変換」と同じ。 function toUTF8Octets(string) { return unescape(encodeURIComponent(string)); } function fromUTF8Octets(octets) { return decodeURIComponent(escape(octets)); } encodeURIComponent は encodeURI でもいい (むしろそのほうが処理する文字種が減って速くなりそう) が、decodeURIComponent は decodeURI にすると一部の文字 ("?"、"#" など) がデコードされなくなる。 使いどころ Base64 エンコードする関数 (「高度な JavaScript 技集」の base64encod

  • 使いこなそうユニコード

    UCSとUTFとは? [2003-11-11] Unicode正規化とは [2008-01-14] Unicodeに関するメモ [2002-06-15] JIS X 0213とUCS/Unicodeとの対応について [2006-12-30] Unicode文字の表示例 (Unicode 4.1.0) [2005-04-23] JIS/SHIFTJISとWINDOWS/CP932との相違 [2001-07-08] JIS X 0208とUnicodeとの対応表/ZIP版 [2002-06-01] Shift_JIS-2004 (JIS X 0213:2004)とUnicode 3.2.0の対応表/ZIP版 [2007-01-03] [同じくShift_JIS-2004 (JIS X 0213:2004)とUnicode 3.2.0の対応表/非圧縮テキスト] ・JIS X 0213:2000

  • 文字コードの話

    稿は、1996年に筆者が大学の所属サークルの機関誌に寄稿した記事をもとに加筆訂正したものです。(最終更新 1999.7.31) 目次 はじめに 第1章 日語のコード体系 第2章 ASCIIと1バイト文字コード 第3章 JIS漢字コードとエンコーディング法 第4章 ISO 2022 第5章 ISO 2022の実例 第6章 中国語・韓国語の文字コード 第7章 ISO 10646とUnicode おわりに 参考文献 はじめに ASCIIだけで用が足りるアメリカと違って、 私たちは日語を扱わなくてはならないため、 より深く文字コードの問題と関わらざるをえません。 それでも、MS-DOS/WindowsMacを使う限りでは、 ASCIIとシフトJIS(たまにJIS)を知っていれば済みますが、 UNIXやインターネットを使い始めると、 JIS・EUC・シフトJISとさまざまな日語コードに頭を

  • 日本語と文字コード

    コンピュータは主にアメリカで発達してきたため、未だにアルファベットや数字などの1バイト(7/8ビット)を基単位として扱う前提で作られているものが中心です。そのなかで日語のように多くの文字を必要とする言語は、1文字を表わすのに2バイト以上を要するため、いろいろな困難が伴います。特にインターネットを通じて様々な環境の情報を交換するにあたって、思わぬ問題に遭遇するケースが増えてきました。ここでは、こうしたことを考えるために必要な、日語の文字コードに関する基を整理しておきます。 JIS漢字コード(情報交換用符号化漢字集合) 区点コード JISコード(符号化方式) シフトJISコード EUCコード ASCIIとJISローマ字 Unicode 主要コード規格のまとめ 参考文献、リソース 文字化けしたメールの復元 | The Web KANZAKI ホームページ JIS漢字コード(情報交換用符号

  • japanese font, charactor code / 日本語フォント、文字コード

    書籍 文字コードに関する入門 文字コード超研究 図解雑学 文字コード インターネット時代の文字コード 漢字問題と文字コード JIS規格 JISハンドブック 情報基 - JIS X 0201,0208,0213,0221等の規格が載っている(目次のpdf)。 PCやUNIXでの文字処理について パソコンにおける日語処理・文字コード - (サポートページ) UNIX System 5—リリース4国際化機能 CJKV日中韓越情報処理 - ((著者)Ken Lunde's Home Page) 各国の文字コード 文字コードの世界 - 出版元のページ 文字符号の歴史—欧米と日編 文字符号の歴史 アジア編 漢字について e康煕字典 日語版 [CD-ROM] - (出版元のページ) 日の漢字 知っておきたい漢字の知識 メーリングリスト JIS X 0213 Mail Listの御案内 UTF-

  • 1