タグ

文字コードに関するheitattaのブックマーク (9)

  • Ruby 1.9 m17n リファレンス (不完全版) - diary of a madman

    以前書いた記事(Ruby 1.9 の新機能を調べてみた)の m17n がらみの箇所についてコメントやらトラックバックやらをいただいたので、もう少し調べてまとめてみた。 なお、1.9.0 リリース版ではなく、開発版(trunk r14835)で動作を確認している。 コマンドラインオプション -E --encoding "ruby -E エンコーディング名" または "ruby --encoding=エンコーディング名" のように使う。 Encoding.default_external を指定したエンコーディングに変更する。 コマンドラインで指定したスクリプトファイル(または -e で指定したスクリプト)のエンコーディングを変更する。(スクリプト内でマジックコメントによるエンコーディング指定を行なったのと同じ効果だが、マジックコメントで指定がある場合はそちらが優先) -K ruby 1.8

    Ruby 1.9 m17n リファレンス (不完全版) - diary of a madman
  • .NETでのUnicode合成文字の処理について調べた

    Unicodeでは,複数の文字から1つの文字を合成する仕組みがある。例えば,ヨーロッパの言語で使われているアクセント付きのアルファベットを表現するのに使われる。日語の濁点/半濁点付きのカタカナ/ひらがなにも,この仕組みがある。例えば,「ぱ」という文字は,「ぱ」(キャラクタ・コードはUTF16で3071)という2バイトの文字と,「は」(同306F)と文字合成用半濁点「゜」(同309A)を組み合わせた4バイト文字の,2種類が存在する。そのため,濁点/半濁点付きの文字を検索する場合,2バイトの単独文字と4バイトの合成文字の両方を検索する必要が出てくるなど,文字列処理が多少面倒になる可能性がある。今回はこの合成文字について,.NETでの処理を調べた。 最初に断っておくが,キーボードからは文字合成用の「゜」(キャラクタ・コードは309A)は入力できない。入力できるのは,キャラクタ・コードが309C

    .NETでのUnicode合成文字の処理について調べた
  • シフトJIS / EUC-JPとUnicodeとの妥当な変換表: Netsphere Laboratories

    2004.10.17 新規作成。2004.12.19 加筆。2005.04.02加筆。 最近、コンピュータで扱う文字列の文字コードがUnicodeでなければならない場面が増えてきた。UnicodeとシフトJIS、EUC-JPを変換する機会が多い。この変換は変換表で行うが、変換表が実際的なものでなければ、文字化けが発生することになる。 おかしな変換表は、これまでは、特にLinuxなどの上で動作するオープンソースソフトウェアで多く見られた。おそらく規格原理主義者が多かったためだろう。そもそも、規格どおりに変換表を作ると、実用的な変換表にはならない。しかし、最近ではまともな変換表を実装しているものも増えてきて、うまく選ぶだけでいいようになってきている。 変換表の違いをまとめたページはよく見かけるが、実際にどのような条件を満たして変換するものを選べばいいか不明なので、まとめてみた。 変換表に求めら

  • Perl XMLでencoding='Shift_JIS'や'euc-jp'を使う

    by Hippo2000(2000/7/12) Perlを使って日語の入ったXMLファイルを処理しようとするさい、これまではencodingをどうするかというのが1つの悩みでした。 私は好きなマッピング・ファイルを"Shift_JIS"、"euc-jp"などのためのマッピング・ファイルにするためのスクリプトmkenc.plを作成しました。 何はともあれという形で公開します。ご意見などありましたらメールをいただきたいと思います。 目次 1. はじめに 2. ファイルとその内容 3. 使い方 1. 背景 村田真さんの"Japanese_Encoding.msg"にもあるように、現バージョンのXML::ParserとXML::Encodingには"Shift_JIS"や"euc-jp"という文字セットためのマッピング・ファイルは入っていません。 このために、XML::Parserを利用す

  • eucJP-ms と CP51932 の違い コードページ932/ウェブリブログ

    「ウェブリブログ」は 2023年1月31日 をもちましてサービス提供を終了いたしました。 2004年3月のサービス開始より19年近くもの間、沢山の皆さまにご愛用いただきましたことを心よりお礼申し上げます。今後とも、BIGLOBEをご愛顧賜りますよう、よろしくお願い申し上げます。 ※引っ越し先ブログへのリダイレクトサービスは2024年1月31日で終了いたしました。 BIGLOBEのサービス一覧

  • 2004 JIS をめぐる混乱

    2004 JIS ( JIS2004 )について、問題となる混乱を解説します。 [ 2005.08.12. ] ※ この文書の目的は、誰かを非難または攻撃することではなくて、 世間にある誤解または錯覚をほどくことです。 ★ 「個々の文字をどう使えばいいのか」という 実用的な結論については、 下記のページをご覧ください。 → Open ブログ 「文字使用の指針・まとめ」 このページには、「指針1」「指針2」「指針3」というリンクもあります。 ★ 文書では、学術的 ・理念的 ・原理的 な 話題 を主に扱います。 文書を公開したあとの新しい情報ついては、次のページをご覧ください。 → Open ブログ 「文字規格」 ここには、細々とした話題がいろいろとあります。 「2004 JIS をめぐる混乱」について語ろう。 新しい漢字規格の問題については、2005年7月末にマイクロソフトが方針を示して

    heitatta
    heitatta 2005/09/01
    今度の MS JIS X 0213:2004 対応について、「責任は俺にある」と
  • Perl 5.8.x Unicode 関連

  • japanese font, charactor code / 日本語フォント、文字コード

    書籍 文字コードに関する入門 文字コード超研究 図解雑学 文字コード インターネット時代の文字コード 漢字問題と文字コード JIS規格 JISハンドブック 情報基 - JIS X 0201,0208,0213,0221等の規格が載っている(目次のpdf)。 PCやUNIXでの文字処理について パソコンにおける日語処理・文字コード - (サポートページ) UNIX System 5—リリース4国際化機能 CJKV日中韓越情報処理 - ((著者)Ken Lunde's Home Page) 各国の文字コード 文字コードの世界 - 出版元のページ 文字符号の歴史—欧米と日編 文字符号の歴史 アジア編 漢字について e康煕字典 日語版 [CD-ROM] - (出版元のページ) 日の漢字 知っておきたい漢字の知識 メーリングリスト JIS X 0213 Mail Listの御案内 UTF-

  • 新JIS漢字時代の扉を開こう!

    新JIS漢字時代の扉を開こう! 2000年8月14日 作成 2001年11月15日 更新 青空文庫 パソコンやワープロで広く使われてきた、第1第2水準の漢字に加えて、第3第4水準を定めた、新しいJIS漢字コードの規格が作られました。これまでは使えなかった記号やアクセント符号付きのラテン文字なども、新規格に盛り込まれました。これが普及すれば、コンピューターで読み書きし、ネットワークでやりとりできる文字を、大幅に増やせます。「あの字がない。この記号が使えない」といった不自由は、ほとんど感じずにすむようになるでしょう。 この新しい漢字コードを使いこなす準備が、いろいろな人たちの手で進められています。 その成果を集め、新JIS漢字を使いたいと思った誰もが、必要な小道具と知識をすばやく手に入れ、ただちに旨味を確かめられるようにと願って、このページを設けました。 順を追って読み進んでもらえ

  • 1