[B! encoding] u1_113のブックマーク

UnicodeとUTF-8の違いは？ - Humanity

という2chのスレがかなり勉強になったのでまとめ。少しでも有用だと思ったものは載せてあるので結構長いです。 Unicodeのような文字集合(符号化文字集合？)やUTF-8のようなエンコーディング方式に限らず色んな文字コードにまつわる話があります。たびたび話が繰り替えされますがそれは確認ということで。 (元スレ) 追記：簡単にまとめました。 1 ：デフォルトの名無しさん：2007/04/30(月) 20:02:37 ビッグインディアンとかなんとかかんとか 3 ：デフォルトの名無しさん：2007/04/30(月) 20:05:48 また、頭の悪そうなスレが・・・ >>1 それは魚とマグロの違いを訊ねるようなもんだ。 4 ：デフォルトの名無しさん：2007/04/30(月) 20:06:49 魚と鮪というよりは、魚と刺身の違いのような気がする。 5 ：デフォルトの名無しさん：2007/04/

u1_113 2009/11/30

リンク

Encode 日本語などのマルチバイト文字列を適切に処理する - Perl入門〜サンプルコードによるPerl入門〜

Perl › モジュール › here 日本語などのマルチバイト文字をPerlで適切に扱うにはEncodeモジュールを使用します。次の3つのことを覚えておけば多くの場合適切に日本語を扱うことができます。外部から入力された文字列はEncodeモジュールのdecode関数でデコードする外部へ出力する文字列はEncodeモジュールのencode関数でエンコードするソースコードはUTF-8で保存しutf8プラグマを有効にするこの解説での用語この解説では外部から入力された文字列のことを「バイト文字列」と呼ぶことにします。Perlの内部表現に変換された文字列を「内部文字列」と呼ぶことにします。また「バイト文字列」が特定の文字コードで記述されている場合は「UTF-8バイト文字列」「Shift_JISバイト文字列」などと呼ぶことにします。プログラミングで日本語を扱う場合にその文字列がバイト文字

u1_113 2009/11/03

リンク

プログラムの文字コードにUTF-8を使用する

これで Perl のプログラムが UTF-8 を使って記述されていることを宣言することができます。テキストエディタなどでプログラムを記述した時に、文字コードを UTF-8 を指定して保存して下さい。ただし Windows 環境の場合であれば、何かキーボードから文字を入力したり、画面に出力する時には Shift_JIS を使用するため合わせて次の設定が必要となります。

u1_113 2009/05/02

リンク

Perl 5.8.x における日本語コード変換★

Perl 5.8ではEncode.pmが標準モジュールとなり、多バイト文字を標準で簡単に扱えるようになりました。が、jcode.plやJcode.pmを用いたコード変換の経験があると、逆にこれが仇となって文字化けの嵐に遭います。（私の場合そうだったというだけで、普通はそんなこと無いのかもしれないのですが。）漸く最近になって基本的な考え方が飲み込めるようになって来たので、この辺をまとめておこうと思います。なお、本メモは新たにPerl 5.8.x的なPerlスクリプトを書く際に気をつけることをまとめたものであり、基本的には既存のスクリプトにPerl 5.8 + Encode.pmを適用するためのものではありません。また、utf8でスクリプトを書くことを前提にしています。が、どちらにせよ、この知識は参考になると思います。（たぶん。）本文冒頭ですが、まず参照先を示しておきます。以下のドキュメント

u1_113 2009/05/02

Encode.pm はしっかりと使えるようになりたい。

リンク

404 Blog Not Found:perl - Encode 入門

2008年04月09日01:00 カテゴリLightweight Languages perl - Encode 入門すでにOSCONでもYAPCでも、あちこちそちこちでこの基本方針に関しては話したのですが、ここ 404 Blog Not Found でも改めて。 Perl で utf8 化けしたときにどうしたらいいか - TokuLog 改めだまってコードを書けよハゲ入り口で decode して、内部ではすべて flagged utf8 で扱い、出口で encode する。これがすべてです！とにかくこの基本方針をまもっていれば幸せになれます。ここでは、EUC-JPでエンコードされたファイル中の「小飼弾」「こがいだん」「コガイダン」「Kogai Dan」を正規表現で書き換えて標準出力にEUC-JPで出力するプログラムを例にとって説明します。 decode() then encode(

u1_113 2009/03/15

リンク

http://homepage2.nifty.com/hobbit/html/utf8.html

u1_113 2008/11/25

リンク

UTF-8 とBOM (Byte Order Mark) - Nucleusだとか

UTF-8でNucleusをインストールして最初につまづいたのが、これ。 BOM(Byte Order Mark)がついたUTF-8のファイルがNucleusの構成ファイルに混じってると、出力ヘッダにごみが入るというもの。参考：Windows 98/2000上でのUTF-8のページの作り方ヘッダにごみが混じると、"Headers Already Sent"というエラーがでてしまうので、これをBOMなしUTF-8（UTF-8Nという）で書き出せるエディタで処理します。BOM付きのファイルが複数あるとヘッダのごみも増えていくので、いじったファイルはとりあえず全部チェック。ちなみにBOM自体はUTF-8には意味がなく、UTF-16のタイプ識別に使うとかなんとか。

u1_113 2008/11/25

リンク

はてなブックマーク

タグ

関連タグで絞り込む (4)

encodingに関するu1_113のブックマーク (7)

お知らせ

月間はてなブックマーク数ランキング（2024年9月）

今週のはてなブックマーク数ランキング（2024年9月第5週）

今週のはてなブックマーク数ランキング（2024年9月第4週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス