[B! 文字コード] namikisterのブックマーク

namikister id:namikister

文字コードに関するnamikisterのブックマーク (8)

perl - Encode 中級 : 404 Blog Not Found
2008年05月08日04:00 カテゴリLightweight Languages perl - Encode 中級以前書いた 404 Blog Not Found:perl - Encode 入門は大好評でしたが、ウェブで利用される文字コード、UnicodeがASCIIを上回る--グーグルが明らかに:マーケティング - CNET Japan UnicodeがASCIIを追い越し、World Wide Web上で最も多く利用されている文字コード体系になったとGoogleのシニアインターナショナルソフトウェアアーキテクトMark Davis氏がブログで述べている。という時代に完全対応するには、入門以上の知識がちょっと必要になります。例えば、本 blogをホストしてくれているlivedoor blogの文字コードはEUC-JP。「時代はUnicode」だと言っても、こうした事情もまだ
namikister 2008/05/11
perl

tips

文字コード
リンク
404 Blog Not Found:perl - Encode 入門
2008年04月09日01:00 カテゴリLightweight Languages perl - Encode 入門すでにOSCONでもYAPCでも、あちこちそちこちでこの基本方針に関しては話したのですが、ここ 404 Blog Not Found でも改めて。 Perl で utf8 化けしたときにどうしたらいいか - TokuLog 改めだまってコードを書けよハゲ入り口で decode して、内部ではすべて flagged utf8 で扱い、出口で encode する。これがすべてです！とにかくこの基本方針をまもっていれば幸せになれます。ここでは、EUC-JPでエンコードされたファイル中の「小飼弾」「こがいだん」「コガイダン」「Kogai Dan」を正規表現で書き換えて標準出力にEUC-JPで出力するプログラムを例にとって説明します。 decode() then encode(
namikister 2008/04/23
perl

文字コード
リンク
Perl 5.8.x Unicode関連
-> 趣旨と注意書き -> UTF8フラグ？ -> UTF8フラグとPerlIOレイヤ -> UTF8フラグのついた文字列を記述する -> Wide character in print ... -> Encode -> utf8::* -> use utf8; -> use encoding; -> use UTF8 と use encoding -> JcodeからEncodeへ -> 情報源 <- モドル趣旨と注意書き Perl 5.8.x のUnicode 関連です。正直、5.8.x は、ネタでしか使ってなかったので(ぉ、ちゃんといじったことがありませんでした。使ってみると、よくわかんなくなったので、ちょっとまとめてみました。今でもあんまりわかってないかもしれないので、内容は無保証です。突っ込み歓迎。 Jcode、Encodeのメンテナの弾さんから、ご指摘いただいたので、
namikister 2007/10/27
perl

文字コード
リンク
いやなブログ: UTF-8 への移行計画
UTF-8 への移行計画以前からやろうやろうと思っていた、 UTF-8 への移行計画を実施しました。これまで手元のテキストファイルの類はすべて EUC-JP で保存していたのですが、これを UTF-8 にしようという計画です。 Emacs の設定まずは Emacs の設定です。これまで euc-jp となっていた部分を utf-8 に置き換えました。 (set-language-environment "Japanese") (set-terminal-coding-system 'utf-8) (set-keyboard-coding-system 'utf-8) (set-buffer-file-coding-system 'utf-8) (setq default-buffer-file-coding-system 'utf-8) 新規に作成したファイルの文字コードを UTF
namikister 2007/10/01
utf8

zsh

文字コード

emacs
リンク
Perl5.8 の UNICODE 対応
perl は 5.8 から Unicode(utf-8) がサポートされました．5.6 でも Unicode に対応はしていましたが，ぜんぜん使い物にならず，ようやく 5.8 でまともに使えるようになったということです．ただせっかく使えるにもかかわらず perldoc などを見てもイマイチ使い方がわからないので，独自にまとめてみたのがこのページです．誤った書き方や勘違いをしていることもあるので，形式的ですがこのページの内容は無保証です．内容文字コード変換 perlIO jperlからの移行 UTF-8フラグ文字コード自動判別 Unicode Standard Unicode 正規化その他参考資料文字コード変換とりあえず perl5.8 で新しく組み込まれた機能を見るために，euc-jp から shift_jis への変換スクリプトをいくつか載せます． openを利用し
namikister 2007/10/01
perl

utf8

文字コード
リンク
Perl の多言語処理 -- Perl ヒント集 (ja)
エンコードの処理の基本 Perl 5.8 以降，テキストの処理が UTF-8 (Unicode の変換形式のひとつ) を軸におこなわれるようになりました。Shift JIS や EUC-JP での処理が一般的な日本語を Perl で扱う場合，エンコードを意識したプログラミングをおこなうことが必要になります。具体的には，Perl でエンコードを意識する必要のあるのは以下の箇所です。スクリプト自体のエンコードファイルの入出力標準入出力標準エラー出力データベース，CGIなどプロセス間のインターフェース Perl 5.8 では内部処理が UTF-8 で行われますが，特にエンコードの指定がされない場合，テキストは文字単位ではなく，バイト単位で処理されます。バイト単位で Shift JIS などのテキストを処理することもある程度可能ですが，2バイトの文字が文字として認識されていませんから，正
namikister 2007/09/30
perl

文字コード
リンク
UTF-8 エンコーディングの危険性 - WebOS Goodies
基本的に、まともな国際化ライブラリを使っていれば、上記のような不正な文字コードはきちんと処理してくれるはずです。実際、 Opera, Firefox, IE ともに適切にエスケープしてくれました。また、 UCS に変換した後にエスケープ処理を行うことでも対処できるかもしれません。しかし、複数のモジュールで構成されるような規模の大きいアプリケーションでは、そのすべてが適切な処理を行っていると保証するのも、なかなか難しいかと思います。ここはやはり、すべての外部入力に含まれる不正なシーケンスを、水際で正規化するという処理を徹底するのが一番かと思います。例えば Ruby の場合、不正な UTF-8 コードを検出する最も簡単な方法は、 String#unpack を使って UCS へ変換してみることです（昨日の記事への kazutanaka さんからのはてぶコメントにて、 iconv でも同様なこ
namikister 2007/02/25
文字コード

utf8

security
リンク
sixnine.net
sixnine.net 2024 著作権. 不許複製プライバシーポリシー
namikister 2006/06/13
cygwinでも日本語表示できるようになった！！

cygwin

文字コード
リンク
1