[B! perl][unicode] py0nのブックマーク

[Perl] CGI.pm の charset('utf-8') - cyberlib.enterbrainz.com

[Perl] CGI.pmのデフォルト文字コードはISO-8859-1。そこでcharsetメソッドで文字コード指定するが charset('utf-8') は注意。例1) #!/usr/bin/perl use strict; use warnings; use CGI qw(-nosticky); my $cgi = new CGI; $cgi->charset('utf-8'); my $str = $cgi->param('str') || ''; $str = $cgi->escapeHTML($str); print $cgi->header, $cgi->start_html(-title=>'test',-lang=>'ja-JP'), $cgi->h1($str), #[error] Wide characte

py0n 2012/02/27

これに嵌つて泣いた。

リンク

perl - で全角半角変換をモダンに行う : 404 Blog Not Found

2009年06月06日01:15 カテゴリLightweight Languages perl - で全角半角変換をモダンに行う今ならLingua::JA::Regular::Unicodeが第一選択肢ですが、こういう方法もあるということで。 Perl で半角カナと全角カナの変換をする : Serendip - Webデザイン・プログラミング Perl を使って半角カタカナと全角カタカナの変換をするスクリプトを、標準モジュールの Encode.pm と Unicode::Japanese と Lingua::JA::Regular::Unicode を使ってそれぞれ変換スクリプトを書いてみる。 CORE Moduleのみを使うという縛りをかけています。 #!/usr/bin/perl use 5.008001; use strict; use warnings; use utf8; us

py0n 2010/04/08

なんか凄い。

perl
unicode

リンク

perl - Encode 中級 : 404 Blog Not Found

2008年05月08日04:00 カテゴリLightweight Languages perl - Encode 中級以前書いた 404 Blog Not Found:perl - Encode 入門は大好評でしたが、ウェブで利用される文字コード、UnicodeがASCIIを上回る--グーグルが明らかに:マーケティング - CNET Japan UnicodeがASCIIを追い越し、World Wide Web上で最も多く利用されている文字コード体系になったとGoogleのシニアインターナショナルソフトウェアアーキテクトMark Davis氏がブログで述べている。という時代に完全対応するには、入門以上の知識がちょっと必要になります。例えば、本 blogをホストしてくれているlivedoor blogの文字コードはEUC-JP。「時代はUnicode」だと言っても、こうした事情もまだ

py0n 2009/06/10

実体参照に変換する機能があるとは知らなかった。

perl
unicode

リンク

perlのUTF8フラグの扱い方がやっとわかってきたので、まとめ。 - あそことは別のはらっぱ

この2日間*1ほど、EUC-JPなデータおよびスクリプトをUTF-8なものに変更する作業などしていたわけで。 EUC-JPと言っても、実際には丸付き数字とかそういうのが山ほど入っている、綺麗とはいえない内容で。これをつつがなくUTF-8に変更するのに一苦労。過去にこの辺を書いたおかげで、それに気が付くのに時間はかからなかったけど、それでもJcode.pmとEncode.pmの挙動の違い(というか、使い勝手の違い)には泣かされた。おまけに、元のスクリプト、use strictもやってなかったりする、いい加減古いものだったりしたし。ということで、はまった内容をメモっておくことにする。先に結論だけ書いておくと機種依存文字が入っているときは、EUCJPMSとCP932が必須入力はすべてdecodeして、処理したら全てencodeして出力。内部コードは絶対に内部にとどめる。少なくとも1

py0n 2009/05/15

丸文字などをEUC-JP -> 内部コード -> EUC-JPでおかしくならない方法。

perl
unicode

リンク

404 Blog Not Found:perl - Encode 入門

2008年04月09日01:00 カテゴリLightweight Languages perl - Encode 入門すでにOSCONでもYAPCでも、あちこちそちこちでこの基本方針に関しては話したのですが、ここ 404 Blog Not Found でも改めて。 Perl で utf8 化けしたときにどうしたらいいか - TokuLog 改めだまってコードを書けよハゲ入り口で decode して、内部ではすべて flagged utf8 で扱い、出口で encode する。これがすべてです！とにかくこの基本方針をまもっていれば幸せになれます。ここでは、EUC-JPでエンコードされたファイル中の「小飼弾」「こがいだん」「コガイダン」「Kogai Dan」を正規表現で書き換えて標準出力にEUC-JPで出力するプログラムを例にとって説明します。 decode() then encode(

py0n 2009/03/29

use utf8した際に気をつけておくべき事柄。

リンク

Perl-5.8 MEMO

Perl-5.8 覚え書き Last Updated at $Date: 2005/12/04 04:00:59 $. このページは，Perl-5.8.2 を使う上で困ったことなどの覚え書きです．日本語を含むスクリプトを書く日本語 EUC でスクリプトを書く UTF-8 でスクリプトを書く日本語を含むファイルを開く連想配列で日本語を使う日本語を含む正規表現文字コードの自動判定古い Perl でも実行できるように書く未解決の問題日本語を含むスクリプトを書く Perl-5.8.x で日本語を扱うスクリプトを書く場合，大きく2通りの方法があります．日本語 EUC でスクリプトを書く． UTF-8 でスクリプトを書く．どちらの方法でも， (1)ファイル入出力， (2)データベースアクセス， (3)プロセス間通信の3つに気をつけて，明示的にバイト列を文字列に変換したり，また逆

py0n 2008/01/29

Perl で Unicode を扱う時に気を付ける事を解説してゐる。

リンク

Perl 5.8.x Unicode関連

-> 趣旨と注意書き -> UTF8フラグ？ -> UTF8フラグとPerlIOレイヤ -> UTF8フラグのついた文字列を記述する -> Wide character in print ... -> Encode -> utf8::* -> use utf8; -> use encoding; -> use UTF8 と use encoding -> JcodeからEncodeへ -> 情報源 <- モドル趣旨と注意書き Perl 5.8.x のUnicode 関連です。正直、5.8.x は、ネタでしか使ってなかったので(ぉ、ちゃんといじったことがありませんでした。使ってみると、よくわかんなくなったので、ちょっとまとめてみました。今でもあんまりわかってないかもしれないので、内容は無保証です。突っ込み歓迎。 Jcode、Encodeのメンテナの弾さんから、ご指摘いただいたので、

py0n 2008/01/29

Perl 5.8.x で Unicode を扱ふ際に気を付ける事を解説してゐる。主に PerlIO レイヤの解説が為に成る。

リンク

MODULE.JP - 日本語に絡むUnicodeブロックとスクリプト(正規表現)

といった感じ。ちなみにjava.util.regexとPerlのUnicodeブロックは接頭子Inを使うが、.NETの場合は接頭子Isを使う、という差異があります。 Unicodeスクリプトとブロックの違いがビミョーに見えるけど、ブロックがコードブロックをゴリッと指定したものに対して、スクリプトは特定言語に関係する文字の種類を直接指定するものなのでブロックよりも断定的、って感じで見れば良かなと。ちなみにUnicode関連のドキュメントによるとUnicodeプロパティとスクリプトで日本語の文章を表そうとすると m/(?:(?:\p{Hiragana}|\p{Katakana}|\p{Han}|\p{Latin}|\p{Common}) (?:\p{Inherited}|\p{Me}|\p{Mn})?)+/x; こんな感じになるそうな。実際流通している文章はこれより多様なので現実とは微妙に乖離

py0n 2008/01/06

Perl で Unicode 文字を正規表現でマッチさせる方法について解説してゐる。

リンク

Perl5.8 の UNICODE 対応

perl は 5.8 から Unicode(utf-8) がサポートされました．5.6 でも Unicode に対応はしていましたが，ぜんぜん使い物にならず，ようやく 5.8 でまともに使えるようになったということです．ただせっかく使えるにもかかわらず perldoc などを見てもイマイチ使い方がわからないので，独自にまとめてみたのがこのページです．誤った書き方や勘違いをしていることもあるので，形式的ですがこのページの内容は無保証です．内容文字コード変換 perlIO jperlからの移行 UTF-8フラグ文字コード自動判別 Unicode Standard Unicode 正規化その他参考資料文字コード変換とりあえず perl5.8 で新しく組み込まれた機能を見るために，euc-jp から shift_jis への変換スクリプトをいくつか載せます． openを利用し

py0n 2007/11/20

Perl 5.8 で Unicode 文字列を扱う際に注意すべき事柄を解説してゐる。

リンク

はてなブックマーク

タグ

関連タグで絞り込む (2)

perlとunicodeに関するpy0nのブックマーク (9)

お知らせ

今週のはてなブックマーク数ランキング（2024年9月第4週）

今週のはてなブックマーク数ランキング（2024年9月第3週）

今週のはてなブックマーク数ランキング（2024年9月第2週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス