タグ

関連タグで絞り込む (2)

タグの絞り込みを解除

perlとunicodeに関するpy0nのブックマーク (9)

  • [Perl] CGI.pm の charset('utf-8') - cyberlib.enterbrainz.com

    [Perl] CGI.pmのデフォルト文字コードはISO-8859-1。 そこでcharsetメソッドで文字コード指定するが charset('utf-8') は注意。 例1) #!/usr/bin/perl use strict; use warnings; use CGI qw(-nosticky); my $cgi = new CGI; $cgi->charset('utf-8'); my $str = $cgi->param('str') || ''; $str = $cgi->escapeHTML($str); print $cgi->header, $cgi->start_html(-title=>'test',-lang=>'ja-JP'), $cgi->h1($str),    #[error] Wide characte

    py0n
    py0n 2012/02/27
    これに嵌つて泣いた。
  • perl - で全角半角変換をモダンに行う : 404 Blog Not Found

    2009年06月06日01:15 カテゴリLightweight Languages perl - で全角半角変換をモダンに行う 今ならLingua::JA::Regular::Unicodeが第一選択肢ですが、こういう方法もあるということで。 Perl で半角カナと全角カナの変換をする : Serendip - Webデザイン・プログラミング Perl を使って半角カタカナと全角カタカナの変換をするスクリプトを、標準モジュールの Encode.pm と Unicode::Japanese と Lingua::JA::Regular::Unicode を使ってそれぞれ変換スクリプトを書いてみる。 CORE Moduleのみを使うという縛りをかけています。 #!/usr/bin/perl use 5.008001; use strict; use warnings; use utf8; us

    perl - で全角半角変換をモダンに行う : 404 Blog Not Found
    py0n
    py0n 2010/04/08
    なんか凄い。
  • perl - Encode 中級 : 404 Blog Not Found

    2008年05月08日04:00 カテゴリLightweight Languages perl - Encode 中級 以前書いた 404 Blog Not Found:perl - Encode 入門 は大好評でしたが、 ウェブで利用される文字コード、UnicodeがASCIIを上回る--グーグルが明らかに:マーケティング - CNET Japan UnicodeがASCIIを追い越し、World Wide Web上で最も多く利用されている文字コード体系になったとGoogleのシニアインターナショナルソフトウェアアーキテクトMark Davis氏がブログで述べている。 という時代に完全対応するには、入門以上の知識がちょっと必要になります。 例えば、blogをホストしてくれているlivedoor blogの文字コードはEUC-JP。「時代はUnicode」だと言っても、こうした事情もまだ

    perl - Encode 中級 : 404 Blog Not Found
    py0n
    py0n 2009/06/10
    実体参照に変換する機能があるとは知らなかった。
  • perlのUTF8フラグの扱い方がやっとわかってきたので、まとめ。 - あそことは別のはらっぱ

    この2日間*1ほど、EUC-JPなデータおよびスクリプトをUTF-8なものに変更する作業などしていたわけで。 EUC-JPと言っても、実際には丸付き数字とかそういうのが山ほど入っている、綺麗とはいえない内容で。これをつつがなくUTF-8に変更するのに一苦労。 過去にこの辺を書いたおかげで、それに気が付くのに時間はかからなかったけど、それでもJcode.pmとEncode.pmの挙動の違い(というか、使い勝手の違い)には泣かされた。 おまけに、元のスクリプト、use strictもやってなかったりする、いい加減古いものだったりしたし。 ということで、はまった内容をメモっておくことにする。 先に結論だけ書いておくと 機種依存文字が入っているときは、EUCJPMSとCP932が必須 入力はすべてdecodeして、処理したら全てencodeして出力。内部コードは絶対に内部にとどめる。 少なくとも1

    perlのUTF8フラグの扱い方がやっとわかってきたので、まとめ。 - あそことは別のはらっぱ
    py0n
    py0n 2009/05/15
    丸文字などをEUC-JP -> 内部コード -> EUC-JPでおかしくならない方法。
  • 404 Blog Not Found:perl - Encode 入門

    2008年04月09日01:00 カテゴリLightweight Languages perl - Encode 入門 すでにOSCONでもYAPCでも、あちこちそちこちでこの基方針に関しては話したのですが、ここ 404 Blog Not Found でも改めて。 Perl で utf8 化けしたときにどうしたらいいか - TokuLog 改め だまってコードを書けよハゲ 入り口で decode して、内部ではすべて flagged utf8 で扱い、出口で encode する。これがすべてです!とにかくこの基方針をまもっていれば幸せになれます。ここでは、EUC-JPでエンコードされたファイル中の「小飼弾」「こがいだん」「コガイダン」「Kogai Dan」を正規表現で書き換えて標準出力にEUC-JPで出力するプログラムを例にとって説明します。 decode() then encode(

    404 Blog Not Found:perl - Encode 入門
    py0n
    py0n 2009/03/29
    use utf8した際に気をつけておくべき事柄。
  • Perl-5.8 MEMO

    Perl-5.8 覚え書き Last Updated at $Date: 2005/12/04 04:00:59 $. このページは,Perl-5.8.2 を使う上で困ったことなどの覚え書きです. 日語を含むスクリプトを書く 日語 EUC でスクリプトを書く UTF-8 でスクリプトを書く 日語を含むファイルを開く 連想配列で日語を使う 日語を含む正規表現 文字コードの自動判定 古い Perl でも実行できるように書く 未解決の問題 日語を含むスクリプトを書く Perl-5.8.x で日語を扱うスクリプトを書く場合,大きく2通りの方法があります. 日語 EUC でスクリプトを書く. UTF-8 でスクリプトを書く. どちらの方法でも, (1)ファイル入出力, (2)データベースアクセス, (3)プロセス間通信の3つに気をつけて, 明示的にバイト列を文字列に変換したり,また逆

    py0n
    py0n 2008/01/29
    Perl で Unicode を扱う時に気を付ける事を解説してゐる。
  • Perl 5.8.x Unicode関連

    -> 趣旨と注意書き -> UTF8フラグ? -> UTF8フラグとPerlIOレイヤ -> UTF8フラグのついた文字列を記述する -> Wide character in print ... -> Encode -> utf8::* -> use utf8; -> use encoding; -> use UTF8 と use encoding -> JcodeからEncodeへ -> 情報源 <- モドル 趣旨と注意書き Perl 5.8.x のUnicode 関連です。 正直、5.8.x は、ネタでしか使ってなかったので(ぉ、ちゃんといじったことがありませんでした。 使ってみると、よくわかんなくなったので、ちょっとまとめてみました。 今でもあんまりわかってないかもしれないので、内容は無保証です。 突っ込み歓迎。 Jcode、Encodeのメンテナの弾さんから、ご指摘いただいたので、

    py0n
    py0n 2008/01/29
    Perl 5.8.x で Unicode を扱ふ際に気を付ける事を解説してゐる。主に PerlIO レイヤの解説が為に成る。
  • MODULE.JP - 日本語に絡むUnicodeブロックとスクリプト(正規表現)

    といった感じ。ちなみにjava.util.regexとPerlのUnicodeブロックは接頭子Inを使うが、.NETの場合は接頭子Isを使う、という差異があります。 Unicodeスクリプトとブロックの違いがビミョーに見えるけど、ブロックがコードブロックをゴリッと指定したものに対して、スクリプトは特定言語に関係する文字の種類を直接指定するものなのでブロックよりも断定的、って感じで見れば良かなと。ちなみにUnicode関連のドキュメントによるとUnicodeプロパティとスクリプトで日語の文章を表そうとすると m/(?:(?:\p{Hiragana}|\p{Katakana}|\p{Han}|\p{Latin}|\p{Common}) (?:\p{Inherited}|\p{Me}|\p{Mn})?)+/x; こんな感じになるそうな。実際流通している文章はこれより多様なので現実とは微妙に乖離

    py0n
    py0n 2008/01/06
    Perl で Unicode 文字を正規表現でマッチさせる方法について解説してゐる。
  • Perl5.8 の UNICODE 対応

    perl は 5.8 から Unicode(utf-8) がサポートされました.5.6 でも Unicode に対応はしていましたが,ぜんぜん使い物にならず,ようやく 5.8 でまともに使えるようになったということです.ただせっかく使えるにもかか わらず perldoc などを見てもイマイチ使い方がわからないので,独自にまと めてみたのがこのページです. 誤った書き方や勘違いをしてい ることもあるので,形式的ですがこのページの内容は無保証です. 内容 文字コード変換 perlIO jperlからの移行 UTF-8フラグ 文字コード自動判別 Unicode Standard Unicode 正規化 その他 参考資料 文字コード変換 とりあえず perl5.8 で新しく組み込まれた機能を見るために,euc-jp から shift_jis への変換スクリプトをいくつか載せます. openを利用し

    py0n
    py0n 2007/11/20
    Perl 5.8 で Unicode 文字列を扱う際に注意すべき事柄を解説してゐる。
  • 1