タグ

htmlとPerlに関するhedachiのブックマーク (4)

  • PerlのEncodeの話 - Using Perl

    もともとはUsing MT ( MT = MovableType ) というブログ名でしたが、MTに関することをめっきりかかなくなってしまったので、Using Perlに変更しました。Perl 愛してます。 MovableType使ってます。4ですが。5への移行は諦めています。最近はMTネタよりも、Web系のプログラム関連のネタ全般にシフトしています。 いつもEncodeのあたりでつまずいて、文字化けして 試行錯誤のすえになんとか動かしている状態なのだけど、 なにかわかった気がするのでメモ。 まず最初になにするかというと、 「use Encode」と書く。 次に外部からテキストを持ってくるとき、 それがどのような文字コードなのかきちんと把握する。 それを把握した上でデコードする。 デコード(decode)とは符号化されているものを"ほどく"ということ。 codeをdeするということ。 ほど

  • perl - 文字参照を(en|de)codeする : 404 Blog Not Found

    2008年05月11日21:00 カテゴリLightweight LanguagesTips perl - 文字参照を(en|de)codeする すでに正解が書かれていますが、 [を] Unicode の16進数の実体参照を正規表現などで元に戻す pack と Encode::decode を使うと良いみたい。 はてなブックマーク - miyagawaのブックマーク / 2008年05月11日 それ HTML::Entities::decode / regexp でも chr(hex($1)) のほうがわかりやすくないかな 繰り返しておくだけの価値はあるので。 HTML::Entitiesを使う まず、HTML::Entitiesのdecode_entities()を使うという方法があります。これがベストプラクティスかな。 #!/usr/local/bin/perl use strict;

    perl - 文字参照を(en|de)codeする : 404 Blog Not Found
  • Perlで数値文字参照を文字列に変換 - 徒書

    HTML Numeric character references リンクされて気付いたのですが、Perlで文字列をHTML数値文字参照に変換とは逆の、数値文字参照を文字列に変換する方法が述べられてました。しかしこの方法だと動作がややオーバーになるような気がします。 perl -MEncode -p -i -e ' s/\&#(x)?([a-f0-9]{1,5});/ my $tmpstr = ($1) ? pack( "H*", sprintf( "%08s", "$2" ) ) : pack( "N*", $2 ); Encode::encode( "iso-2022-jp", Encode::decode( "UTF-32BE", $tmpstr ) ); /eig; ' < engadget.xml &#28988; とか &#x713c; のような文字参照からUnicodeのコー

  • Perl html パーサー はじめてのHTML::Parser - ナナクサ

    HTMLをパースしてくれるHTML::Parser。検索結果で出てくるマニュアルはいまいち分かりづらかったので、自分なりの試行錯誤メモを残しておく。 HTMLを読み込んで、特定タグの要素を抜き出す。 a タグと img タグだけの簡単なHTMLを用意して、それぞれに指定されたhref属性とsrc属性を抜き出してみる。 <html> <head> <title>TEST</title> </head> <body> <a href="http://kirinji.amayan.jp/"><img src="http://kirinji.amayan.jp/kirinji_top.gif"></a> </body> </html> で、これをHTML::Parserで解析してみる。 #!/usr/bin/perl use strict; use warnings; use HTML::Pars

    Perl html パーサー はじめてのHTML::Parser - ナナクサ
  • 1