タグ

2011年2月27日のブックマーク (2件)

  • サイトの言語を判定する perl script

    とあるサービスを作るために必要となったのがサイトの言語判定。まぁもう少しわかりやすく言うと、多言語サイトを対象としてクロールすることを考えたりすると、そのサイトがどんな言語で記述されているかを把握しておく必要があるってわけです。 でもって CPAN でモジュールをあさって見るも、日語や中国語のような全角系?2byte 系?の言語に対応した判定器がないわけです。 Lingua::Identify Text::Language::Guess Text::Ngram::LanguageDetermine そんな中で見つけたのが Lingua::LanguageGuesser というモジュールです。CPAN には登録されていませんが、東京大学情報基盤センター中川研究室で公開されている専門用語(キーワード)自動抽出サービス「言選Web」で用いられている言語判定器です。 では実際にサンプルスクリプト

  • Image::Magickによるサムネイル生成高速化 - はかますたいる!きょろの技的雑記

    Image::Magickは汎用的な画像処理を行えるという利点があるが、速度的にはあまり早くない。 たとえば大量にアップされる一眼レフなどで撮影した大きなサイズのJPEGからサムネイルを生成するというような状況においては、処理速度がボトルネックになってしまうという問題がある。 ところが、どうやらインスタンス生成時にsizeオプションを指定するだけで処理速度が劇的に向上するらしい、ということを同期のエンジニアrai氏から聞いたので試してみた。 ■ ベンチマーク内容 元画像 : http://photozou.jp/photo/show/228995/18479223 (元画像4272x2848を使用、カメラ小僧Gさんの画像をお借りします) 生成画像: 横160pxに固定し、アスペクト比を維持 サムネイル50枚の生成時間を比較する。 ■ 検証コード #!/usr/bin/perl use st

    Image::Magickによるサムネイル生成高速化 - はかますたいる!きょろの技的雑記