近年、Webデータを使ったデータマイニングが活況を呈していますので、WebのスクレーピングをしてDBにためておきたいというニーズが少なからずあると思います。 Perl環境であれば、スクレーピングしたHTMLをDBに貯める前にutf8に変換しておきたいので、HTMLから文字コードを取り出したいと思います。そんなときに試行錯誤して調べた、PerlのWeb::Scraperを使った文字コードを抜き出す方法紹介します。なお、この記事はhachioji.pmにおける発表に基づいています。 不完全な方法 Web::Scraperを使って、簡単に一発で抜き出すには、パっと思いつくのは以下のような方法です。 use strict; use warnings; use Web::Scraper; use Test::More; my $html = '<meta HTTP-EQUIV="content-ty