タグ

2014年1月4日のブックマーク (2件)

  • use Web::Scraper; - 今日のCPANモジュール(跡地)

    宣伝と注意書き このサイトが元になったCPANモジュールガイドというを書きました。 書でもとりあげています。 このページでは解説していない内容として、scraper { }を入れ子にするやり方も扱いました。scraperコマンドについては書では割愛しました。 2007-12-29 use Web::Scraper; 年の瀬にさりげなく再開。 久しぶりということでネタはたくさんあるのですが、ぱっとすぐ思いつくおススメ Web::Scraper を紹介。これはその名のとおり、ウェブのスクレイピングHTML のある部分を抽出)用のモジュールです。半年くらい前に生まれた新しいモジュールでありながら、すでにこの分野でメジャー感がある miyagawa プロダクトです。 API が用意されているサイトの情報は普通に API で取ればよいですが、世の中そうばかりでもないわけで、HTML を文字列

    mary_pp
    mary_pp 2014/01/04
    [Web::Scraper][認証]
  • Perlではじめるテキストマイニング - JPerl Advent Calendar 2009

    Perlではじめるテキストマイニング - JPerl Advent Calendar 2009 Perl に関するちょっとした Tips をのっけてみるよ。ちゃんと続くかな? ■前置き みなさんこんにちは。ダウンロードたけし(寅年)です。来年は年男なので今からお正月が待ち遠しい35歳2児の父です。 ここ数年、web広告業界ではコンテキスト解析とかユーザの行動分析とか、いわゆるデータマイニング/テキストマイニング系の話題が花盛りです。 自分もそんな業界に属しているんですが、ふと気がつくと日語のテキストマイニング系モジュールを量産してしまっているので、ここらでいくつか紹介してみたいと思います。 今回はインターネットからブログなどのコンテンツを取得して、それを意味解析してクラスタリングする、といったようなことを題材にモジュールの紹介をしてみます。 ■HTML::Featureで文抽出 まずは