mary_ppのブックマーク / 2014年1月4日

mary_pp id:mary_pp

2014年1月4日のブックマーク (2件)

use Web::Scraper; - 今日のCPANモジュール（跡地）
宣伝と注意書きこのサイトが元になったCPANモジュールガイドという本を書きました。本書でもとりあげています。このページでは解説していない内容として、scraper { }を入れ子にするやり方も扱いました。scraperコマンドについては本書では割愛しました。 2007-12-29 use Web::Scraper; 年の瀬にさりげなく再開。久しぶりということでネタはたくさんあるのですが、ぱっとすぐ思いつくおススメ Web::Scraper を紹介。これはその名のとおり、ウェブのスクレイピング（HTML のある部分を抽出）用のモジュールです。半年くらい前に生まれた新しいモジュールでありながら、すでにこの分野でメジャー感がある miyagawa プロダクトです。 API が用意されているサイトの情報は普通に API で取ればよいですが、世の中そうばかりでもないわけで、HTML を文字列
mary_pp 2014/01/04
[Web::Scraper][認証]

perl

scraping
リンク
Perlではじめるテキストマイニング - JPerl Advent Calendar 2009
Perlではじめるテキストマイニング - JPerl Advent Calendar 2009 Perl に関するちょっとした Tips をのっけてみるよ。ちゃんと続くかな？ ■前置きみなさんこんにちは。ダウンロードたけし（寅年）です。来年は年男なので今からお正月が待ち遠しい35歳2児の父です。ここ数年、web広告業界ではコンテキスト解析とかユーザの行動分析とか、いわゆるデータマイニング／テキストマイニング系の話題が花盛りです。自分もそんな業界に属しているんですが、ふと気がつくと日本語のテキストマイニング系モジュールを量産してしまっているので、ここらでいくつか紹介してみたいと思います。今回はインターネットからブログなどのコンテンツを取得して、それを意味解析してクラスタリングする、といったようなことを題材にモジュールの紹介をしてみます。 ■HTML::Featureで本文抽出まずは
mary_pp 2014/01/04
perl

自然言語処理

tf-idf

BM25
リンク
- 2014年1月7日
- 2014年1月4日
- 2014年1月2日