[B! CPAN][HTML] raimon49のブックマーク

raimon49 id:raimon49

CPANとHTMLに関するraimon49のブックマーク (1)

2008年、Webは文字列解析で変わっていく
前回は、Perlモジュールである「Web::Scraper」を使ったスクレイピングについて説明した。Webページ（HTML）は、「構造」と「デザイン」面で比較的分離が進んできたため、CSSセレクタによるスクレイピングが有効であることが分かったはずだ。今回の最終回では、コンテンツの自動収集と統計手法について考えてみよう。記事内で扱っていくのは、幾つかのコンテンツをたどって、「利用頻度の高い語句を集め、話題となっているキーワードを見つけよう」というものだ。話題のキーワードを集める手法近年ブログのポータル上などでは、話題となっているキーワードを「利用頻度に応じたフォントサイズ」で示し、クリックすると該当の記事一覧が表示されるという仕組みが実装されているものが多い。オルタナティブ・ブログにも似たようなものとして「話題のキーワード」が見られる。キーワードをクリックすると、Googleによる
raimon49 2008/01/08
Perl

HTML

MeCab

CPAN

scraping

tag

あとで読んだ
リンク
1

お知らせ

もっと読む

公式Twitter

@HatenaBookmark
リリース、障害情報などのサービスのお知らせ
@hatebu
最新の人気エントリーの配信

キーボードショートカット一覧

j次のブックマーク

k前のブックマーク

lあとで読む

eコメント一覧を開く

oページを開く

設定を変更しましたx