[B! ライブラリ][Ruby] bunhikoのブックマーク

bunhiko id:bunhiko

ライブラリとRubyに関するbunhikoのブックマーク (1)

MOONGIFT: HTMLから本文抽出「Extractcontent」:オープンソースを毎日紹介
ブログやサイト内の文字列を扱うサービスの中で、HTML中における本文を抽出するというのは重要な課題だ。ライブラリ化したものや、クローラとして提供されるものなど様々な形態が存在する。そんな中、サイボウズの提供するサービス「パストラック」で利用されているその本文抽出モジュールはオープンソースとして公開されている。今回紹介するオープンソース・ソフトウェアはExtractcontent、Rubyによる本文抽出モジュールだ。 Extractcontentは一つのRubyスクリプトからできている。読み込むだけで使えるので、Rails等に組み込むのも簡単だ。HTML全体を渡すと、タイトルと本文を同時に取り出してくれる。パラメータは細かく存在し、それを変更する事で性能を変更できる。が、まずデフォルトのままで大丈夫だろう。ライブラリだけで本文抽出ができるという手軽さが良い。ブログを使ったテキストサー
bunhiko 2007/10/30
Ruby

html

tool

ライブラリ
リンク
1

お知らせ

もっと読む

公式Twitter

@HatenaBookmark
リリース、障害情報などのサービスのお知らせ
@hatebu
最新の人気エントリーの配信

キーボードショートカット一覧

j次のブックマーク

k前のブックマーク

lあとで読む

eコメント一覧を開く

oページを開く

設定を変更しましたx