Code Archive Skip to content Google About Google Privacy Terms
■概要 HTMLから本文を抽出してSolrに登録する用事があったので、Javaの本文抽出ライブラリを探してみたところ、boilerpipeという子を見つけた。 英語色が強そうだけど、そこそこに精度は出そうに見えたので使ってみた。 ■導入 とりあえずjarをダウンロード http://code.google.com/p/boilerpipe/downloads/list もしくはMavenから http://mvnrepository.com/artifact/de.l3s.boilerpipe/boilerpipe ■本文抽出を実行してみる URL url = new URL("http://www.yahoo.co.jp/"); String text = DefaultExtractor.getInstance().getText(url); System.out.println(te
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く