BoilerplateはURLを与えると本文部分を抽出するライブラリ。 BoilerplateはJava製のオープンソース・ソフトウェア。Webサイトをクローリングしたり、そのサイト内にあるテキストを使って別なWebサービスを構築すると言った手法はよく存在する。そんな時に必要になるのが本文抽出というテクニックだ。 デモ Webサイトには本文以外にも多様なコンテンツが存在する。例えばヘッダー、サイドバー、フッター、広告などだ。そうした無用なコンテンツを除去し、必要な部分だけ取り出すためのライブラリがBoilerplateだ。 BoilerplateはURLを引数に、後は自動的にコンテンツを取得して本文だけを返却してくれるという手軽なライブラリだ。Javaのライブラリなので、既存のJavaシステムに組み込むのはもちろん、Google App Engineを使ってWeb APIとしてコンテンツ抽
2012年7月18日 at 3:55 午前 1件のコメント Project Jigsaw: 列車に乗り遅れる (オリジナルの投稿:現地時間2012/07/17 08:58:00 -07:00) この記事は Mark Reinhold によって記載されたブログ記事の翻訳です、 Java SE 8 のリリースに伴う重要な変更となる可能性があるため翻訳致しました。 オリジナルの記事:Project Jigsaw: Late for the train Project Jigsaw の目的は、Java SE プラットフォームに標準のモジュールシステムを設計し実装を行う事です、そしてプラットフォーム自身、そして JDK に対してもそのモジュールシステムを適用します。jigsaw は現在 Java 8 での提供を予定しています。 そして提案した Java SE 8 の開発スケジュールは2013年
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く