ExtractContentJSはJavaScript製のオープンソース・ソフトウェア。ブログやWebサイトのデータを集積して、そこから情報を吸い出して何らかのサイトを構築するというサービスは多い。その時重要になるのが特定URLからの本文抽出だ。サイドバーやヘッダーなど余計な情報を省くことでより意味のあるコンテンツが得られるようになる。 画面下の文字列が本文抽出した結果 Rubyであれば以前紹介したExtractcontentというライブラリがある。そしてそれをベースのはてなにてJavaScript実装したのがExtractContentJSだ。JavaScriptベースの実装とあって、クライアントベースで抽出を行いたいという時に使えそうなライブラリだ。 使い方は簡単で、ExtractContentJSのオブジェクトを作ったら現在表示されているページのオブジェクト(document)を渡す