arktks00のブックマーク - はてなブックマーク

Apache Solr 5.x／crawler4j／Apache Tikaを使って、HTMLとPDFをクローリングしてインデックスを作る - CLOVER🍀
これまでに、Apache Solrとcrawler4jでHTMLをクローリングしてインデックスするのと、Apache Tikaを使ってPDFを読んでみるエントリを書いてみました。 Apache Solr 5.x＋crawler4jで、Webサイトをクロールしてインデックス化する - CLOVER Apache TikaでPDFを読む - CLOVER 今度は、これらを使ってHTMLとPDFをクローリングしてSolrのインデックスを作ってみたいと思います。やり方全体の流れは、以下のようにします。 VMwareのドキュメントサイトの一部（http://info.vmware.com/content/apac_jp_co_techresources）をクローリング HTMLとPDFを対象にするインデックス作成は、いきなりSolrjでドキュメントを追加するのではなく、いったんJSONをファイ
arktks00 2015/10/19
リンク
Javaで使えるオープンソース・キャッシュライブラリ - CLOVER🍀
最近は、仕事でEhcacheを使っていたり、他にも調べたりすることがあったので、ちょっとJavaで使えるオープンソースなキャッシュライブラリについてまとめてみることにしました。あ、そんなに大した内容ではないので、ご期待なさらぬよう…。でまあ、改めて調べてみた感想としては、Ehcacheが現状デファクトになっていることが改めてわかった感じですね。Javaのキャッシュライブラリって、そこそこ数が見つかるんですけど、開発が止まってしまっているものが多かったり、ドキュメントも全然ないというものもけっこう多くて、割とカオス…。しかも、軽量で気軽に導入できるキャッシュライブラリって、今はない感じですね。Guavaがキャッシュだけで独立していれば…。EhcacheとかInfinispanだと、機能で困ることはないと思いますが、ちょいと大きいですよね。調べる時に気になるのは、以下のようなところでし
arktks00 2013/08/28
JAVA

CACHE
リンク
1

はてなブックマーク

タグ

ブックマーク / kazuhira-r.hatenablog.com (2)

お知らせ

今週のはてなブックマーク数ランキング（2024年11月第1週）

月間はてなブックマーク数ランキング（2024年10月）

今週のはてなブックマーク数ランキング（2024年10月第4週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス

タグ

ブックマーク / kazuhira-r.hatenablog.com (2)

Apache Solr 5.x／crawler4j／Apache Tikaを使って、HTMLとPDFをクローリングしてインデックスを作る - CLOVER🍀

Javaで使えるオープンソース・キャッシュライブラリ - CLOVER🍀

お知らせ

今週のはてなブックマーク数ランキング（2024年11月第1週）

月間はてなブックマーク数ランキング（2024年10月）

今週のはてなブックマーク数ランキング（2024年10月第4週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス