タグ

ブックマーク / kazuhira-r.hatenablog.com (2)

  • Apache Solr 5.x/crawler4j/Apache Tikaを使って、HTMLとPDFをクローリングしてインデックスを作る - CLOVER🍀

    これまでに、Apache Solrとcrawler4jでHTMLをクローリングしてインデックスするのと、Apache Tikaを使ってPDFを読んでみるエントリを書いてみました。 Apache Solr 5.x+crawler4jで、Webサイトをクロールしてインデックス化する - CLOVER Apache TikaでPDFを読む - CLOVER 今度は、これらを使ってHTMLPDFをクローリングしてSolrのインデックスを作ってみたいと思います。 やり方 全体の流れは、以下のようにします。 VMwareのドキュメントサイトの一部(http://info.vmware.com/content/apac_jp_co_techresources)をクローリング HTMLPDFを対象にする インデックス作成は、いきなりSolrjでドキュメントを追加するのではなく、いったんJSONをファイ

    Apache Solr 5.x/crawler4j/Apache Tikaを使って、HTMLとPDFをクローリングしてインデックスを作る - CLOVER🍀
    arktks00
    arktks00 2015/10/19
  • Javaで使えるオープンソース・キャッシュライブラリ - CLOVER🍀

    最近は、仕事でEhcacheを使っていたり、他にも調べたりすることがあったので、ちょっとJavaで使えるオープンソースなキャッシュライブラリについてまとめてみることにしました。 あ、そんなに大した内容ではないので、ご期待なさらぬよう…。 でまあ、改めて調べてみた感想としては、Ehcacheが現状デファクトになっていることが改めてわかった感じですね。Javaのキャッシュライブラリって、そこそこ数が見つかるんですけど、開発が止まってしまっているものが多かったり、ドキュメントも全然ないというものもけっこう多くて、割とカオス…。 しかも、軽量で気軽に導入できるキャッシュライブラリって、今はない感じですね。Guavaがキャッシュだけで独立していれば…。EhcacheとかInfinispanだと、機能で困ることはないと思いますが、ちょいと大きいですよね。 調べる時に気になるのは、以下のようなところでし

    Javaで使えるオープンソース・キャッシュライブラリ - CLOVER🍀
  • 1