タグ

ブックマーク / rn.hatenablog.com (2)

  • Wavelet Treeをもう一度 - 気ままなブログ

    文字列のメインであるウェーブレット木をもう一度素直に見直すことにした。 高速文字列解析の世界――データ圧縮・全文検索・テキストマイニング (確率と情報の科学) 作者: 岡野原大輔出版社/メーカー: 岩波書店発売日: 2012/12/27メディア: 単行購入: 15人 クリック: 324回この商品を含むブログ (5件) を見る Wavelet Treeに関する著者のスライドは以下である。 http://www.slideshare.net/pfi/ss-15916040 ふらふらと論文を眺めていたら、Navarro神の「Wavelet Trees for All」というサーベイ論文が加筆されて更新されていた。内容自体はあまり変わっていないと思うが図が増えていた。以下がその論文である。 http://www.dcc.uchile.cl/~gnavarro/ps/jda13.pdf 大半の内

    Wavelet Treeをもう一度 - 気ままなブログ
  • サーチアプリケーション - 気ままなブログ

    Solrは、3.Xの頃に調査したことがあったのですが、4.Xになってからは触れることがほとんどなく、なんか良くなったらしいということだけ聞こえてきていました。また、最近の世の中の事情もあって、構造化データと非構造化データを効率的に扱うことを考えるとサーチアプリケーションという選択肢もアリになっていると思います。専用のDWHを用意するという発想ももちろんアリだと思います。ただ、データの格納が必要なく、すでに稼働しているさまざまなデータを取出し、サーチアプリケーションのインデックスとしてだけ保持しておいて利用するというのもコストがあまりかからないので良いと思います。弱点としては、サーチアプリケーションごとに、機能の違いがあることと、元のデータソースとの同期を適切に行わないといけないというところでしょう。 全文検索というとテキストだけを対象としているように考えてしまいがちですが、ビッグデータブー

    サーチアプリケーション - 気ままなブログ
  • 1