タグ

2012年3月3日のブックマーク (2件)

  • Solrの日本語対応 -新しく追加されたトークナイザ・トークンフィルタ- 株式会社ロンウイット

    先日、Lucene/Solrのbranch_3x(3.6)とtrunk(4.0)にコミットされた日語向けのトークナイザ・トークンフィルタをご紹介します。 LuceneのJIRAのチケット LUCENE-3305 にて、日形態素解析器Kuromojiが導入されました。 これにより、日語ドキュメントに対して形態素解析に基づく単語分割が可能になります。 従来、Lucene/Solrで日語対応をする場合は、lucene-gosenやSenを使用する方法などをとってきましたが、今回の対応であらかじめLucene/Solrに組み込まれたものを使用するということが可能になります。 また一方で、LUCENE-2906にて、CJK文字に関するトークンフィルタも追加されました。 記事では、これらのトークナイザ・トークンフィルタに関して、2012/2/23時点のソースに基づいて調査したものを解説いた

    Solrの日本語対応 -新しく追加されたトークナイザ・トークンフィルタ- 株式会社ロンウイット
    yanbe
    yanbe 2012/03/03
    KuromojiがSolrの次期バージョンで標準で組み込まれて日本語が柔軟に扱えるようになるらしい
  • ビジネスを知らぬデータマイナー : Defining the Future

    「ビッグデータ」という言葉を聞かない日はないくらいの馬鹿騒ぎで、データマイナーはすっかり引く手数多の職業になりました。ただ、SI業界がこれまでムーブメントを起こしてきた数々のワードと同様、多くの"ビッグデータプロジェクト"は失敗することになると思います。ERP, BPR, BI, CRMなどなど… ビッグデータにまつわる職業の中でも、データを分析するデータマイナーに絞っての話をしたいと思います。また、データ分析専門会社にてコンサルティング業をするデータマイナーは今日の話は当てはまりません。さて。データマイニングを知らない方々は、企業においてどのようなデータマイナーがいれば成果を上げられるのかの明確なイメージは持っていないと思います。これだけたくさんのデータがあるんだから、すごい技術を持った人ならなんとかしてくれるに違いない、と。最高学府の修士・博士で、よくわからないけどすごいアルゴリズムを

    ビジネスを知らぬデータマイナー : Defining the Future