Senna 2.0βのリリースが見えてきました。 去年の夏に出すと言っていましたが、紆余曲折あっての現状です。 ライバルのTokyo Cabinet/Tokyo Dystopiaについては、 ストレージと全文検索インデックスを分割する方向性です。 mixi engineer blog 今までのSennaはTokyo Dystopiaに近いものでしたが、 Senna 2.0では逆にHyper Estraierのほうに近づく感じになっています。 それぞれ特色が出て面白いですねー。 今回は転置インデックス部分にもかなり手が入っているので、 Senna/Lucene/Tokyo Dystopiaのパフォーマンス比較もやってみたいと思います。 (とはいえ、パフォーマンス比較はそれぞれのライブラリに精通しないと意味のある情報が出せないので、大変ではありますね…) Senna 2.0 + MySQL 5
_ [MySQL] Tritonn (Senna/MySQL) 評価ちう。 Tritonnをソースから作ってみる。 とりあえず動作確認できればいいので charsetはutf8とする。 後でsjisに変更してみる。 全部ホームディレクトリ上で作る。 rpmでMySQLが入ってる環境。既存のmysqldは停止。 (Tritonnのportとsocketを適切に設定すれば停止しなくてもいけると思う) という方針で。 PATH=$HOME/c/bin:$PATH してます。 http://qwik.jp/senna/install.html ### mecab $ cd ~/src/mecab-0.97 $ ./configure --prefix=/home/moriq/c --with-charset=utf8 $ make && make install ### mecab-ipadic
Tritonnの謎 最新tritonnで SELECT MATCH(col1, col2, col3) AGAINST('W.... query' IN BOOLEAN MODE) AS score Where MATCH(col1, col2, col3) AGAINST('W.... query' IN BOOLEAN MODE) ORDER BY score DESC; が異常に遅いのはなんでなんでしょう。vmstatみてるとこのクエリが発生すると、10回に1回くらいすげぇ量のI/O (特にINのほう)が発生してるんですが・・・ 一回このクエリが実行し終わって、再度同じクエリを投げるとそうとう速くなるのだけど、これはクエリキャッシュっぽい。SQL_NO_CACHEすると同じ事が起きる。いったいどこの何をつかってソートしてるんだ?? 追記:間違い。SQL_NO_CACHEしてても、2回
Tritonn、Ludia、そしてSennaとは…… 昨今のWeb 2.0と呼ばれるようなWebシステムでは、一般的に大量のコンテンツデータを内部に保有しているのではないでしょうか。大量のコンテンツから目的のコンテンツをユーザが選び取る手段の一つとして全文検索が挙げられます。全文検索とは、検索対象コンテンツの中身すべてに対して検索を行うことを指します。たとえば、タグやタイトルを対象にした検索だけでは、目的のコンテンツを発見できないような場合に有効な検索です。 データベースに保持された大量のデータを簡単に全文検索したい、という場合も多いことでしょう。本稿では、それを実現にする全文検索システムとして、次の2つを取り上げて紹介します。 Tritonn Ludia これらはそれぞれ、Tritonnは「MySQL」、Ludiaは「PostgreSQL」という、Webシステムを開発する上で人気の高
Mecab、Senna、いずれもCentOS用のRPMパッケージがまだ無いので作成。 MySQLへのSennaのパッチも当てたRPMを作成する。 Mecab のrpm作成&インストール まずspecファイルのために、src.rpmの取得&インストール。Fedora Core 7用のsrc.rpmを取得。 # wget ftp://194.199.20.114/linux/fedora/extras/development/SRPMS/mecab-0.95-2.fc7.src.rpm # wget ftp://194.199.20.114/linux/fedora/extras/development/SRPMS/mecab-ipadic-2.7.0.20060707-2.fc7.src.rpm # rpm -i mecab-0.95-2.fc7.src.rpm # rpm -i mecab
This webpage was generated by the domain owner using Sedo Domain Parking. Disclaimer: Sedo maintains no relationship with third party advertisers. Reference to any specific service or trade mark is not controlled by Sedo nor does it constitute or imply its association, endorsement or recommendation.
This webpage was generated by the domain owner using Sedo Domain Parking. Disclaimer: Sedo maintains no relationship with third party advertisers. Reference to any specific service or trade mark is not controlled by Sedo nor does it constitute or imply its association, endorsement or recommendation.
現在では、商品の詳細な解説や購買者からの感想、顧客からのクレームや問い合わせ内容とその回答など、様々な情報が企業のデータベースに蓄積されています。ショッピングサイトの訪問者やコールセンターのオペレータは、これらの膨大なテキストデータから迅速に求めるデータを抽出したいと望んでいます。そして、この際に必要となるのが本連載でとりあげる全文検索です。 本連載では、全文検索を実現するソフトウェアのなかでもオープンソースである「Ludia」に焦点をあてて、全文検索の技術そのものからその導入ポイントまでを解説していきます。なおLudiaは、オープンソースRDBMSとして著名なPostgreSQLに対して高度な日本語全文検索を実現するため、NTTデータが開発し、オープンソースとして公開しています。 ほとんどのインターネット利用者にとって、「検索」は日々利用する当たり前のサービスとなっています。ここで用いら
This webpage was generated by the domain owner using Sedo Domain Parking. Disclaimer: Sedo maintains no relationship with third party advertisers. Reference to any specific service or trade mark is not controlled by Sedo nor does it constitute or imply its association, endorsement or recommendation.
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く