タグ

sennaに関するmroriiのブックマーク (18)

  • YappoLogs: Senna+MySQLをより超高速にするパッチ

    Senna+MySQLをより超高速にするパッチ 当者比50~100倍程のスピードアップ(クエリ/テーブル構造による)のパッチです。 MySQL(特にFullText boolean mode)のlimitの実装はある意味効率の悪い実装になっている。 例えば、limit 100000,100といったクエリを投げると100100行分のデータをディスクから読み込むのである。 まぁ、whereなどの条件に一致する100000件のレコードを先に確定させなければいけない訳で当然といえば当然である。 order byとか使ってたらなおさら。 無論SQL_CALC_FOUND_ROWSなんか使ってると全件確定させなきゃいけないから大変。 当然これらはindexを使用していない時の挙動だと思う。 indexのみが使われたクエリの挙動は未確認だけど。 さて、ここから題。 では、Senna+MySQLの挙動は

    mrorii
    mrorii 2010/02/22
  • qwik.jp - qwik リソースおよび情報

    This webpage was generated by the domain owner using Sedo Domain Parking. Disclaimer: Sedo maintains no relationship with third party advertisers. Reference to any specific service or trade mark is not controlled by Sedo nor does it constitute or imply its association, endorsement or recommendation.

    mrorii
    mrorii 2010/02/17
  • Re: 稼働中のSennaのバージョンを確認 (Ludia-users 28) - Ludia - OSDN

    iwasa****@nttda***** iwasa****@nttda***** 2007年 3月 12日 (月) 12:14:37 JST 前の記事 [Ludia-users 26] 稼働中のSennaのバージョンを確認 次の記事 [Ludia-users 30] Re: 稼働中のSennaのバージョンを確認 記事の並び順: [ 日付 ] [ スレッド ] [ 件名 ] [ 著者 ] 岩崎です。 > pgs2version関数を用いると、Ludia のバージョンを見ることができますが、 > Ludia が内部で使用しているSenna のバージョンを確認する方法はあるでしょう か? Sennaに付属のsenna-cfgコマンドで確認することができると思います。:: $ senna-cfg --version 1.0.1 senna-cfgコマンドは (Sennaを)インストールしたときの

    Re: 稼働中のSennaのバージョンを確認 (Ludia-users 28) - Ludia - OSDN
    mrorii
    mrorii 2010/01/29
  • SennaによるN-gramインデックスで注意すべき挙動 - グニャラくんのグニャグニャ備忘録@はてな

    追記:以下の文書について 現在リリースされているSenna 1.0.7では、 N-gramで1文字の日語を検索する場合は 直接部分一致検索を動作させるようにしました。 というわけで、以下で説明している挙動は今現在当てはまりません。 1文字の単語について uchiuchiyamaさんのブログにあった、Sennaのクエリ書式に対する質問 http://d.hatena.ne.jp/uchiuchiyama/20070317/senna_query_problem この問題ですが、 おそらくN-gramでインデックスを作成している場合に起こっていると考えられます。 SennaのN-gramインデックスはbi-gram、 すなわち2文字を1つのトークンとみなし、 インデックスへの登録を行っています。 ということは、文書の末尾を除いて、 すべてのトークンは2文字となり、 1文字のトークンで検索をし

    SennaによるN-gramインデックスで注意すべき挙動 - グニャラくんのグニャグニャ備忘録@はてな
    mrorii
    mrorii 2010/01/26
  • qwik.jp - qwik リソースおよび情報

    This webpage was generated by the domain owner using Sedo Domain Parking. Disclaimer: Sedo maintains no relationship with third party advertisers. Reference to any specific service or trade mark is not controlled by Sedo nor does it constitute or imply its association, endorsement or recommendation.

    mrorii
    mrorii 2010/01/26
  • Re: tritonnの近傍・関連文書検索について (Senna-dev 624) - senna - OSDN

    morit****@razil***** morit****@razil***** 2007年 6月 28日 (木) 18:32:18 JST 前の記事 [Senna-dev 623] Re: tritonnの近傍・関連文書検索について 次の記事 [Senna-dev 625] Re: tritonnの近傍・関連文書検索について 記事の並び順: [ 日付 ] [ スレッド ] [ 件名 ] [ 著者 ] > ところで検索結果の出力順ですが、関連度のようなものでソートされますか? デフォルトでは関連度ではソートされません。 SELECT c1 FROM t1 WHERE MATCH(c1) AGAINST('*S3今日は' in boolean mode) order by MATCH(c1) AGAINST('*S3今日は' in boolean mode) desc; のようにソート条件

    Re: tritonnの近傍・関連文書検索について (Senna-dev 624) - senna - OSDN
  • qwik.jp - qwik リソースおよび情報

    This webpage was generated by the domain owner using Sedo Domain Parking. Disclaimer: Sedo maintains no relationship with third party advertisers. Reference to any specific service or trade mark is not controlled by Sedo nor does it constitute or imply its association, endorsement or recommendation.

  • Sennaのマルチセクション機能に対応 - mir the developer

    Sennaのマルチセクション機能に対応しました! 次回のTritonnリリース(ver1.0.3)から利用可能になる予定です! Tritonn 1.0.3は来月あたりにリリースする予定です。 マルチセクション機能とは? マルチセクション機能とはテーブルに全文検索対象のカラムが複数あるような場合に、非常に便利使える機能です。 以下のようなテーブルがあって、c2/c3/c4の3つのカラムで全文検索をしたい、という場合を想定します。 CREATE TABLE t1 (c1 INT PRIMARY KEY, c2 TEXT, c3 TEXT, c4 TEXT) DEFAULT CHARSET utf8;このとき、これまでは以下のように複合キーとしてFULLTEXTインデックスを作成することで、1度のMATCH検索でc2/c3/c4の何れかにキーワードを含むレコードを探すことができましたが、、、問題

    Sennaのマルチセクション機能に対応 - mir the developer
  • 衝撃の事実。Tritonn(上のsenna) による検索はスコア値(重み付け順)でソートされない - 暴想

    結論としては、↓のブログ様でかかれていることの通り。ここで4時間消費した。というか、↓のブログを発見するのに4時間費やしたということか。 Tritonn による検索はスコア値でソートされない - Ceekz Logs (吉田光男@筑波の日記) senna 重み付けの方法 - Google 検索とかで検索すると、 Sennaのマルチセクション機能に対応 - mir the developer のページがヒットする。 おお、マルチセクション機能を使えばカラム単位で重み付けができるのかと思って早速試してみるものの、結果に変化がない。まるでない。 これをやっているうちに、そもそもtritonn(っていうか、senna)の検索結果ってorder句を指定しなかったら何順なの?とかという素朴な疑問がわいてきた。 検索結果を見ると、なんだか普通のlike検索と同じだ。 んでも、LuceneとSennaの比

    衝撃の事実。Tritonn(上のsenna) による検索はスコア値(重み付け順)でソートされない - 暴想
  • Tritonn による検索はスコア値でソートされない - Ceekz Logs (Move to y.ceek.jp)

    最近は、徹夜しながら MySQL + Senna の Tritonn を試している。先日まで、Tritonn を利用した全文検索では、取り出した結果がスコア値でソート(適合度順)されるものだと思っていた。 すなわち、 SELECT * FROM table WHERE MATCH(col) AGAINST('*D+ 検索' IN BOOLEAN MODE); というクエリを発行した場合、結果は TF-IDF に基づく順序だと思っていた。 これは、単なる思い込みで、正しくない。 SELECT *, MATCH(col) AGAINST('*D+ 検索' IN BOOLEAN MODE) FROM table WHERE MATCH(col) AGAINST('*D+ 検索' IN BOOLEAN MODE); こうすればスコア値を表示できるので、スコア順でソートされていないことを確認できた。

  • Tritonnとは - Tritonnプロジェクト ~ MySQL+Sennaによる全文検索 ~

    This webpage was generated by the domain owner using Sedo Domain Parking. Disclaimer: Sedo maintains no relationship with third party advertisers. Reference to any specific service or trade mark is not controlled by Sedo nor does it constitute or imply its association, endorsement or recommendation.

  • はてなキーワードを高速に付与 - hsiomanekiの日記

    sennaのsen_symクラスは、common prefix searchが可能です。この機能を使って(今更なのですが)Dartsと同じ手法ではてなキーワードを高速に付与するプログラムを作ってみました。 hatenapo.c 以下のような特徴があります。 任意のタイミングで付与対象のキーワードをインデックスに追加/削除できる インデックスの作成/更新が高速 キーワード付与が高速 http://d.hatena.ne.jp/images/keyword/keywordlistの内容でインデックスを生成し、 350KB程度の日語テキスト(EUC)にキーワードを付与した場合の処理速度を比較してみました。 Dartsを使ったインデックス作成 % time ./mkdarts keywordlist.sort keywordlist.da 2.010u 0.060s 0:02.74 75.5%

    はてなキーワードを高速に付与 - hsiomanekiの日記
    mrorii
    mrorii 2009/10/21
  • ツッコめ!全文検索エンジンSennaの新しいAPIについての素案。 - グニャラくんのグニャグニャ備忘録@はてな

    みんな、[Senna-dev 884]のメールは読んだかな!? 全文検索エンジンSennaの新しいAPIについての素案がついに公開されました。 今までのAPIのほとんどを刷新するという 大改造!劇的ビフォーアフター的API群です(APIの匠)。 んで、この新しいAPI群で何ができるようになるのでしょうか。 簡単に言うと、 「Sennaは、データベースになります!」 といいつつも、全文検索機能を充実させるために、 データベース的機能を強化した、という感じになっておりますぞ。 データベース機能 新しいSennaでは、複数のテーブルというものを持つことができます。 テーブルは、複数のレコードを持つことができます。 レコードは、複数のカラムを持つことができます。 カラムは、ある型のデータを保持します。 一般的なRDBMSの2次元表をまずはイメージしてください。 ポイント1. レコードごとにカラムが

    ツッコめ!全文検索エンジンSennaの新しいAPIについての素案。 - グニャラくんのグニャグニャ備忘録@はてな
    mrorii
    mrorii 2009/10/21
  • Senna - eto.com/d

    Contentsmecabのinstallmecab: installされたファイルSennaのinstallsenna: installされたファイルMySQLのinstallmysqlの起動mysqlのrootにパスワードを設定するメモテストテーブルを作成 http://chasen.org/~taku/software/mecab/http://chasen.org/~taku/software/mecab/#downloadhttp://chasen.org/~taku/software/mecab/src/mecab-0.81.tar.gzhttp://dev.razil.jp/archive/mecabへのpatchファイルは4つあるが、20050423が最新のようだ。http://chasen.aist-nara.ac.jp/stable/ipadic/ipadicは2.7.

  • 組み込み型全文検索エンジン Senna : NDO::Weblog

    naoya.dyndns.org is currently offline. Please try again later. Questions about our services? Learn more at Dyn.com.

  • YappoLogs: Sennaメモ その壱 (with patch)

    Sennaメモ その壱 (with patch) Senna 先月末より公開された、未来検索ブラジルの成果物。 N-gram&MeCabな全文検索システムです。 たとえば・・・ 組み込み型全文検索エンジン Senna : NDO::Weblog 実は、はてなブックマークのブックマーク検索はこの Senna + MySQL で実現されています。 と、導入実績がちゃんとあったりします。 他にも、あんなのやこんなのにも導入されているそうです。 #このメモはsvn Revision 6を対象としています。 #テスト環境はRHL9です。 いけてそうなSennaですが、公開したてということも有りインストールが大変です。 svnでとってきたソースツリーはaclocalとかautoconf,automakeすればインストール出来るのですが mysqlの全文検索機能に対応させるには一筋縄ではいきません。 む

  • CentOSにMeCab+Senna+MySQLを入れる

    語で全文検索をするために MySQL に Senna を組み込むメモ。少し前は個人ニュースサイトめぐり→日記書きに数時間を要していた私が次に目をつけたのがRSSめぐり→はてブ登録なのだがそれでも依然として数時間かかる。そんなあなた (私) に朗報です。私の代わりにブックマークしてくれるエージェントを作ればいいのです。そしてそのエージェントが今日よく使われていた単語やタグとか出してくれて、1次ソースAについてBさんとCさんとDさんがそれぞれの立場でこんなことを書いているとかいうのが俯瞰できて、さらにあとから検索とかができればいいのです。いまホッテントリを見なくてもいいのです。あとで検索できればいいのです。Googleが拾ってくる量は莫大過ぎるし個人で把握できる範囲にも限度がある。ユーザの皆さんが勝手に重み付けしてくれるならそれを使ったらいい。先週の週刊東洋経済を読んで悟った。いやなんか変

  • MySQLオフィシャルトレーニング お申込みのご案内

    サイトリニューアルのお知らせ サイトリニューアルに伴い、URLが変更となりました。 新URLはこちらとなります。 https://www.scsk.jp/sp/usize/service/mysql.html 個人情報保護への取り組み|情報セキュリティ方針|会社情報 Copyright (C) SCSK Corporation. All Rights Reserved.

  • 1