タグ

全文検索に関するsatojkovicのブックマーク (8)

  • はてなブックマーク全文検索機能の裏側

    そろそろ落ち着いて来たころ合いなので、はてなブックマーク全文検索機能の裏側について書いてみることにします。 PFI側は、8月ぐらいからバイトに来てもらっているid:nobu-qと、id:kzkの2人がメインになって進めました(参考: 制作スタッフ)。数学的な所は他のメンバーに色々と助言をしてもらいました。 はてな側は主にid:naoyaさんを中心に、こちらの希望や要求を聞いて頂きました。開発期間は大体1〜2か月ぐらいで、9月の上旬に一度id:naoyaさんにオフィスに来て頂いて合宿をしました。その他の開発はSkypeのチャットで連絡を取りながら進めてました。インフラ面ではid:stanakaさん、契約面ではid:jkondoさん、id:kossyさんにお世話になりました。 全文検索エンジンSedue 今回の検索エンジンはSedue(セデュー)という製品をベースにして構築しています。Sedu

    はてなブックマーク全文検索機能の裏側
  • Introduction to Information Retrieval #2 (前半) の復習資料 - naoyaのはてなダイアリー

    id:naoya:20080205:1202208135 から引き続き、Introduction to Information Retrieval 2章の復習資料を以下にアップロードしました。 http://bloghackers.net/~naoya/iir/ppt/iir_02_1.ppt 今回は 2 章の前半、インデックス作成前のドキュメントの前処理に関する話題が中心です。2章は長かったので、区切りの良いところまでとなっています。次回の輪読会は 3/8 予定です。また次回の開催日後に、先週末の復習分である 2章残りと 3章前半についての資料を公開したいと思います。 過去の章のアーカイブは同 URL のディレクトリ (http://bloghackers.net/~naoya/iir/ppt/) から一覧できます。

    Introduction to Information Retrieval #2 (前半) の復習資料 - naoyaのはてなダイアリー
  • LOGICAL-PARADOX.ORG

    RSS/1 - 検索キーワードおよび来訪履歴による自動カテゴリ化機能つきサーチエンジン 第4工程: インデックス作成エージェントの開発 このフェーズでは,検索システムの命とも言うべき,インデックス作成システムの開発を行います. 第4工程 追加1: 全文検索システムの試作第1回 第4工程 追加2: 全文検索システムの試作第2回 第4工程 追加3: 全文検索システムの試作第3回 第4工程 追加4: 全文検索システムの試作第4回 最初になにからするべきか 恥ずかしながら,検索システムなぞ全く開発した経験もなければ,知識も全くありません. 「何をするべきか」というよりは,まずどのように勉強を進めるかを考えなければなりません.これを読んでいる知識人の方,アホかと思われたでしょう.同じように勉強しようと思っている方,あまりに参考にならなくてがっかりされたことでしょう. しかし

  • Namazu - 全文検索で文書の山に立ち向かう

    我々は文書の山に囲まれて暮している。なかでも電子メールは身近 な存在である。 とあるシンポジウムでこんな出来事があった。討論の話題が IT (情報技術) 革命におよんだときに、年輩の先生が次のような質問 を投げかけた。「現時点でさえ、私は電子メールの処理に困ってい るのに、これ以上 IT革命が進んだらどうなるのか」 この質問に対し、司会者はすかさず「すでにIT革命に乗り遅れてし まっている先生からの、たいへんいい質問です」と応え、場内は大 いに沸いた。おそらく自分たちも困っているからこそ、多くの人 が笑ってしまったのではないかと思う。 かくいう筆者も電子メールの処理に苦労している人間の 1人である。 筆者のメールボックスには約 5万通、計 200MBのメールが溜まって いる。ほとんどのメールは後から参照することはないが、まれに参 照したくなるときがある。たとえば、この問題の解決策は以前に誰

  • Lists of the full-text retrieval softwares which can handle japanese properly.

    INDEX このページの目的 全文検索技術について簡単に フリーソフトウェアで日語の通るもの フリーソフトウェアだが日語が通らないもの 商用製品で日語の通るもの どのシステムを選ぶべきか 実際の導入事例の比較一覧 参考文献紹介 掲載ありがとう ページ作者のつぶやき Since: Thu Apr 17 13:43:10 1997 Last Refreshed: Fri Nov 12 00:05:46 JST 2004 時間の都合上、この一年ほどは十分にメンテナンスできていません。 ご利用の際には、その旨、悪しからずご了承下さい。(2002/5/31) ★ (2003/7/1) 拙著『Namazuシステムの構築と活用』を改訂しました。 詳しくは サポートページをご覧ください。 ★ (2003/5/21) MitakeSearch v4.0 リリース。 ★ (2003/4/25) Ver

  • かずひこ空間 - Linux Conference 2005 全文検索 BOF

    全文検索システムの開発者とユーザが集まり、各システムの紹介やデモなどを交えながら、全文検索システムに関することをみんなで話しましょう。 日頃全文検索システムを使っていて感じていることや、やりたいと思っていること、あるいはこの機会に開発者に直接聞いてみたいと思っていることなど、なんでも OK です。 全文検索に興味のある方はぜひご参加ください。 発表者 竹迫良範さん (Namazu Project) 発表資料 平林幹雄さん (Hyper Estraier開発者) 発表資料 西田雄也さん・高尾宏治さん (Rast開発者) 発表資料 大沢和宏さん (検索サイト運営者) 発表資料 かずひこ (コーディネータ) 発表資料 YappoLogs 要求に見合った選定をきちんとする事が大事です。 開発メモ いいところは互いにどんどん取り入れるとともに、プロジェクトの目的に応じた独自性を進化させていくというの

  • カイハツニッキ(2005-09-26) 全文検索系

    _ [ソフトウェア] 全文検索エンジン評価(Hyper Estraier / Rast / Senna) 現在(流行気味の)オープンソースの全文検索エンジンは、メジャーどころだとタイトルに挙げた Hyper Estraier Rast Senna) の3つがあります(他にもすげーのがあったら教えてください!)。テキストが集まってくる系(どんな系だ)のアプリケーションだと全文検索はかなり重要な要素を占めてくる技術要素となります、ので結構真剣に評価する必要があるわけです。とはいっても運用という面ではあまり高いサービスレベルは求められないことがおおいので、別のエンジンに入れ替える、っていうのも結構出来ちゃいそうですけどね。 さて、評価のポイントはいろいろあるんですが敢えて五月雨式に書くと 1インスタンスでどれくらい大量のテキストに耐えられるか どれくらいのスケーラビリティがあるか 更新のパフォー

  • http://chasen.org/~taku/blog/archives/2005/03/post_801.html

  • 1