タグ

検索エンジンに関するsleepy_yoshiのブックマーク (11)

  • 全文検索システムの比較 - Elasticsearch vs Solr vs Amazon CloudSearch

    全文検索システムの比較 - Elasticsearch vs Solr vs Amazon CloudSearch February 10, 2014 at 01:05 AM | categories: solr, aws, elasticsearch, web | 候補の選定方法 候補を選定するにあたって、以下の特徴をもっていることを前提とした。 LuceneやGroongaを使えば何でもできるが、ここでは対象としない。 ウェブベースのインターフェースを持つ インデックスの更新はほぼリアルタイムに反映される スケールアウトが容易 Solr https://lucene.apache.org/solr/ Luceneをバックエンドにした全文検索システム。バージョン4になってから大幅に機能が増強された。 長所 実績が十分ある 機能豊富 短所 クラスタを構築して運用するには手間がかかりそう S

    全文検索システムの比較 - Elasticsearch vs Solr vs Amazon CloudSearch
  • 国産の全文検索エンジンGroonga vs 世界的流行のElasticsearch - CreateField Blog

    2014年4月21日は、第4回Elasticsearch勉強会ですね! http://elasticsearch.doorkeeper.jp/events/8865 第4回Elasticsearch勉強会は、参加希望者が約200名の大反響なようです。 私は勉強会に参加できないので、C言語で書かれた国産の高速な全文検索エンジンGroongaと、Javaで書かれた世界的に勢いのあるElasticsearchについて性能の比較をしたいと思います。 注意事項 今回の検証では1台あたりの馬力を比較するためにサーバ1台での全文検索性能について比較しています。 私は、Groonga(Mroonga)の利用暦が約2年であるのに対し、Elasticsearchの利用暦は2日です。このため、Elasticsearchに対するチューニングの不備や公平な比較になっていない点が含まれている可能性があります。 Ela

    国産の全文検索エンジンGroonga vs 世界的流行のElasticsearch - CreateField Blog
  • 検索エンジンの作り方教えます。グーグル自走カーのスタンフォード大教授が無料オンライン大学「Udacity」開校(動画)

    検索エンジンの作り方教えます。グーグル自走カーのスタンフォード大教授が無料オンライン大学「Udacity」開校(動画)2012.01.30 13:006,530 satomi 昨秋、大学学部レベルのコンピュータサイエンス課程を無料で提供し、日でも話題をふりまいたスタンフォード大。あれを担当したセバスチャン・スラン(Sebastian Thrun)教授が大学を辞め、なんとコンピュータサイエンス専門の無料オンライン大学「Udacity」をスタートしました! セバスチャン・スラン教授といえば、あのグーグルの自走カーをつくったお方。グーグルのフェロー(特別研究員)でもあります。 去年2月/TEDにて(日語訳) 氏は秋の人工頭脳(AI)入門コースをスタンフォード大とオンラインの両方とも並行して担当したんですが、ロイターによると「オンラインコースの方が指導が密で教え方も良いため、リアルの大学のクラ

    検索エンジンの作り方教えます。グーグル自走カーのスタンフォード大教授が無料オンライン大学「Udacity」開校(動画)
  • groonga 試してみた、のその後 - いちいの日記

    ちょっと感想をメモ。 試してみた状況 すでに動いている master (fulltext key なし) に、どでかいテーブル 1 つを ENGINE=gronnga にした slave をいれた カラムは id INT NOT NULL auto_increment, foo text, PRIMARY KEY (id), FULLTEXT KEY (foo) みたいな感じ auto_increment は現在 5 億数千万くらいで、 MYD で言うと 70GB くらい。 全般的な感想 ふつうに使うぶんにはだいたい動いてる 慣れてない (or 枯れてない) に由来するオペミスの意味で、データロストの危険はあるとおもう まだ格投入 (正常に動いてる前提なサービス) は厳しい気がする auto_increment はちゃんと動いてる 去年ばっと話題になった時点では auto_increme

    groonga 試してみた、のその後 - いちいの日記
  • 特許から判断する検索エンジンのアルゴリズム要素×26

    検索エンジン会社が申請・取得した特許・論文を細かく分析して情報を公開することで有名なSEO By The Seaというブログがあります。 サイトオーナーはBill Slawski(ビル・スラウスキ/スロースキ)氏という人物で、Patent Guru(特許の達人)とも呼ばれています。 彼が最近受けたインタビューのなかで、特許の研究から読み解いた検索エンジンがランキングを決める際に考慮していると思われるアルゴリズムの要素をリストアップしていたので紹介します。 まずアルゴリズム要素を3つのタイプに分類しています。 リンクに基づく要素 コンテンツに基づく要素 ユーザーの行動に基づく要素 それぞれに具体的にどんな要素があるのか訳します。 1. リンクに基づく要素 リンクの数と重要性以外に次のような要素が考えられる。 リンクの年齢 リンクの増減の頻度 リンク切れやリダイレクトリンクの数 リンクのアンカ

    特許から判断する検索エンジンのアルゴリズム要素×26
  • 簡単なWebサーチエンジンの作り方 - Imagine with 加藤和彦

    筑波大学は3学期制で,12月1日から3学期が始まりました.3学期には私が担当している学類生(普通の大学の学部生)3年生向けの実験があります.約3ヶ月を掛けて,ほどほどの規模のプログラム作成を行います.私が作り,担当しているプログラム実験は「Webサーチエンジン」といいまして,テキストはこちらに公開しています. この実験,結構,自信作なんです.Javaの基的なプログラミングができることだけを仮定して,漏れのない全文検索を行うWebサーエンジンを作ります.Webデータ収集を自動的に行うクローラー付き.Googleのようなページランキング機能はありませんが,一応,サーチエンジンの基機能を備えます.自慢は,このテキストが実質A4で印刷して2ページくらいであること.数学の小問を解いていくように,順番に小問を解いていくと,最後にはWebサーチエンジンができます. ミソはサフィックス・アレイ(suf

    簡単なWebサーチエンジンの作り方 - Imagine with 加藤和彦
  • セミナー資料公開「Extreme Search! 次世代検索エンジンSedueが実現する驚異のパフォーマンス」

    2009年4月8日(水) 13:00〜15:30に開催されましたPreferred Infrastructureによる製品紹介セミナーの発表資料です。

  • Fulltext index on SQLite

    もうすぐ SQLite に全文検索がつく. Wiki を見ていて気付いた. (Full-text Search for SQLite) なかなか頑張ってるみたい. 他のデータベースは既に全文検索をサポートしている. 商用のものはもちろん, PostgreSQLMySQL も 対応済. 一方で, Java 製インプロセス RDB の HSQL や Derbyy は対応していない. (Wiki を見ると提案されてはいるようす.) 大物 DB には追いつかないにせよ, 他の軽量 DB よりは一足先を行くかんじ. 数ある DB の要件から全文検索をえらぶあたりがピンポイントでいい. 小さな規模のアプリケーションでも検索が使えたら嬉しいよね. コードは CVS に入っている. このへん. とりあえずチェックアウトして試そうと思いレポジトリを覗いてみると, コードはあるけど Makefile が

  • 全文検索エンジンgroongaをテストリリースしました。 - グニャラくんのグニャグニャ備忘録@はてな

    全文検索エンジンのgroongaをテストリリースしました。 groonga 日開催された、key-value store勉強会で発表させていただきました。 今まで、Sennaには Tritonn経由で使った場合、MySQL側のインデックスとの併用が難しく、Senna来のパフォーマンスが発揮できなかった。 従来のインターフェースでは、トークナイザの切り替えなどの柔軟性がなかった。 といった問題がありました。 groongaは、それに対する返答です。 自分でデータベース書けばいいんじゃね? 柔軟なAPI用意すればいいんじゃね? ってことですね。 データベースは、key-valueストアを組み合わせたcolumnストア的な感じになっています。 詳細については、今後別エントリやドキュメントで述べます。 今後は、Sennaはバグ修正のみ行うメンテナンスモードに移行します。 実際使ってみよう 今回

    全文検索エンジンgroongaをテストリリースしました。 - グニャラくんのグニャグニャ備忘録@はてな
  • 検索エンジン3社、正しいサイトURLを認識させるcanonical属性を導入(URLの正規化) ::SEM R (#SEMR)

    検索エンジン3社、正しいサイトURLを認識させるcanonical属性を導入(URLの正規化) GoogleYahoo!Microsoft3社が rel="canonical" (正規化、canonicalization )をサポート。クローラが適切な(canonical)サイトを見つける手がかりに。rel="canonical" はページの head の中に記述すること。 公開日時:2009年02月13日 15:37 GoogleYahoo!Microsoftの3社は2009年2月12日、共同で新しいタグ「 rel="canonical"」のサポートを開始した。rel="canonical"(属性)は、検索エンジンに正しいサイトのURLを認識(正規化、canonicalization)させるために使用される。 同じサイト(ドメイン)でも、たとえば www.sem-r.com、se

    検索エンジン3社、正しいサイトURLを認識させるcanonical属性を導入(URLの正規化) ::SEM R (#SEMR)
  • Cuil

    Query by Category Find pages that referrence concepts in a category. For example, use "category: american-presidents" to search for pages that talk about Presidents of the USA. More Information

  • 1