[B! 検索エンジン] sleepy_yoshiのブックマーク

全文検索システムの比較 - Elasticsearch vs Solr vs Amazon CloudSearch

全文検索システムの比較 - Elasticsearch vs Solr vs Amazon CloudSearch February 10, 2014 at 01:05 AM | categories: solr, aws, elasticsearch, web | 候補の選定方法候補を選定するにあたって、以下の特徴をもっていることを前提とした。 LuceneやGroongaを使えば何でもできるが、ここでは対象としない。ウェブベースのインターフェースを持つインデックスの更新はほぼリアルタイムに反映されるスケールアウトが容易 Solr https://lucene.apache.org/solr/ Luceneをバックエンドにした全文検索システム。バージョン4になってから大幅に機能が増強された。長所実績が十分ある機能豊富短所クラスタを構築して運用するには手間がかかりそう S

sleepy_yoshi 2014/09/21

検索エンジン

リンク

国産の全文検索エンジンGroonga vs 世界的流行のElasticsearch - CreateField Blog

2014年4月21日は、第4回Elasticsearch勉強会ですね！ http://elasticsearch.doorkeeper.jp/events/8865 第4回Elasticsearch勉強会は、参加希望者が約200名の大反響なようです。私は勉強会に参加できないので、C言語で書かれた国産の高速な全文検索エンジンGroongaと、Javaで書かれた世界的に勢いのあるElasticsearchについて性能の比較をしたいと思います。注意事項今回の検証では1台あたりの馬力を比較するためにサーバ1台での全文検索性能について比較しています。私は、Groonga(Mroonga)の利用暦が約2年であるのに対し、Elasticsearchの利用暦は2日です。このため、Elasticsearchに対するチューニングの不備や公平な比較になっていない点が含まれている可能性があります。 Ela

sleepy_yoshi 2014/07/12

リンク

検索エンジンの作り方教えます。グーグル自走カーのスタンフォード大教授が無料オンライン大学｢Udacity｣開校（動画）

検索エンジンの作り方教えます。グーグル自走カーのスタンフォード大教授が無料オンライン大学｢Udacity｣開校（動画）2012.01.30 13:006,530 satomi 昨秋、大学学部レベルのコンピュータサイエンス課程を無料で提供し、日本でも話題をふりまいたスタンフォード大。あれを担当したセバスチャン・スラン（Sebastian Thrun）教授が大学を辞め、なんとコンピュータサイエンス専門の無料オンライン大学｢Udacity｣をスタートしました！セバスチャン・スラン教授といえば、あのグーグルの自走カーをつくったお方。グーグルのフェロー（特別研究員）でもあります。去年2月／TEDにて（日本語訳）氏は秋の人工頭脳（AI）入門コースをスタンフォード大とオンラインの両方とも並行して担当したんですが、ロイターによると｢オンラインコースの方が指導が密で教え方も良いため、リアルの大学のクラ

sleepy_yoshi 2012/01/31

リンク

groonga 試してみた、のその後 - いちいの日記

ちょっと感想をメモ。試してみた状況すでに動いている master (fulltext key なし) に、どでかいテーブル 1 つを ENGINE=gronnga にした slave をいれたカラムは id INT NOT NULL auto_increment, foo text, PRIMARY KEY (id), FULLTEXT KEY (foo) みたいな感じ auto_increment は現在 5 億数千万くらいで、 MYD で言うと 70GB くらい。全般的な感想ふつうに使うぶんにはだいたい動いてる慣れてない (or 枯れてない) に由来するオペミスの意味で、データロストの危険はあるとおもうまだ本格投入 (正常に動いてる前提なサービス) は厳しい気がする auto_increment はちゃんと動いてる去年ばっと話題になった時点では auto_increme

sleepy_yoshi 2011/04/29

検索エンジン

リンク

特許から判断する検索エンジンのアルゴリズム要素×26

検索エンジン会社が申請・取得した特許・論文を細かく分析して情報を公開することで有名なSEO By The Seaというブログがあります。サイトオーナーはBill Slawski（ビル・スラウスキ/スロースキ）氏という人物で、Patent Guru（特許の達人）とも呼ばれています。彼が最近受けたインタビューのなかで、特許の研究から読み解いた検索エンジンがランキングを決める際に考慮していると思われるアルゴリズムの要素をリストアップしていたので紹介します。まずアルゴリズム要素を3つのタイプに分類しています。リンクに基づく要素コンテンツに基づく要素ユーザーの行動に基づく要素それぞれに具体的にどんな要素があるのか訳します。 1. リンクに基づく要素リンクの数と重要性以外に次のような要素が考えられる。リンクの年齢リンクの増減の頻度リンク切れやリダイレクトリンクの数リンクのアンカ

sleepy_yoshi 2010/04/26

リンク

簡単なWebサーチエンジンの作り方 - Imagine with 加藤和彦

筑波大学は3学期制で，12月1日から3学期が始まりました．3学期には私が担当している学類生（普通の大学の学部生）3年生向けの実験があります．約3ヶ月を掛けて，ほどほどの規模のプログラム作成を行います．私が作り，担当しているプログラム実験は「Webサーチエンジン」といいまして，テキストはこちらに公開しています．この実験，結構，自信作なんです．Javaの基本的なプログラミングができることだけを仮定して，漏れのない全文検索を行うWebサーエンジンを作ります．Webデータ収集を自動的に行うクローラー付き．Googleのようなページランキング機能はありませんが，一応，サーチエンジンの基本機能を備えます．自慢は，このテキストが実質A4で印刷して2ページくらいであること．数学の小問を解いていくように，順番に小問を解いていくと，最後にはWebサーチエンジンができます．ミソはサフィックス・アレイ(suf

sleepy_yoshi 2009/12/03

リンク

セミナー資料公開「Extreme Search! 次世代検索エンジンSedueが実現する驚異のパフォーマンス」

2009年4月8日(水) 13:00〜15:30に開催されましたPreferred Infrastructureによる製品紹介セミナーの発表資料です。

sleepy_yoshi 2009/04/10

リンク

Fulltext index on SQLite

もうすぐ SQLite に全文検索がつく. Wiki を見ていて気付いた. (Full-text Search for SQLite) なかなか頑張ってるみたい. 他のデータベースは既に全文検索をサポートしている. 商用のものはもちろん, PostgreSQL や MySQL も対応済. 一方で, Java 製インプロセス RDB の HSQL や Derbyy は対応していない. (Wiki を見ると提案されてはいるようす.) 大物 DB には追いつかないにせよ, 他の軽量 DB よりは一足先を行くかんじ. 数ある DB の要件から全文検索をえらぶあたりがピンポイントでいい. 小さな規模のアプリケーションでも検索が使えたら嬉しいよね. コードは CVS に入っている. このへん. とりあえずチェックアウトして試そうと思いレポジトリを覗いてみると, コードはあるけど Makefile が

sleepy_yoshi 2009/02/21

リンク

全文検索エンジンgroongaをテストリリースしました。 - グニャラくんのグニャグニャ備忘録@はてな

全文検索エンジンのgroongaをテストリリースしました。 groonga 本日開催された、key-value store勉強会で発表させていただきました。今まで、Sennaには Tritonn経由で使った場合、MySQL側のインデックスとの併用が難しく、Senna本来のパフォーマンスが発揮できなかった。従来のインターフェースでは、トークナイザの切り替えなどの柔軟性がなかった。といった問題がありました。 groongaは、それに対する返答です。自分でデータベース書けばいいんじゃね？柔軟なAPI用意すればいいんじゃね？ってことですね。データベースは、key-valueストアを組み合わせたcolumnストア的な感じになっています。詳細については、今後別エントリやドキュメントで述べます。今後は、Sennaはバグ修正のみ行うメンテナンスモードに移行します。実際使ってみよう今回

sleepy_yoshi 2009/02/21

リンク

検索エンジン3社、正しいサイトURLを認識させるcanonical属性を導入（URLの正規化） ::SEM R (#SEMR)

検索エンジン3社、正しいサイトURLを認識させるcanonical属性を導入（URLの正規化） Google、Yahoo!、Microsoft3社が　rel="canonical"　（正規化、canonicalization ）をサポート。クローラが適切な（canonical）サイトを見つける手がかりに。rel="canonical" はページの head の中に記述すること。公開日時：2009年02月13日 15:37 Google、Yahoo!、Microsoftの3社は2009年2月12日、共同で新しいタグ「 rel="canonical"」のサポートを開始した。rel="canonical"（属性）は、検索エンジンに正しいサイトのURLを認識(正規化、canonicalization）させるために使用される。同じサイト（ドメイン）でも、たとえば www.sem-r.com、se

sleepy_yoshi 2009/02/20

検索エンジン

リンク

Cuil

Query by Category Find pages that referrence concepts in a category. For example, use "category: american-presidents" to search for pages that talk about Presidents of the USA. More Information

sleepy_yoshi 2008/07/30

検索エンジン

リンク

はてなブックマーク

タグ

関連タグで絞り込む (8)

検索エンジンに関するsleepy_yoshiのブックマーク (11)

お知らせ

今週のはてなブックマーク数ランキング（2024年9月第2週）

月間はてなブックマーク数ランキング（2024年8月）

今週のはてなブックマーク数ランキング（2024年9月第1週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス