[B! search] teahutのブックマーク

Google WSDM'09講演翻訳：大規模な情報検索システム構築における課題（４） - llameradaの日記

GoogleのFellowであるJeffrey Dean氏のWSDM'09における講演"Challenges in Building Large-Scale Information Retrieval Systems"のスライドの翻訳の最終回です。Googleの検索システムの10年間の進化の軌跡が紹介されており、今回は将来の課題についての紹介となります。イタリック体で一部解説・感想をいれています。翻訳は素人なので詳しくは元の資料を参照してください。第1回：Google WSDM'09講演翻訳：大規模な情報検索システム構築における課題（１） - llameradaの日記第2回：Google WSDM'09講演翻訳：大規模な情報検索システム構築における課題（２） - llameradaの日記第3回：Google WSDM'09講演翻訳：大規模な情報検索システム構築における課題（３） -

teahut 2009/04/02

>将来の課題について: 言語をまたがった情報検索, アクセス制御リスト ... 様々な公開レベル(プライベート, セミプライベート, 広く共有, パブリック), 効率良い情報検索システムの自動構築, 半構造化データからの情報抽出

search

リンク

http://twitter.com/kzk_mover/status/1059582721

teahut 2008/12/16

はてブ検索のクエリ処理について

search

リンク

はてなブックマーク全文検索機能の裏側

そろそろ落ち着いて来たころ合いなので、はてなブックマーク全文検索機能の裏側について書いてみることにします。 PFI側は、8月ぐらいからバイトに来てもらっているid:nobu-qと、id:kzkの2人がメインになって進めました(参考: 制作スタッフ)。数学的な所は他のメンバーに色々と助言をしてもらいました。はてな側は主にid:naoyaさんを中心に、こちらの希望や要求を聞いて頂きました。開発期間は大体1〜2か月ぐらいで、9月の上旬に一度id:naoyaさんにオフィスに来て頂いて合宿をしました。その他の開発はSkypeのチャットで連絡を取りながら進めてました。インフラ面ではid:stanakaさん、契約面ではid:jkondoさん、id:kossyさんにお世話になりました。全文検索エンジンSedue 今回の検索エンジンはSedue(セデュー)という製品をベースにして構築しています。Sedu

teahut 2008/12/16

20台くらいだと分散アルゴリズムは簡単な方法かな? >文章が増えてきたら、その都度マシンを足せば、自動的にリバランシングします。落ちた時も、そのマシンが担当していたインデックスを他のマシンに移動させます。

search

リンク

米ヤフー、「Yahoo! Search BOSS」に垂直検索機能を追加

米Yahooは、同社の「Yahoo! Search BOSS」（Build Your Own Search Service）において、パートナー企業らが特定分野に関連した検索結果を表示できるようにする垂直検索機能「vertical lens techno logy」を追加した。 BOSSでは、Yahooの検索結果を整理したり、並べ替えたり、組み合わせたりして変更することができるようになっている。教育機関や小規模サイトはBOSSを無償で利用できるものの、大規模サイトはYahooの検索広告を表示するか、売り上げをYahooと分け合う契約を結ぶ必要がある。Yahooによると、vertical lens機能を用いることで、パートナーは「コアユーザーのエクスペリエンスを補完するような真に包括的な垂直検索エンジンを構築することができる」という。今のところ、このvertical lens technol

teahut 2008/11/30

>パートナー企業らが特定分野に関連した検索結果を表示できるようにする垂直検索機能「vertical lens technology」を追加

search
yahoo

リンク

SchemaXml - Solr - Apache Software Foundation

The schema.xml file contains all of the details about which fields your documents can contain, and how those fields should be dealt with when adding documents to the index, or when querying those fields. Analysis for Multiterm queries can be separately specified, see: Multiterm Query Analysis, which handles automatically lowercasing wildcard queries under most circumstances. Solr3.6 Solr4.0 A samp

teahut 2008/11/13

<dynamicField name="*_i" type="integer" ... のように宣言すると，_i で終わる任意の整数型フィールドを使えるようになる

リンク

Kazuho@Cybozu Labs: ウェブサービスにおける SSD 導入にむけて〜検索サービスの可能性

« Filter::SQL でデータベースを叩くワンライナーを簡単に書く方法 | メイン | ウェブサービスにおけるダメージコントロール (MySQL のスロークエリを自動的に kill する方法) » 2008年10月28日ウェブサービスにおける SSD 導入にむけて〜検索サービスの可能性実際に試してみた結果については、ウェブサービスの SSD 化について話してきましたをご参照ください。検索エンジンや小さな行が多いデータベース等で使用する目的での SSD (Intel X25-M) のベンチマーク結果については、Kazuho at Work: Benchmarking SSD for MySQL をご覧ください (InnoDB の話をしていますが、Senna / Tritonn でも基本的に同じ) Sun が SSD 製品の投入を表明 (マイコミジャーナル) したり、Google

teahut 2008/10/28

>SSD のメリットは、その圧倒的なランダムリード性能にあります。一方で、シーケンシャルアクセスの場合は大差ありません... SSD をうまく使えば、その 1/10 程度のコストでサービスを構築できそうに思えます

ssd
search

リンク

かんたん友人検索その弐 - mixi engineer blog

朝のジョギング生活を絶賛継続中ですが、あまり体重が減らなくてショボンヌなmikioです。さて今回は、Tokyo Dystopiaを使った検索機能「かんたん友人検索」の設計と実装についてお話しします。全体の戦略 Tokyo Dystopia（TD）は単なる全文検索用のインデックス管理ツールです。多数の文字列の中から特定のパターンを含んだ文字列を特定する処理を高速化することはできますが、逆に言えばそれしかできないのです。住所を市区町村単位で限定して結果を絞り込むとか、ログイン時間が近い順に並び替えるとかの高機能は備えていません。Hyper Estraierにはそういったアプリケーション寄りの機能を持たせていましたが、逆にコードベースが肥大化して保守や最適化がしにくくなってしまいました。その反省を踏まえて、今回は、「全文検索による対象の絞り込み」だけはTDにやらせて、その他の機能は全て専用に書

teahut 2008/09/16

cardinalityの低い属性絞り込みは，全userを固定長配列で表現して逐次照合．マイミク距離によるscoringは，(my ID, [friend1, friend2, ...]) というhashを作っておき，3 hopまで探索 (検索あたり10Kq要するが，2Mqps 捌けるのでなんとかなる)

mixi
search

リンク

Google App Engineで全文検索 - DENの思うこと

実はGoogle App Engine（以下GAE）で全文検索を行おうと思っても現状APIは提供されていません。まさかGoogleのアプリで検索ができないなんて考えてもいなかったのでかなり驚きました。といいつつもある程度対応は可能です。・前方一致検索以下のように範囲検索を利用してユニコードを擬似的に前方一致検索することができます。 db.GqlQuery('SELECT * FROM Test WHERE w >= :1 and w < :2', word, word + u'\uFFFD') ・全文検索（非公開。英語のみ）非公開ではありますが、全文検索を行うSearchabl eModelというクラスが提供されています。使用方法はモデルが継承するdb.Modelをsearch.Searchabl eModel に変更し、検索時に Test.all().search(sea

teahut 2008/08/19

>非公開ではありますが、全文検索を行うSearchableModelというクラスが提供されています。ただしインデックス化がスペース区切りになるらしく日本語はうまく検索できません。

gae
search

リンク

mixi Engineers’ Blog » かんたん友人検索その壱

朝7時30分に起きて駒沢公園をジョギングすること10日目のmikioです。だいぶ体が軽くなってきて、そろそろ体型にも変化が出てくるかなと期待する毎日です。さて、以前の記事で予告した通り、Tokyo Dystopiaを使ったmixi内の検索機能をインディーズ機能としてリリースしました。「かんたん友人検索」という名のとおり、mixiの登録ユーザを対象として友人や知人を簡単に検索する機能です。操作を簡潔にしながらも、マイミクシィのつながりなどを使って検索精度を高めているのが特徴です。シンプルにした見た目として最も大きな特徴は、従来の友人検索よりも入力フィールドの数を減らしたことです。従来では「姓」「名」「ニックネーム」「性別」「年齢（下限）」「年齢（上限）」「血液型」「現住所（都道府県）」「現住所（市区町村）」「出身地（都道府県）」「出身地（市区町村）」「趣味」「職業」「キーワード」「写真」

teahut 2008/08/18

>住所や出身地が一致するユーザや年齢が近いユーザはポイントを上げるようなスコアシステム... 自分と友人ネットワーク的に近いユーザほどスコアが上がるように

search

リンク

http://acts-as-solr.rubyforge.org/

teahut 2008/06/20

リンク

Searching a datastore?

We've included a short-term full text search library in the google.appengine.ext.search module. It's limited, so we don't discuss it much in the documentation. We expect to provide a more robust, full featured solution eventually. Until then, here's the google.appengine.ext.search docstring: """Full text indexing and search, implemented in pure python. Defines a Searchabl eModel subclass of db.Mode

teahut 2008/06/16

>GAEで全文検索するモジュールあり．ただし，no ranking, no phrase, no boolean, no stemming. 空白と句読点で単語を区切って，key=単語, value=DocIDでDBに突っ込んでるんだろう．

gae
search

リンク

Home

teahut 2008/04/03

ドイツのFAROOという企業によるP2Pウェブ検索．専用ソフトウェアのインストールが必要．アルゴリズム的な特徴は不明．

p2p
search

リンク

サイボウズ、全文検索システムを実装へ－＠IT

2007/12/17 サイボウズは12月17日、大規模向けグループウェア「サイボウズガルーン 2」の次期バージョンと、ガルーン 2と連携する「全文検索システム」を来春にリリースすると発表した。ガルーン 2の次期バージョンはスケーラビリティを強化し、大規模な組織での利用を可能にする。全文検索システムも大規模な組織での利用を想定している。「グループウェア横断検索」「ファイル内検索」「アクセス権限対応検索」の3つの機能がある。グループウェア横断検索では、ガルーン 2の掲示板、社内メール、Webメール、ファイル管理の各アプリケーションを対象に、横断的に検索可能。従来はアプリケーションごとに検索を行う必要があった。ファイル内検索の対象は掲示板や社内メール、Webメールの添付ファイル「ファイル管理」に保管したファイルの中身も検索できる。アクセス権限対応検索は、ユーザーのアクセス権限に応じて検索結

teahut 2007/12/17

>「グループウェア横断検索」「ファイル内検索」「アクセス権限対応検索」... 従来はアプリケーションごとに検索を行う必要があった... アクセス権限がない場合は、検索しても検索結果に表示されない

リンク

[を] 転置インデックスによる検索システムを作ってみよう！

転置インデックスによる検索システムを作ってみよう！ 2007-11-26-5 [Algorithm][Programming] 転置インデックス[2007-06-17-6]による検索システムの実装はパフォーマンスを無視すれば意外と簡単です。それを示すために Perl で簡単な検索システムを作ってみました。検索方式は転置インデックス(Inverted Index)、ランキングには TF-IDF[2005-10-12-1] を用いました。検索対象ファイルは一行一記事で以下のフォーマットとします。 [記事ID][SPC][記事内容]\n 記事IDは数字、記事内容は UTF-8 の文字で構成されるものとします。以下のようなサンプル test.txt を用意しました。 1 これはペンです 2 最近はどうですか？ 3 ペンギン大好き 4 こんにちは。いかがおすごしですか？ 5 ここ最近疲れ

teahut 2007/11/27

アルゴリズムの本質は簡単ということがよくわかる．文字単位で分割するのは utf8::decode $c; @char = split '', $c; のが簡単で読みやすいかも (出力時に utf8::encode $_; で戻すことになるけど)．

search

リンク

ConceptBaseがXML完全対応、ジャストが来年5月発売－＠IT

2007/10/25 ジャストシステムは10月25日、XML完全対応のコアエンジンを採用した企業向けの検索システム「ConceptBase Enterprise Search」を2008年5月に発売すると発表した。価格は500万円から。 ConceptBase Enterprise Searchは1サーバ当たりで検索可能なデータ量を大幅に強化。サーバの分散配置にも対応し、ユーザー数やデータ量の急激な増大が起きても高速な検索を保てるようにした。テラバイト級の大規模運用も可能で、ジャストシステムは「ECサイトの検索にも適用可能」としている。インデクシングのリアルタイム化も実現。登録した文書が瞬時を検索可能にした。 ConceptBase Enterprise Searchの特徴はXMLのフルサポート。オフィス文書やデータベースのデータをXML形式で抽出し、フルスペックのXPathによる検索、絞

teahut 2007/10/25

>サーバの分散配置にも対応... テラバイト級の大規模運用も可能... インデクシングのリアルタイム化も実現... フルスペックのXPathによる検索、絞り込みを可能

search
xml

リンク

「セマンティック・ウェブ」アプリケーション『Twine』が始動 | WIRED VISION

「セマンティック・ウェブ」アプリケーション『Twine』が始動 2007年10月22日 IT コメント：トラックバック (0) Julie Sloane　2007年10月22日サンフランシスコにある新興企業米Radar Networks社はこの6年間、セマンティック[意味論的]・ウェブ初の重要な一般向けアプリケーション『Twine』を世に送り出そうと開発を進めてきた。 10月19日(米国時間)の『Web 2.0 Summit』で、Nova Spivack最高経営者(CEO)がプロジェクト『Twine』の詳細を初めて公にするが、Spivack CEOは、公開前のTwineをワイアード・ニュースに見せてくれた[英語版記事の掲載は10月18日]。 Spivack CEOは、1998年に米EarthWeb社を立ち上げ、株式を公開した1人でもある。このプロジェクトは、Paul Allen氏が設立

teahut 2007/10/22

>あらゆる個人的な情報を整理すること... コンピューターの中やインターネットから、あらゆるメモやウェブサイト、動画、写真を取り込む... テーマ別に自動整理される... サイトの運営は広告収入

リンク

Wikipedia検索より、どんな言葉がWikipediaで検索されているのか？ (三田ブログ)

Wikipedia検索より、どんな言葉がWikipediaで検索されているのか？ Wikipedia&blog検索をリリースして、１週間分のログを解析しました。単語が羅列されるだけの長い文章なのでご注意を。感想として、硬派な検索語が多いような～職員室のいじめ治安制度防災勧善懲悪省アプリケーションソフト写真植字賢者の石養子縁組宏池会朝鮮国王昭島市情報誌 TeX オランダの歴史 2006年没神奈川県の大学枚方事件視覚石川県の歴史代数学板戸各国の生物学者日本の短期大学カーボベルデ架空の木 FIFA会長カナダの人物都市の一覧省エネルギー西洋美術史年中行事近藤鉄雄乱数公明党委員長蘇我馬子 MSX-VIEW 宇宙物理学社会資本解剖学近畿地方の歴史

teahut 2007/10/22

>Wikipedia&blog検索をリリースして、１週間分のログを解析しました。(約3600語)

search

リンク

全文検索エンジンSedueベンチマーク

全文検索エンジン性能評価 (2006/08/19) 概要弊社が開発致しました圧縮インデックス方式全文検索エンジン「Sedue」（Sedue 24やGenome Sedueで利用されているエンジンSedue コア）とオープンソースな全文検索エンジン(HyperEstraier, Lucene, Senna)との性能比較を行いました。検索サーバーにはマシン1台のみを使用しました。更新履歴 2006/09/13 インデクシングの作成方法に関して分かりにくい表現を訂正使用環境ベンチマークを取るに際しまして以下のようなスペックのマシンを使用致しました。 CPU: AMD Athlon(tm) 64 Processor 3000+ Memory: 2GB OS: Linux pfidev1 2.6.16-1.2111_FC4 #1 Sat May 20 20:00:28 EDT 2006 x8

teahut 2007/10/19

リンク

nvacaの日記:Sedue全文検索システム - livedoor Blog（ブログ）

今、PFIでは、Sedueという全文検索システムを開発しています。これは、メンバーである岡野原君(http://homepage3.nifty.com/DO/) が作成した圧縮サフィックスアレイをベースにした全文検索システムです。圧縮サフィックスアレイを用いると、元の文章とインデックスの両方を、元の文章量以下で格納することができます。そして、検索速度も、今一般的に利用されているn-gram方式と同じ精度を、より高速に検索することができます。あえて今全文検索エンジンを開発するには、いま沢山ある全文検索エンジンに対して優位性を持たねばなりません。Sedueは、この省メモリなインデックスに着目して、ほぼon-memoryでインデックスを処理できる、という特徴を持っています。コンピュータの中で最も壊れやすい部分は、間違いなくHDDです。ようは、ぐるぐる動くところ。また、HDDはランダムア

teahut 2007/10/19

>圧縮サフィックスアレイを用いると、元の文章とインデックスの両方を、元の文章量以下で格納することができます。... 圧縮サフィックスアレイは、最新の研究成果なので、ノウハウがありません。

search

リンク

Sedue | PRODUCT | 株式会社 Preferred Infrastructure

Webサービスの裏側では様々なデータが蓄積されており、また企業内ではWord・Excel・メールなどの形でデータが日々増大しています。このデータを単にためておくだけではなく、有効活用するためにはデータからの「情報検索」が必須となります。この「情報検索」を実現するためには、様々なデータソース(DB, ファイルリポジトリ等)からの柔軟なデータの取り込みと、大規模なデータに対して高速な検索を行うための検索エンジンが、Sedue(セデュー)。様々な検索ニーズに対応する”統合検索プラットフォーム”です。蓄積された大規模データから、いかに素早く・簡単に情報を取り出せるかをテーマに製品化、テキストデータの全文検索はもちろん、レコメンデーション(関連文書検索・行動履歴推薦)のための機能も備えています。またデータの取り込みはリアルタイムに行う事が出来ます。これまでは異なる情報検索ニーズに対して、異な

teahut 2007/10/19

>Preferred Infrastructureによる大規模全文検索エンジン「Sedue」。Web検索からゲノム解析に至るまで、最新の圧縮全文索引アルゴリズムで高速・高精度かつ安定した検索ソリューションを提供します。

search

リンク

はてなブックマーク

タグ

関連タグで絞り込む (25)

searchに関するteahutのブックマーク (37)

お知らせ

今週のはてなブックマーク数ランキング（2024年5月第4週）

今週のはてなブックマーク数ランキング（2024年5月第3週）

今週のはてなブックマーク数ランキング（2024年5月第2週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス