[B! IR] [4ページ] sleepy_yoshiのブックマーク

https://jp.techcrunch.com/2009/04/04/20090403twitter-wouldnt-sell-for-1-billion-says-source/

sleepy_yoshi 2009/04/04

IR
news

リンク

Search Engine Watch

The world’s longest-running search industry resources

sleepy_yoshi 2009/04/03

リンク

Googleの検索アルゴリズムの不思議 - スラッシュドット・ジャパン

「甲子園」というキーワードでGoogle検索を行うと、ページ中には「甲子園」という単語が含まれていないNHKのサイトがトップに表示されるそうです（現在では阪神甲子園球場がトップ、続いてNHKのサイト）。いっぽう、Yahoo! JapanではNHKのサイトはトップ10には含まれず、阪神甲子園球場がトップでした。また、LiveSearchではトップに「甲子園のニュース検索結果」が表示され、続いて「阪神甲子園球場」、NHKのサイトが表示されます。また、「koushien」で検索するとGoogleとYahoo! JapanはNHKのサイトがトップ、Live Searchでは「www.koushien.jp」がトップでした。自分の推測としては、純粋にアルゴリズムの結果だとするなら、URLから内容の理解をしようとしている事、ローマ字・日本語変換を行っている事、元からNHKのランクが高い事、2006

sleepy_yoshi 2009/04/02

IR
news

リンク

Pizza&Chili Corpus -- Compressed Indexes and their Testbeds

The new millennium has seen the born of a new class of full-text indexes which are structurally similar to Suffix Trees and Suffix Arrays, in that they support the powerful substring search operation, but are succinct in space, in that it is close to the empirical entropy of the indexed data. They are therefore called compressed Suffix Trees and compressed Suffix Arrays, or in general compressed i

sleepy_yoshi 2009/04/01

リンク

Text Algorithms

sleepy_yoshi 2009/03/31

リンク

Text algorithms

M. Crochemore, W.Rytter, TEXT ALGORITHMS

sleepy_yoshi 2009/03/31

リンク

ESSIR 2009 - European Summer School in Information Retrieval

sleepy_yoshi 2009/03/23

リンク

Worlds' Wikipedia Search by ONE Solid State Drive

This is a Sedue's demonstration site for searching Worlds' Wikipedia by only ONE machine, using SSD (Solid State Disk). Search · Suchen · Rechercher · Szukaj · 検索 · Ricerca · Zoeken · Busca · Buscar · Поиск · Sök · 搜索 · Haku · Cerca · Пошук · Ara · Căutare · Hledání · Keresés · Suk · Serĉu · Hľadať · Søg · Cari 22779991 documents, 51220184030 bytes

sleepy_yoshi 2009/03/22

Sedueデモ

IR
search

リンク

Challenges in Building Large-Scale Information Retrieval Systems

Building and operating large-scale information retrieval systems used by hundreds of millions of people around the world provides a number of interesting challenges. Designing such systems requires ma Read more

sleepy_yoshi 2009/03/22

Jeffrey DeanのWSDM'09講演

video
IR

リンク

Google WSDM'09講演翻訳：大規模な情報検索システム構築における課題（３） - llameradaの日記

GoogleのFellowであるJeffrey Dean氏のWSDM'09における講演"Challenges in Building Large-Scale Information Retrieval Systems"のスライドの翻訳の第3回です。Googleの検索システムの10年間の進化の軌跡が紹介されており、今回は2004年から2007年ぐらいまでの検索システムの紹介とインデックスの符号化方式、検索精度を向上させるための実験環境についての紹介となります。個人的には分岐処理を徹底的に排除したGoogleの最新の符号化方式が興味深かったです。イタリック体で一部解説・感想をいれています。翻訳は素人なので詳しくは元の資料を参照してください。第1回：Google WSDM'09講演翻訳：大規模な情報検索システム構築における課題（１） - llameradaの日記第2回：Google WSDM

sleepy_yoshi 2009/03/18

IR
資料

リンク

Twitterについてはそろそろ検索エンジンとして考えるべきだ

sleepy_yoshi 2009/03/15

IR
news

リンク

Google WSDM'09講演翻訳：大規模な情報検索システム構築における課題（２） - llameradaの日記

GoogleのFellowであるJeffrey Dean氏のWSDM'09における講演"Challenges in Building Large-Scale Information Retrieval Systems"のスライドの翻訳の第2回です。Googleの検索システムの10年間の進化の軌跡が紹介されており、今回は2000年から2001年ぐらいまでの検索システムの一部の紹介となっています。個人的には転置インデックスの詳細な符号化方式が公開されているのが印象に残りました。Googleにとっては過去のインデックス構造でしょうが、商用の全文検索エンジンの詳細な仕様が公開されるのは珍しい気がします。なお、イタリック体で一部解説・感想をいれています。翻訳は素人なので詳しくは元の資料を参照してください。第1回：Google WSDM'09講演翻訳：大規模な情報検索システム構築における課題（１）

sleepy_yoshi 2009/03/15

IR
資料

リンク

Google WSDM'09講演翻訳：大規模な情報検索システム構築における課題（１） - llameradaの日記

GoogleのFellowであるJeffrey Dean氏のWSDM'09における講演"Challenges in Building Large-Scale Information Retrieval Systems"のスライドを翻訳してみました。Googleの検索システムの10年間の進化の軌跡が紹介されており、興味深い話が満載です。個人的にはディスクの外周部と内周部を使い分けている話がツボでした。なお、イタリック体で一部解説・感想をいれています。翻訳は素人なので詳しくは元の資料を参照してください。スライドの入手元：Jeffrey Dean – Google AI 検索システムに取り組む理由チャレンジングなサイエンスとエンジリアニングのブレンド多くの魅力的な未解決な問題が存在する。 CS（コンピュータサイエンス）の多数の領域にまたがる。アーキテクチャ、分散システム、アルゴリズム、圧

sleepy_yoshi 2009/03/15

IR
資料

リンク

連載：検索エンジンを作る｜gihyo.jp … 技術評論社

sleepy_yoshi 2009/03/04

IR

リンク

Yahoo! ウェブ検索 API で単語同士の近さを総当たりで調べる

Yahoo! ウェブ検索 API で単語同士の近さを総当たりで調べる 2009-02-26-2 [Programming][YahooHacks] あらかじめ用意された単語セットがあり、それぞれの単語同士の近さを検索ヒット数とそれによるシンプソン係数で求める手順について。使用している Web API の提供が終了となったため、現在動作しません。ご了承ください。 Yahoo!デベロッパーネットワーク (YDN) のウェブ検索 API を用いる。 - Yahoo!デベロッパーネットワーク http://developer.yahoo.co.jp/ - Yahoo!デベロッパーネットワーク - 検索 - ウェブ検索 http://developer.yahoo.co.jp/webapi/search/websearch/v1/websearch.html ロジックやってることは、下記で書かれ

sleepy_yoshi 2009/02/27

api
IR

リンク

Yahoo! ウェブ検索 API で検索ヒット数を取り出す簡単な方法

Yahoo! ウェブ検索 API で検索ヒット数を取り出す簡単な方法 2009-02-26-1 [Programming][YahooHacks] Yahoo!デベロッパーネットワーク (YDN) のウェブ検索 API を用いて、入力キーのウェブ検索ヒット件数だけを取り出す簡単な方法について。ウェブサービスを用いて自然言語処理っぽいことをやろうというときの基本中の基本。使用している Web API の提供が終了となったため、現在動作しません。ご了承ください。 - Yahoo!デベロッパーネットワーク http://developer.yahoo.co.jp/ - Yahoo!デベロッパーネットワーク - 検索 - ウェブ検索 http://developer.yahoo.co.jp/webapi/search/websearch/v1/websearch.html Y!API に投げる

sleepy_yoshi 2009/02/27

api
IR

リンク

When IDF is not enough

sleepy_yoshi 2009/02/26

頻出語は多義性も持つことが多い

IR

リンク

Googleは1つの検索クエリーに対し、1000台のマシンを使って0.2秒で処理している - GIGAZINE

検索したいフレーズを入れれば即座に結果を返してくれるあのGoogleですが、その1フレーズを処理するため、実に1000台ものサーバを使い、わずか0.2秒で超高速処理していることが、WSDM 2009にて明らかになりました。基調講演を行ったのはGoogleフェローであるJeff Dean氏で、2008年6月における「Google I/O」カンファレンスでは700～1000台のサーバで0.5秒以下の時間がかかると言っていましたが、今回の講演ではユーザーの気づかないところでGoogleは着実に進化し続けていることも明らかになりました。知られざるGoogleの裏側の最新情報は以下から。 Geeking with Greg: Jeff Dean keynote at WSDM 2009 Single Google Query uses 1000 Machines in 0.2 seconds

sleepy_yoshi 2009/02/25

リンク

2009-02-22

昨日の午後、「色情報で文書の類似性を求める方法」なる発明として、特許を申請しました。これは情報検索というものを次のステップへ上げる一歩になると期待しています。これによって、検索結果のそれぞれが含むトピックを色で理解しながら、ある一色を追いかけるように検索ができるようになると考えています。私が考える情報検索のビジョンは、対話による検索です。だからといって直ちにC3POを思い浮かべないでください。恐らく現在の人工知能は今のままではこれ以上進歩しないし、パームOSの創業者が研究している新しいアプローチもまだまだ時間はかかりそうです。私が現実的なステップとして考えるのは、システムは解釈できるトピックをユーザーに教え、ユーザーは自分が欲しい方向を伝える仕組みです。例えば日本人だったら、「酔っ払い」と聞かれたら「大臣？」と今なら答えると思いますが、そのようにまずトピックをすり合わせるのが対話