![https://jp.techcrunch.com/2009/04/04/20090403twitter-wouldnt-sell-for-1-billion-says-source/](https://cdn-ak-scissors.b.st-hatena.com/image/square/92584d6251feb0822f349cf0211361b2833c9939/height=288;version=1;width=512/https%3A%2F%2Ftechcrunch.com%2Fwp-content%2Fuploads%2F2018%2F04%2Ftc-logo-2018-square-reverse2x.png)
「甲子園」というキーワードでGoogle検索を行うと、ページ中には「甲子園」という単語が含まれていないNHKのサイトがトップに表示されるそうです(現在では阪神甲子園球場がトップ、続いてNHKのサイト)。 いっぽう、Yahoo! JapanではNHKのサイトはトップ10には含まれず、阪神甲子園球場がトップでした。また、LiveSearchではトップに「甲子園のニュース検索結果」が表示され、続いて「阪神甲子園球場」、NHKのサイトが表示されます。また、「koushien」で検索するとGoogleとYahoo! JapanはNHKのサイトがトップ、Live Searchでは「www.koushien.jp」がトップでした。 自分の推測としては、純粋にアルゴリズムの結果だとするなら、URLから内容の理解をしようとしている事、ローマ字・日本語変換を行っている事、元からNHKのランクが高い事、2006
The new millennium has seen the born of a new class of full-text indexes which are structurally similar to Suffix Trees and Suffix Arrays, in that they support the powerful substring search operation, but are succinct in space, in that it is close to the empirical entropy of the indexed data. They are therefore called compressed Suffix Trees and compressed Suffix Arrays, or in general compressed i
This is a Sedue's demonstration site for searching Worlds' Wikipedia by only ONE machine, using SSD (Solid State Disk). Search · Suchen · Rechercher · Szukaj · 検索 · Ricerca · Zoeken · Busca · Buscar · Поиск · Sök · 搜索 · Haku · Cerca · Пошук · Ara · Căutare · Hledání · Keresés · Suk · Serĉu · Hľadať · Søg · Cari 22779991 documents, 51220184030 bytes
GoogleのFellowであるJeffrey Dean氏のWSDM'09における講演"Challenges in Building Large-Scale Information Retrieval Systems"のスライドの翻訳の第3回です。Googleの検索システムの10年間の進化の軌跡が紹介されており、今回は2004年から2007年ぐらいまでの検索システムの紹介とインデックスの符号化方式、検索精度を向上させるための実験環境についての紹介となります。個人的には分岐処理を徹底的に排除したGoogleの最新の符号化方式が興味深かったです。イタリック体で一部解説・感想をいれています。翻訳は素人なので詳しくは元の資料を参照してください。 第1回:Google WSDM'09講演翻訳:大規模な情報検索システム構築における課題(1) - llameradaの日記 第2回:Google WSDM
GoogleのFellowであるJeffrey Dean氏のWSDM'09における講演"Challenges in Building Large-Scale Information Retrieval Systems"のスライドの翻訳の第2回です。Googleの検索システムの10年間の進化の軌跡が紹介されており、今回は2000年から2001年ぐらいまでの検索システムの一部の紹介となっています。個人的には転置インデックスの詳細な符号化方式が公開されているのが印象に残りました。Googleにとっては過去のインデックス構造でしょうが、商用の全文検索エンジンの詳細な仕様が公開されるのは珍しい気がします。なお、イタリック体で一部解説・感想をいれています。翻訳は素人なので詳しくは元の資料を参照してください。 第1回:Google WSDM'09講演翻訳:大規模な情報検索システム構築における課題(1)
GoogleのFellowであるJeffrey Dean氏のWSDM'09における講演"Challenges in Building Large-Scale Information Retrieval Systems"のスライドを翻訳してみました。Googleの検索システムの10年間の進化の軌跡が紹介されており、興味深い話が満載です。個人的にはディスクの外周部と内周部を使い分けている話がツボでした。なお、イタリック体で一部解説・感想をいれています。翻訳は素人なので詳しくは元の資料を参照してください。 スライドの入手元:Jeffrey Dean – Google AI 検索システムに取り組む理由 チャレンジングなサイエンスとエンジリアニングのブレンド 多くの魅力的な未解決な問題が存在する。 CS(コンピュータサイエンス)の多数の領域にまたがる。 アーキテクチャ、分散システム、アルゴリズム、圧
Yahoo! ウェブ検索 API で単語同士の近さを総当たりで調べる 2009-02-26-2 [Programming][YahooHacks] あらかじめ用意された単語セットがあり、それぞれの単語同士の近さを検索ヒット数とそれによるシンプソン係数で求める手順について。 使用している Web API の提供が終了となったため、現在動作しません。ご了承ください。 Yahoo!デベロッパーネットワーク (YDN) のウェブ検索 API を用いる。 - Yahoo!デベロッパーネットワーク http://developer.yahoo.co.jp/ - Yahoo!デベロッパーネットワーク - 検索 - ウェブ検索 http://developer.yahoo.co.jp/webapi/search/websearch/v1/websearch.html ロジック やってることは、下記で書かれ
Yahoo! ウェブ検索 API で検索ヒット数を取り出す簡単な方法 2009-02-26-1 [Programming][YahooHacks] Yahoo!デベロッパーネットワーク (YDN) のウェブ検索 API を用いて、入力キーのウェブ検索ヒット件数だけを取り出す簡単な方法について。 ウェブサービスを用いて自然言語処理っぽいことをやろうというときの基本中の基本。 使用している Web API の提供が終了となったため、現在動作しません。ご了承ください。 - Yahoo!デベロッパーネットワーク http://developer.yahoo.co.jp/ - Yahoo!デベロッパーネットワーク - 検索 - ウェブ検索 http://developer.yahoo.co.jp/webapi/search/websearch/v1/websearch.html Y!API に投げる
検索したいフレーズを入れれば即座に結果を返してくれるあのGoogleですが、その1フレーズを処理するため、実に1000台ものサーバを使い、わずか0.2秒で超高速処理していることが、WSDM 2009にて明らかになりました。基調講演を行ったのはGoogleフェローであるJeff Dean氏で、2008年6月における「Google I/O」カンファレンスでは700~1000台のサーバで0.5秒以下の時間がかかると言っていましたが、今回の講演ではユーザーの気づかないところでGoogleは着実に進化し続けていることも明らかになりました。 知られざるGoogleの裏側の最新情報は以下から。 Geeking with Greg: Jeff Dean keynote at WSDM 2009 Single Google Query uses 1000 Machines in 0.2 seconds
昨日の午後、「色情報で文書の類似性を求める方法」なる発明として、特許を申請しました。 これは情報検索というものを次のステップへ上げる一歩になると期待しています。 これによって、検索結果のそれぞれが含むトピックを色で理解しながら、ある一色を追いかけるように検索ができるようになると考えています。 私が考える情報検索のビジョンは、対話による検索です。だからといって直ちにC3POを思い浮かべないでください。恐らく現在の人工知能は今のままではこれ以上進歩しないし、パームOSの創業者が研究している新しいアプローチもまだまだ時間はかかりそうです。 私が現実的なステップとして考えるのは、システムは解釈できるトピックをユーザーに教え、ユーザーは自分が欲しい方向を伝える仕組みです。 例えば日本人だったら、「酔っ払い」と聞かれたら「大臣?」と今なら答えると思いますが、そのようにまずトピックをすり合わせるのが対話
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く