タグ

検索エンジンに関するkataringのブックマーク (10)

  • 第5回 転置索引の実装 | gihyo.jp

    はじめに 前回、前々回と転置索引の論理的構造について見てきました。今回は、転置索引の具体的なデータ構造や実装について説明していきます。 辞書の実装 辞書は通常、単語に対応した情報を高速に取得するために、ハッシュや木構造などのデータ構造を取ります。現在は, 安定した性能や単語の順序関係を利用したいなどの理由で、木構造のデータ構造が使われることが多いと思います。最も単純な場合、2分探索木(Binary Search Tree)や2分探索(Binary Search)の実装が考えられます。 2分探索(木)による辞書の実装 では、辞書の具体的なデータ構造について、図を交えて解説していきましょう。 前回も触れましたが、辞書には単語とその単語に対応するポスティングリストの位置情報のペア(のリスト)が格納されています。単語で検索をするので、ペア自体は単語をキーとして並び換えられます。 たとえば, 前回の

    第5回 転置索引の実装 | gihyo.jp
  • 加藤 和彦 Kazuhiko KATO, Dr. Prof.

    加藤 和彦 Kazuhiko KATO, Dr. Prof.
  • 日本のヤフーも「Bing」採用へ 米Yahoo!とMSの検索提携で

    Yahoo!JAPAN」の検索エンジンも「Bing」に――米Yahoo!が米Microsoft(MS)と提携し、MSが開発したBingの検索エンジンを採用すると発表したことを受け、ヤフーは7月30日、「Yahoo!JAPANの検索エンジンにもBingを採用する可能性が高い」とコメントした。検索連動広告についても、MSのプラットフォーム採用を検討する。 Yahoo!JAPANの検索エンジンは現在、米Yahoo!が開発した「Yahoo! Search Technology」(YST)だが、「米Yahoo!がBingに切り替えた後、日市場向けにも良いエンジンだと判断すれば、Yahoo!JAPANにもBingを搭載していく可能性が高い」(ヤフーの広報担当者)という。 「MSと米Yahoo!の発表内容を見てみると、YSTの開発が終了する可能性が高い。ヤフーは以前、Googlegooの検索エンジ

    日本のヤフーも「Bing」採用へ 米Yahoo!とMSの検索提携で
  • 日本の検索サイトの利用状況

    検索サイトの利用状況は、視聴率の中でも特に顧客の関心が高いデータであり、どのような指標でみるべきかについてはさまざまな意見がある。特にメディアが好んでとりあげる「シェア」に関しては、定義や集計方法次第で結果が大きく変わってしまうため、日ではニールセン・オンラインから検索シェアの公表は一切行っていない。 また、ニールセン・オンラインの新NewViewにてレポートされている「検索チャネル/サーチ・カテゴリ」は、検索サイト(Google、Ask.jp、Baiduなど)においては各サイトのトップページの利用状況(利用者数、ページビューなど)も含まれてレポートされている一方、ポータルサイト(Yahoo!、MSN/Windows Liveなど)においては各サイトのトップページの利用状況(利用者数、ページビューなど)が含まれていないため、検索サービスの利用状況を双方のサービス間で比較する場合には適正で

    日本の検索サイトの利用状況
  • 検索エンジン相関図 2008年12月版 αSEO

    検索エンジン相関図 2008年12月版です。 検索連動型広告の掲載パートナーや、検索エンジンの主要な提携先等をまとめています。 PC 検索エンジン 主な動き 今年を振り返ってみると、ウェブ検索は「Infoseek楽天」と「AllAbout」が提携パートナーをGoogleからYahoo!JAPANに切り替えたこと以外は特に大きな変化はありませんでした。中国の百度は1月にリリースされましたが、アダルトフィルタが標準でオフだった画像検索こそネット上で話題になったほかlivedoor検索でも採用されましたが、「百度ここにあり!」といえるほどの存在感は示せませんでした。来年は韓国・ネイバーも日で再登場する予定ですので、新規組同士でがんばってほしいところです。ちなみにコムスコアが発表した2008年9月の日の検索シェアは、Yahoo!JAPANが51.2%、Googleが39.0%、合算で90.2%

    検索エンジン相関図 2008年12月版 αSEO
  • 「検索市場の3強にならないと、ヤバイかな」--百度社長、井上氏

    8月1日、元ヤフー検索事業部長の井上俊一氏が、中国の検索サービス「百度」日法人の代表取締役に就任した。 同氏はエキサイトでCTOを務めたのち、2004年にヤフーに入社。検索事業部長として、米国 Yahoo! Inc.と共同でYahoo! Search Technologyや検索連動型広告を開発したほか、Yahoo!知恵袋などのYahoo! JAPANの検索関連プロダクトの全指揮をとってきた。 百度は2008年1月23日に日向けサービス「Baidu.jp」を正式オープンしたばかり。10年以上にわたって日の検索サービスに関わってきた井上氏が陣頭指揮を執ることで、百度は今度どのような戦略を描いていくのだろうか。 --百度に移られた経緯を教えてください。 いくつかあるんですが、1つはロビン・リーという中国百度のCEOと一緒に働きたかったというのが大きな動機としてあります。 彼は2000年に百

    「検索市場の3強にならないと、ヤバイかな」--百度社長、井上氏
  • ご用心!「グーグル」の検索結果があなたの目を曇らせている?|野口悠紀雄が探る デジタル「超」けもの道|ダイヤモンド・オンライン

    グーグルなどの検索エンジンの検索結果は、(ウエイト付けされた)リンク数の順に並んでいる。この順位は、多くの人が重要と考える順と、多分、一致している。少なくとも、それほど大きな差はないはずだ。 グーグルが登場したときの驚きは、いまでも鮮明に覚えている。それまでの検索エンジンでは自分の求めるものがどこに表示されているのかわからない場合が多かったが、グーグルではきちんと上位に出てくる。実際、企業や大学の名で検索すれば、その企業や大学のホームページが最上位に来るから、順位は重要度の順であると納得できる。 そのように信じて検索を続けている間に、これが常に自分が調べたい目的の重要度順に並んでいるような錯覚に陥ってしまう。そして、その正しさを疑うことを、忘れる。グーグルの検索が登場してすでに何年もたつので、ほとんどの利用者は、その順位について疑問を投げかけることを忘れ、結果の順位を疑問なく受け入れて

  • 検索エンジンの著作権問題についてのFAQ:栗原潔のテクノロジー時評Ver2:オルタナティブ・ブログ

    ちょっと今さら感もある話題ですが、先日やったセミナーで質問が出たりもしたので、ここで一度まとめておきたいと思います。 Q1. なぜ日では検索エンジンが著作権侵害と言われているの? A1. 検索エンジンでは、著作物を含む他人のウェブ・サイトをコピーしてキャッシュ(と呼んではいるが実際には永続的ストレージ)を作ったり、サムネールを作ったりしています。これは、著作権法上は複製にあたります。日の著作権法では、権利者の許諾なく、著作物の利用(複製等)をできるケースを限定的に規定しています(引用だとか、教科書での使用だとか)。検索エンジンでの複製はこのような限定的ケースに含まれていないため、法律を厳密に解釈すると著作権侵害ということになってしまうわけです。 Q2.どういう人がこういう解釈を主張しているの? A2. 以前から検索エンジン違法説は学識者の間で唱えられていましたが、昨年の10月に出された

    検索エンジンの著作権問題についてのFAQ:栗原潔のテクノロジー時評Ver2:オルタナティブ・ブログ
  • サービス終了のお知らせ

    サービス終了のお知らせ いつもYahoo! JAPANのサービスをご利用いただき誠にありがとうございます。 お客様がアクセスされたサービスは日までにサービスを終了いたしました。 今後ともYahoo! JAPANのサービスをご愛顧くださいますよう、よろしくお願いいたします。

  • 1日で作る全文検索エンジン - Building a full-text search engine in "ONE" day - - とあるはてな社員の日記

    最近、「Introduction to Information Retrieval」というStanfordの大学院向け教科書のドラフトを読んでいます。id:naoyaあたりが勉強会で読んでいる教科書です。この教科書には、効率のいい全文検索システムを作るにはどうすればいいか、という(まさに)教科書的手法が網羅的に書いてあり、そのあたりに興味がある人には、非常に興味深く読めるお勧めのです。 ただ、面白い面白いと言っているだけでは、エンジニアとしては価値半減ですので、GW中にrubyで一日かけて実装してみました。 さすがに実装は、一日で作ったものですから、非常に素朴です。マルチバイト文字はbi-gramで、シングルバイトはスペースなどの区切り記号で認識しています。インデックスは、rubyの処理系のHashやArrayで保持しており、外部にMarshallで書き出す、というものです。検索エンジン

  • 1