タグ

検索に関するbirkのブックマーク (5)

  • 作って覚える転置インデックス、「検索エンジン自作入門」 - プログラマでありたい

    先行発売で、検索エンジン自作入門を購入しました。まだペラペラと眺めている状況ですが、これが非常に面白いです。 「検索エンジン自作入門」は、集めた文章をいかに整理するかをテーマとして扱っているです。整理するという意味は、検索エンジンを利用するというライフハック的な意味ではありません。整理する為の検索エンジン自体を自分で作ることで理解するという、極めて硬派なです。 「検索エンジン自作入門」とは? 「検索エンジン自作入門」は、未踏IT人材発掘・育成事業にスーパークリエータに認定された山田浩之氏と、Senna/groongaの開発者の末永匡氏の共著です。検索エンジンについて語らせたら、日でこれ以上の人たちはいないだろうという組み合わせです。ということで、内容は非常に濃いのですが、難しい内容を解りやすく解説されています。 一方で、扱っている内容は非常にマニアックです。下に目次付けておくので見て

    作って覚える転置インデックス、「検索エンジン自作入門」 - プログラマでありたい
  • Introduction to Information Retrieval

    This is the companion website for the following book. Christopher D. Manning, Prabhakar Raghavan and Hinrich Schütze, Introduction to Information Retrieval, Cambridge University Press. 2008. You can order this book at CUP, at your local bookstore or on the internet. The best search term to use is the ISBN: 0521865719. The book aims to provide a modern approach to information retrieval from a compu

  • http://www.ndl.go.jp/jp/library/current/no284/CA1563.html

  • ITmediaニュース:日本人のアタマを救え――書籍検索でネットに“知の信頼性”を (1/2)

    ネット上の情報がこのままの状態だと日人の“アタマ”が危ない――国立情報学研究所(NII)の高野明彦教授は警告する。日語ネットコンテンツの多くは、企業が運営する商用サイトか、裏づけのない情報が飛び交うブログや掲示板。中立的で信頼の置ける情報が充実しているとはいえない。 「情報の質が下がれば、それに合わせて脳も貧弱になってしまう」と高野教授は心配し、ネット上に信頼できる情報を増やしたいと話す。切り口は、コンテンツとの出会いを増やしてくれる検索技術「GETA」(ゲタ)と、編集者の目を通し、信頼性がある程度担保されている書籍だ。 「ネット上は責任を持たない情報だらけ。その中で人は育つ」――裏の取れた確実な情報はそれほど多くないにも関わらず、ネットの世界だけで情報を完結させ「Google検索で出ないものはこの世に存在しないと同然」ととらえる人は少なくないと、高野教授は指摘する。 街に道路や公園が

    ITmediaニュース:日本人のアタマを救え――書籍検索でネットに“知の信頼性”を (1/2)
  • ITmedia News:Googleの限界は「人の手」で破る――国産の新検索「想」

    高野教授は「人間ができることを機械が10倍のスピードでやってくれるなら、たとえ質が7割落ちてもそっちを選ぶ人は多い」と嘆く 「Googleは確かに便利だが、大きな問題がある」。国立情報学研究所(NII)の高野明彦教授は指摘する。「プロの手による知識を、そこここで台無しにしている」というのだ。 Googleは、被リンク数などを尺度とした独自のアルゴリズムでサイトの重要度を機械的に判定するため、検索結果の表示順と情報の信頼性は必ずしも比例しない。これがGoogleの「唯一最大の問題」という。 「Google上では、記者が現場を歩いて裏を取った新聞記事も、ネット上の情報を写しただけのブログ記事も同列。情報の質や、経過の“差異”が失われる」。ネットが誕生するはるか以前から培われてきたプロの手法も、ロボット検索の前には無力だ。 高野教授がこれまでに開発してきた検索システムも、同じような問題に直面して

    ITmedia News:Googleの限界は「人の手」で破る――国産の新検索「想」
  • 1