タグ

algorithmとirに関するoverlastのブックマーク (4)

  • [O] 新年会 + #DSIRNLP 5 を開催しました & 動画UPしました

    新年会 + #DSIRNLP 5 を開催しました & 動画UPしました Tweet [日記] 新年会とデータ構造と情報検索と言語処理勉強会 #DSIRNLP の第5回目を開催しました。 ご発表、ご参加頂いたみなさま、どうもありがとうございました。 会場を提供していただきました、スマートニュース株式会社のみなさま、どうもありがとうございました。 # スマートニュースさんは今後も各種勉強会に会場を提供してくださるそうです。 DSIRNLP 5 について 今回は参加するための条件を設けてみました。 参考文献 : http://partake.in/events/572bb762-87ed-490a-b993-8b864137e7e1 条件はとてもシンプルで、発表する方か、ググったらどんなことが得意なのかが分かる方だけが参加できる、というものです。 実際にやってみた感触として、参加者からはとても好

  • Locality Sensitive Binary Codes for Shift Invaliant KernelsとSpectral Hashingの比較 - Yasuo Tabeiの日記

    Locality Sensitive Hashing(LSH)とは、ベクトルとして表現されたデーターの集合を入力として、それらの2点間の距離を保存したまま、ハミング距離に基づく文字列の集合に射影する技術です。コサイン距離[1]、ユーグリッド距離[2]に基づくものや、機械学習法を応用した、semantic hashing[3], spectral hashing[4], kernelized LSH[5], その他[6][7][8]、現在までに多くの手法が提案されています。この背景には、Googleが、昔に提案されたLSHが、ニュース記事の推薦システムで使えることを示した[9]のきっかけに、現在、推薦システム、画像検索、文章のクラスタリング[10]など、色々なシステムや研究の場面で利用されています。 理論的な収束の保証があるという意味で、オリジナルのコサイン距離ベース[1]の手法が良いのです

    Locality Sensitive Binary Codes for Shift Invaliant KernelsとSpectral Hashingの比較 - Yasuo Tabeiの日記
  • お手軽転置インデクスを用いた検索エンジン: (1) AND検索編 - シリコンの谷のゾンビ

    突然Cでコードを書きたくなったので,なんちゃって転置インデクスを用いた検索プログラムを書いてみた. 転置インデクスとは,索引語と呼ばれる単語が出現する文書情報 (場合によっては位置情報も) を保持したデータ構造のことで,索引語と,それに対応する転置リストによって構成される. # 索引語 -> 転置リスト hoge -> 5: 1,2,3,4,5 fuga -> 3: 1,4,5 piyo -> 2: 4,5これは,hogeという単語が文書1,2,3,4,5に出現し,fugaという単語が文書1,4,5に出現し,piyoという単語が文書4,5に出現する情報を保持している.最初の5,3,2という数字はそれぞれ索引語がいくつの文書に出現したかという文書頻度 (document frequency; DF) を表している. 検索クエリhogeが入力された場合には,文書1,2,3,4,5を検索結果とし

    お手軽転置インデクスを用いた検索エンジン: (1) AND検索編 - シリコンの谷のゾンビ
  • [を] 検索におけるテキスト走査とインデックス

    検索におけるテキスト走査とインデックス 2008-01-19-5 [IIR] 「Introduction to Information Retrieval」[1]の第一章[2008-01-12-1] の1.1にの冒頭に出てきた、 「テキスト走査による方法とインデックスによる方法の違い」 をまとめました。 この手の導入的解説は、 私も過去の論文等の冒頭で何度も書いていたりするのですが、 今回、IIRをベースに改めて整理してみました。 § 文書集合から検索質問に合致する文書を検索するために実装は、 「テキスト走査」による方法と 「インデックス」による方法の大きく二つに分けられる(図)。 テキスト走査(文字列照合 (string pattern maching)[2])による方法は、 単純に文書集合の先頭から最後まで検索キーを順番に照合していく。 最低でも1回は最後まで走査しなければならないので

    [を] 検索におけるテキスト走査とインデックス
  • 1