タグ

NLPとirに関するoverlastのブックマーク (6)

  • [O] 新年会 + #DSIRNLP 5 を開催しました & 動画UPしました

    新年会 + #DSIRNLP 5 を開催しました & 動画UPしました Tweet [日記] 新年会とデータ構造と情報検索と言語処理勉強会 #DSIRNLP の第5回目を開催しました。 ご発表、ご参加頂いたみなさま、どうもありがとうございました。 会場を提供していただきました、スマートニュース株式会社のみなさま、どうもありがとうございました。 # スマートニュースさんは今後も各種勉強会に会場を提供してくださるそうです。 DSIRNLP 5 について 今回は参加するための条件を設けてみました。 参考文献 : http://partake.in/events/572bb762-87ed-490a-b993-8b864137e7e1 条件はとてもシンプルで、発表する方か、ググったらどんなことが得意なのかが分かる方だけが参加できる、というものです。 実際にやってみた感触として、参加者からはとても好

  • 新年会 + データ構造と情報検索と言語処理勉強会 #DSIRNLP 5 - 参加者は何か発表してネ スペシャル - PARTAKE

    This domain may be for sale!

    overlast
    overlast 2013/12/28
    やりますよ " 2014年1月11日(土)"
  • ストップワードとは?

    ストップワードとは? 2008-01-20-2 [IIR][NLP] 「Introduction to Information Retrieval」[1]の第二章 (次回の輪講の範囲)の2.2.2に出てくるストップワード (stop word) の 話題をまとめました。 § ストップワード (stop word) とは、 検索にほとんど役に立たないためインデックス作成時に除外する 単語のことである。 検索対象文書に出現するすべての単語をインデックスとするのは 無駄な面が多い。 例えば、「て」「に」「を」「は」などの助詞や 英語の冠詞・前置詞 (a, the, in, of) はほぼすべての文書に出現する。 そのため、 postings list が巨大になり格納スペースや処理時間に悪影響を与え、 その上、 検索結果も大量となり検索要求を満たす結果を得るのが困難となる。 そこで効率化のために

    ストップワードとは?
  • ステミングとは?

    ステミングとは? 2008-01-20-1 [IIR][NLP][Algorithm][Programming] 「Introduction to Information Retrieval」[1]の第二章 (次回の輪講の範囲)の2.2.4に出てくるステミング (Stemming) の 話題をまとめました。 § 英語などの欧米系の言語では、 意味的には同じ単語が語形変化により表層文字列が異なることがある。 例えば、"retrieves", "retrieved", "retrieving", "retrieval" などで[2]、実用上これらを同じ意味のものと見なし インデックス作成時に同じ単語として扱いたいという要求がある。 ステミング (stemming) はこのような語形変化を取り除き 同一の単語表現に変換する処理である。 ステミングの手法として、 ポーターのアルゴリズム (Port

    ステミングとは?
  • [を] 検索におけるテキスト走査とインデックス

    検索におけるテキスト走査とインデックス 2008-01-19-5 [IIR] 「Introduction to Information Retrieval」[1]の第一章[2008-01-12-1] の1.1にの冒頭に出てきた、 「テキスト走査による方法とインデックスによる方法の違い」 をまとめました。 この手の導入的解説は、 私も過去の論文等の冒頭で何度も書いていたりするのですが、 今回、IIRをベースに改めて整理してみました。 § 文書集合から検索質問に合致する文書を検索するために実装は、 「テキスト走査」による方法と 「インデックス」による方法の大きく二つに分けられる(図)。 テキスト走査(文字列照合 (string pattern maching)[2])による方法は、 単純に文書集合の先頭から最後まで検索キーを順番に照合していく。 最低でも1回は最後まで走査しなければならないので

    [を] 検索におけるテキスト走査とインデックス
  • 検索における適合率 (Precision) と再現率 (Recall)

    検索における適合率 (Precision) と再現率 (Recall) 2008-01-17-1 [IIR] 「Introduction to Information Retrieval」[1] の輪講の第一回[2008-01-12-1]でちらっと話しましたが、第一章の 1.1 に Precision と Recall の説明があります(第八章でも出てきます)。 若干混乱しやすくややこしい話なので、ここで改めて解説します。 § Precision (適合率) とは、 全検索結果に対しての、 検索要求 (information need) を満たす検索結果の割合です。 例えば、 「MacBook Air の重量を知りたい」という検索要求を満たすために検索キー「MacBook Air 重さ」でウェブ検索した結果100件のうち、検索要求を満たす(重さが分かる)のが85件だとすると、 Precis

    検索における適合率 (Precision) と再現率 (Recall)
  • 1