タグ

NLPとKWICに関するtnalのブックマーク (1)

  • KWICを試す - Negative/Positive Thinking

    はじめに 形態素解析辞書の登録単語の単位や品詞/活用などを考える時は、対象コーパスでその単語がどのような文脈で用いられているか調べたいことが多い。 単純にgrepコマンドやエディタの検索とかで調べればよいけど、検索速度や見やすさの問題があったりする。 KWICという用語索引の共通フォーマットがあり、見やすいのでこれを試しに作ってみる。 KWICとは KeyWord In Contextの略語 普通、辞書の後ろにある索引のような「単語」と「ページ番号」だけのでなく、「単語の前後の文章」を含むような索引のこと KWIC indexは、単語についてソート&アラインメントされた索引リストのことを指す permuted indexとも呼ばれるらしい 1960年にLuhnによってconcordancerが作られたときにできた造語 アプローチ やりたいのは、任意のコーパスについて、 http://cha

    KWICを試す - Negative/Positive Thinking
  • 1