タグ

NLPとsourceに関するtnalのブックマーク (3)

  • 何かと話題の隠れマルコフモデルを実装した - EchizenBlog-Zwei

    "ビジネスでもほとんど使われていない最新の統計モデル"とかいう謎なレッテルをはられてしまったことで話題の隠れマルコフモデル(Hidden Markov Model)を実装した。 NLPでのHMMは教師ありデータに対して使う場合が多いが、完全に品詞がわかっている場合はCRFとか使ったほうが良い。なので隠れ状態が当に隠れている場合のHMMはあまりNLPで使う機会がない。 というわけで隠れ状態をEMで推測する当のHMMを実装した。HMMの実装で力尽きたのでスケーリングとかViterbiとかはサボっていてまだやっていない(ので長い系列を入れると確率がやばい感じになるし、系列の推定部分は適当)。 https://github.com/echizentm/HiddenMarkovModel $$ cat sample.txt She is Kazumi . She is Alice . : n v

    何かと話題の隠れマルコフモデルを実装した - EchizenBlog-Zwei
  • KWICを試す - Negative/Positive Thinking

    はじめに 形態素解析辞書の登録単語の単位や品詞/活用などを考える時は、対象コーパスでその単語がどのような文脈で用いられているか調べたいことが多い。 単純にgrepコマンドやエディタの検索とかで調べればよいけど、検索速度や見やすさの問題があったりする。 KWICという用語索引の共通フォーマットがあり、見やすいのでこれを試しに作ってみる。 KWICとは KeyWord In Contextの略語 普通、辞書の後ろにある索引のような「単語」と「ページ番号」だけのでなく、「単語の前後の文章」を含むような索引のこと KWIC indexは、単語についてソート&アラインメントされた索引リストのことを指す permuted indexとも呼ばれるらしい 1960年にLuhnによってconcordancerが作られたときにできた造語 アプローチ やりたいのは、任意のコーパスについて、 http://cha

    KWICを試す - Negative/Positive Thinking
  • トピックモデルメモ - Negative/Positive Thinking

    はじめに トピックモデルについてメモ。 トピックモデルとは 文書は、何らかの話題について書かれていたりする 「ある文書内に一緒にでてくる単語は、意味的な関連性が強い」など考えられる トピックモデルは、文書から「何らかの話題(=トピック)」を発見するための統計的なモデルのこと トピックモデルのいろいろ Unigram Mixtures ナイーブベイズでクラス数kと各パラメータをEMで繰り返し推定していく http://www.kamalnigam.com/papers/emcat-mlj99.pdf Probabilistic Latent Semantic Indexing(PLSI) 検索技術であった潜在意味解析(LSI,1990年)を確率的に解析、開発された生成モデル(1999年) 各単語ごとに別なトピックから生成されたと仮定する http://cs.brown.edu/~th/pap

    トピックモデルメモ - Negative/Positive Thinking
  • 1