タグ

自然言語処理に関するmoockmoockのブックマーク (3)

  • 無料でここまでできる→日本語を書くのに役立つサイト20選まとめ

    (例文/コーパス) ◯KOTONOHA「現代日語書き言葉均衡コーパス」 少納言 www.kotonoha.gr.jp/shonagon/search_form 現代の日語の書き言葉の全体像を把握できるように集められた約1億語収録の『現代日語書き言葉均衡コーパス』をジャンルを指定したり、前後にくる言葉を指定した上で検索できる。用例を探したいときはまずここを当たる。 ◯コーパス検索ツールNINJAL-LWP for BCCWJ (NLB) nlb.ninjal.ac.jp/ 『現代日語書き言葉均衡コーパス』を検索するために、国語研とLago言語研究所が共同開発したオンライン検索システム。上の少納言との違いは、名詞や動詞などの内容語の共起関係や文法的振る舞いを網羅的に表示できるところ。 たとえば「タバコ」を検索すると、用例が「タバコ+助詞+動詞」や「動詞+タバコ」+「タバコ+助詞+形容詞

    無料でここまでできる→日本語を書くのに役立つサイト20選まとめ
  • ナイーブベイズを用いたテキスト分類 - 人工知能に関する断想録

    今までPRMLを読んで実装を続けてきましたが、10章からは難しくて歯が立たなくなってきたのでここらで少し具体的な応用に目を向けてみようと思います。機械学習の応用先としては画像の方が結果を見ていて面白いんですが、当面は自然言語処理を取り上げます。そんなわけで一番始めの応用は機械学習と自然言語処理の接点として非常に重要なテキスト分類(Text Classification, Text Categorization)の技法たちを試していきたいと思います。テキスト分類は文書分類(Document Classification)という呼び方もあります。テキストと文書は同じ意味です。最初なので自分の知識の整理と入門者への紹介のためにちょっと丁寧にまとめてみました。 テキスト分類とは テキスト分類とは、与えられた文書(Webページとか)をあらかじめ与えられたいくつかのカテゴリ(クラス)に自動分類するタス

    ナイーブベイズを用いたテキスト分類 - 人工知能に関する断想録
    moockmoock
    moockmoock 2013/11/14
    「smoothing」[スムージング]
  • Ngram言語モデルメモ - Negative/Positive Thinking

    はじめに 現在よく使われていると思われる確率的言語モデルについて簡単に調べてみたのでメモ。 Ngram言語モデルとは 例えば、「お酒が飲みたい」と「バリウムが飲みたい」という文章があった時に、前者の方がよく聞く文章で、後者はほとんど聞かない文章 上記のような「文章の出やすさ」を数学的モデルで表現したい 特に確率を使って表現したい(確率的言語モデル) 単語列が与えられたとき、その単語列の生起確率は 例えば「お酒/が/飲みたい」は、P(お酒が飲みたい)=P(お酒)*P(が|お酒)*P(飲みたい|お酒が) しかし、P(単語|ながーい文章)を求めるのは実際には難しい 単語の種類がmで単語列の長さがnならば、m^n通りをすべて計算して値を推定しなければならない→無理 Ngram言語モデルは、「各単語の生起確率は、直前の(N-1)単語までのみに依存する」モデル(Markovモデル) 2gram3gra

    Ngram言語モデルメモ - Negative/Positive Thinking
  • 1