タグ

自然言語処理に関するhaneimoのブックマーク (22)

  • 日本語話し言葉コーパス

    『日語話し言葉コーパス』は、日語の自発音声を大量にあつめて多くの研究用情報を付加した話し言葉研究用のデータベースであり、国立国語研究所・ 情報通信研究機構(旧通信総合研究所)・ 東京工業大学 が共同開発した、質・量ともに世界最高水準の話し言葉データベースです。コーパスは音声言語情報処理、自然言語処理、 日語学、言語学、音声学、心理学、社会学、日教育、辞書編纂など幅広い領域で利用されています。 2011.11.28『日語話し言葉コーパス』第3刷の受付を開始しました。(更新:2011/11/28) 2011.02.18在庫がなくなりましたので、一旦受付を中止します。(更新:2011/2/18) 2008.05.02『日語話し言葉コーパス』第2刷の受付を開始しました(更新:2008/05/02) 2008.03.24報告書『日語話し言葉コーパスの構築法』がダウンロードできるよ

  • 形態素解析の過去・現在・未来

    2. ⾃自⼰己紹介 l  海野  裕也  (@unnonouno) l  unno/no/uno l  研究開発部⾨門  リサーチャー l  専⾨門 l  ⾃自然⾔言語処理理 l  テキストマイニング l  職歴 l  2008/4~2011/3 ⽇日アイ・ビー・エム(株)東京 基礎研究所 l  2011/4~ 現職 2 3. 今⽇日の発表の⽬目的 l  形態素解析器の中で何が⾏行行われているか l  コスト最⼩小化, HMM, MEMM, CRF etc. , l  JUMAN, Chasen, MeCab, etc. l  ・・・だけだとよくあるので、最新の⼿手法と過 去の⼿手法をまとめる l  現在の問題点に関してもまとめる 3

    形態素解析の過去・現在・未来
  • MAP推定 - 機械学習の「朱鷺の杜Wiki」

    MAP推定 (maximum a posteriori estimation)† 訓練サンプル集合 \(X\) が与えられたときの, パラメータ \(\theta\) の事後分布 \(\Pr[\theta|X]\) を最大にする値をパラメータの推定値とする方法. \[\hat{\theta}=\arg\max_{\theta} \Pr[\theta|X]\] パラメータが与えられたときの条件付分布のモデル \(\Pr[X|\theta]\) と,パラメータの事前分布 \(\Pr[\theta]\) を与えれば,ベイズの定理により次式のようにパラメータの事後分布は計算できる. \[\Pr[\theta|X]=\frac{\Pr[X|\theta]\Pr[\theta]}{\int\Pr[X|\theta]\Pr[\theta]d\theta}\] パラメータを確率変数として扱うのでベイズ主義

    haneimo
    haneimo 2011/10/11
    MAP推定
  • Eisnerアルゴリズムのチュートリアル - yasuhisa's blog

    III期初のD-Lec。岩立さんによるEisnerアルゴリズムのチュートリアル。今日の午前に松先生の依存構造解析とかの授業があった後なので、すごくよいタイミング。Eisnerアルゴリズムは依存構造解析を行なうためのアルゴリズムの1つで 言語に依存しない Projectiveな係り受けを仮定 Graph-basedなアルゴリズムでDPを用いて効率よく全探索するので、Shift-Reduceなどと比べると解析精度重視 なものである。EisnerアルゴリズムにはFirst-order、Second-orderなど色々あるが、N-th orderだと同時にN個の係り受け関係を見て、それ以外の係り受け関係は独立である、という風な考え方。個々の係り受け関係にスコアを付けて、その総和が最大になるように係り受けの組み合わせを見ていく。係り受けの組み合わせを全部見るが、CKYアルゴリズムのようなDPを採用

    Eisnerアルゴリズムのチュートリアル - yasuhisa's blog
  • 統計的係り受け解析入門

    トップカンファレンスへの論文採択に向けて(AI研究分野版)/ Toward paper acceptance at top conferences (AI...

    統計的係り受け解析入門
  • N-gram統計量からの係り受け情報の復元 (YANS2011)

    1. N-gram 2011/09/22 NLP ⼿手 6 , ⼤大 {unno, hillbig}@prefered.jp

    N-gram統計量からの係り受け情報の復元 (YANS2011)
  • Text Classification with CEEK.JP NEWS

    CEEK.JP NEWS の2009年1月から2011年12月の記事データを基に、テキストの分類を行います。対応しているカテゴリーは「社会」「政治」「国際」「経済」「電脳」「スポーツ」「エンターテイメント」「サイエンス」の8つです。 ナイーブベイズ(Naive Bayes)分類法を用いており、概ね80%の精度で分類できます。 コンフュージョン・マトリックス(学習:2005年7月 / 判定:2005年8月) http://labs.ceek.jp/classify/cm.pdf 表の縦(グラフ)は、推定分野。表の横は、正解分野。 参考資料: 情報意味論(第8回) ベイズ学習 (櫻井研究室 情報意味論の講義資料) Tackling the Poor Assumptions of Naive Bayes Text Classifiers

  • RhymeZone rhyming dictionary and thesaurus

    Think you know it, poet? Play Twofer Goofer, a new rhyming game.

    haneimo
    haneimo 2011/07/25
    関連する単語を検索する面白いツール
  • Tsujii Lab. Enshu3 -- Japanese Dependency Analysis

    という文に対して、私の、高い、ワインを、二宮さんに、飲まれた、という各文節間の係り受け関係「私の→ワインを」・「高い→ワインを」・「ワインを→飲まれた。」・「二宮さんに→飲まれた」を求めることです。 機械学習を用いた日語係り受け解析は、ここ数年自然言語処理におけるホットトピックの一つとなっていて、我々のグループでも、最高精度の結果を出したことがあります(参考文献[1])。その当時より、研究室内で機械学習のためのライブラリが充実してきているので、演習の1ヶ月という短期間でも最新の研究に匹敵する結果(精度90%程度)を出すことができるかもしれません。 課題内容 課題のメインテーマである機械学習とは、簡単に言えば、ある現象に関して既存のデータの振る舞いから未知のデータの振る舞いを推定する確率モデルを作るということです。この課題の文脈にこれを当てはめれば、日語の係り受けという言語現象に関して

  • Naive Bayes Classifier : 多変数ベルヌーイモデル - ガーデンパス/迷子の記録

  • テキスト解析を使ったシステム連携に。Webベースの形態素解析エンジン·Igo GAE MOONGIFT

    Igo GAEはGoogle App Engine/Javaを使って形態素解析エンジンのIgoを動作させる。 [/s2If] Igo GAEはJava製/Google App Engine用のフリーウェア(ソースコードは公開されている)。日語を解析するのに使われているのがいわゆる「形態素解析」だ。名詞や形容詞などに分割することによって、システムとの連携をしたり文書の意味を解析できるようになる。 メイン画面 方法は幾つか存在する。ローカルで行うならMeCabやKAKASI、ChaSenが有名だ。そしてWebサービスとして提供されているのがYahoo! Japanの日形態素解析Webサービスになる。Yahoo!同様、Webベースで独自のシステムを使いたいならばIgo GAEを使ってみよう。 Igo GAEはJava製の形態素解析エンジンであるIgoGoogle App Engine上に

    テキスト解析を使ったシステム連携に。Webベースの形態素解析エンジン·Igo GAE MOONGIFT
  • 言語処理学会第17回年次大会(NLP2011)

    後援 この会議は豊橋技術科学大学,財団法人大幸財団に後援いただいています. 概要 言語処理学会第17回年次大会は,豊橋技術科学大学で開催します. 例年通り,自然言語に関する理論から応用まで幅広い研究発表を募集します. とくに,言語学教育学,心理学など,日頃「言語処理」とは縁が薄いと感じておられる人文系の研究者の方々からの積極的な発表を期待しています. 従来通り,研究発表の形態は口頭発表(質疑応答も含めて20分間程度を予定)とポスター発表のいずれかです. 口頭発表とポスター発表は時間帯を分け,両者が重ならないよう考慮する予定です.両種の発表とも,予稿集には最大4頁の論文を掲載する予定です. また,今大会でも分野を超えた議論を奨励するために,分野横断的テーマセッ ションを口頭発表の中に設けます.テーマセッションでは,セッションの最後 に総合討論の時間を取り,参加者の間でより活発な討論ができる

  • TermExtract Perlで出来る特徴語抽出 - プログラマになりたい

    PerlのCPANモジュールを使って、簡単にベイジアンフィルターを使う方法を紹介したエントリーが思いのほか好評でした。ベイジアンフィルター Perlで作りたい人に教えてあげたいちょっとしたこと  調子に乗ってもう一つ、お気に入りのCPANモジュールの紹介です。日語の形態素解析といえばMeCabでほぼ間違いないのですが、MeCabはあくまで形態素解析器です。ということで、最小単位の形態素を検出することは出来ますが、連語等は分解されて出てきます。(当はちょっと工夫したら出せるのですが、それはまた次回)例えば、「集合知」という言葉が出てきたら、下のように分解されて出てきます。 集合 名詞,サ変接続,*,*,*,*,集合,シュウゴウ,シューゴー 知 名詞,一般,*,*,*,*,知,チ,チ 使い方にもよりますが、集合知という言葉で取りたい場合も多いと思います。以前、Yahoo!APIと組み合わせ

  • 「日本語テキストを分類するベイジアンフィルタ」を簡単につくるyo - download_takeshi’s diary

    数週間前の話になりますが、「はてブのリニューアル会見」の記事を読んでいたところ、はてブにも「自動カテゴライズによる記事分類」の機能が搭載されるとか。。。 同じようなタイミングで「似たようなモノ」というか「ほぼ同じようなモノ」を作っていたので、すごーくインスパイアされてしまいました。ジュワ〜。(アドレナリンの放出音) 数週間たってもいまだ興奮冷めやらぬ状態なので、今日はその件について書いてみようと思います。 Lingua::JA::Categorize - a Naive Bayes Classifier for Japanese document. http://search.cpan.org/~miki/Lingua-JA-Categorize-0.00001/ 「はてブのパクリ」ではありません。「ベイジアンによる日語テキスト分類器」を「簡単に作る」ことを目的としたモジュールです。 も

    「日本語テキストを分類するベイジアンフィルタ」を簡単につくるyo - download_takeshi’s diary
  • ナイーブベイズによる言語判定

    Weighting of acoustic cues shifts to frication duration in identification of ...Keiichi Yasu

    ナイーブベイズによる言語判定
  • ナイーブベイズを用いたブログ記事の自動分類 - 人工知能に関する断創録

    カイ二乗値を用いた特徴選択(2010/6/25)の続きです。今まで使ってきた20 Newsgroupsというデータは英語文書でかつ元ネタがよく分からずあまり面白くなかったので、今回はこのブログ(人工知能に関する断想録)の記事を分類してみます。このブログの各記事には私の判断でカテゴリをつけています。たとえば、この記事は[機械学習][自然言語処理]です。カテゴリのリストはこのブログの左メニューにあります。この前、少し整理したので全部で18のカテゴリがあります。新しい記事を書いたとき自動でカテゴリを割り振ることはできるのでしょうか? (注)プログラミング言語はPythonを使っています。シリーズもので以前作ったコードを再利用してるので検索で飛んできた人はナイーブベイズを用いたテキスト分類(2010/6/13)から順に読んでください。 はてなダイアリーデータのダウンロードと整形 まず、はてなダイア

    ナイーブベイズを用いたブログ記事の自動分類 - 人工知能に関する断創録
  • Transformed Weight-normalized Complement Naive Bayes(TWCNB)についての実験と結果 - rubyu's blog

    自作ソフトにテキストの多クラス分類機能を組み込みたくて、調べてみたら Complement Naive Bayes(CNB、補集合ナイーブベイズ)というアルゴリズムが最近の流行のようで、これを検証してみることにしました。 元論文 を一通り読んでから検証を進めていきました。実装される際は目を通すことをオススメします。 使用したコーパスは以下のようなもの 想定する用途に合わせて、それなりにクラス間でデータの量にばらつきがあります。 クラス ファイル数 サイズ A 832 121MB B 491 182MB C 449 59MB D 312 111MB E 298 26MB F 245 67MB G 234 73MB H 210 33MB I 123 33MB J 63 3MB K 62 14MB L 47 6MB M 47 5MB ひとまず、シンプルなナイーブベイズを 集合知プログラミング を

    Transformed Weight-normalized Complement Naive Bayes(TWCNB)についての実験と結果 - rubyu's blog
  • ナイーブベイズを用いたテキスト分類 - 人工知能に関する断想録

    今までPRMLを読んで実装を続けてきましたが、10章からは難しくて歯が立たなくなってきたのでここらで少し具体的な応用に目を向けてみようと思います。機械学習の応用先としては画像の方が結果を見ていて面白いんですが、当面は自然言語処理を取り上げます。そんなわけで一番始めの応用は機械学習と自然言語処理の接点として非常に重要なテキスト分類(Text Classification, Text Categorization)の技法たちを試していきたいと思います。テキスト分類は文書分類(Document Classification)という呼び方もあります。テキストと文書は同じ意味です。最初なので自分の知識の整理と入門者への紹介のためにちょっと丁寧にまとめてみました。 テキスト分類とは テキスト分類とは、与えられた文書(Webページとか)をあらかじめ与えられたいくつかのカテゴリ(クラス)に自動分類するタス

    ナイーブベイズを用いたテキスト分類 - 人工知能に関する断想録
  • FSNLP7章のEMが怪しい件 - アスペ日記

    FSNLP(Foundations of Statistical Natural Language Processing)は自然言語処理業界の中では知らない人はないというほど有名な英語)。出版年度は古く、内容もかなり時代遅れになってきつつあるのだが、自然言語処理の広い範囲を網羅したということで、英語を読む訓練をかねて新入生が輪読をするのはこの業界の風物詩。 うちの研究室(黒橋研)でもその輪読をしていて、B4(学部4年)とM1(修士1年)の他に、M2(修士2年)も復習と新入生の指導という意味合いで参加している。ぼくはM2なので、やはり参加している。 (ここから先はの内容にからむことなので、FSNLPと合わせて読んでください) 7章 "Word Sense Disambiguation" の Figure 7.8、EMアルゴリズムのところ(ここは errata があるので、修正されたバ

    FSNLP7章のEMが怪しい件 - アスペ日記
  • tf*idf 法による特徴的単語の抜き出し - World Wide Walker

    tf*idf 法による特徴的単語の抜き出し Posted by yoosee on Web at 2005-02-25 23:42 JST1 Tf Idf Ranking特徴的単語の抜き出し方法。nterm := あるドキュメント内のある単語の出現回数 maxn := ドキュメント内で最も出現頻度が高かった単語の出現回数 tf = 0.5 + 0.5 * nterm / maxn idf = log2(ドキュメントの数/対象単語が含まれるドキュメントの数) + 1 log の底は任意に変えることで idf の重み付けを変更出来る と言う数字で評価する。つまり「あるドキュメント内での出現頻度が高い(tf)」単語のうち「他のドキュメントにはあまり出現し無いもの(idf)」を「そのドキュメントに特徴的な単語」として扱うという考え方らしい。 とりあえず kakasi -w で単純な単語分割したもの