自然言語処理研究会 (NL研) での発表資料です。対話エージェントに個性 (方言・熱さ等) を追加する技術で、深層学習を用いた対話返答文生成で元の個性を保持しつつ 個性を追加反映した返答文生成を行います。

自然言語処理研究会 (NL研) での発表資料です。対話エージェントに個性 (方言・熱さ等) を追加する技術で、深層学習を用いた対話返答文生成で元の個性を保持しつつ 個性を追加反映した返答文生成を行います。
✔ Train large-scale semantic NLP models ✔ Represent text as semantic vectors ✔ Find semantically related documents from gensim import corpora, models, similarities, downloader # Stream a training corpus directly from S3. corpus = corpora.MmCorpus("s3://path/to/corpus") # Train Latent Semantic Indexing with 200D vectors. lsi = models.LsiModel(corpus, num_topics=200) # Convert another corpus t
最近、畳み込みニューラルネットワークを使ったテキスト分類の実験をしていて、知見が溜まってきたのでそれについて何か記事を書こうと思っていた時に、こんな記事をみつけました。 http://www.wildml.com/2015/11/understanding-convolutional-neural-networks-for-nlp 畳み込みニューラルネットワークを自然言語処理に適用する話なのですが、この記事、個人的にわかりやすいなと思ったので、著者に許可をもらって日本語に翻訳しました。なお、この記事を読むにあたっては、ニューラルネットワークに関する基礎知識程度は必要かと思われます。 ※日本語としてよりわかりやすく自然になるように、原文を直訳していない箇所もいくつかありますのでご了承ください。翻訳の致命的なミスなどありましたら、Twitterなどで指摘いただければすみやかに修正します。 以下
ここではMachine Learning Advent Calendarの一記事として、ベイズ推論の研究者の間で少しだけ認知され始めたCollapsed Variational Bayes(周辺化変分ベイズ、CVB)にもとづく推論のお話をします。 なお、私はあくまでユーザとしてCVBを使っているだけです*1。でも、多分間違ったことは書いていないと思います。もし間違ってたら教えていただけると嬉しいです。 そもそも確率的生成モデルとかが分からない方はPRMLや統数研の公開講座「確率的トピックモデル」の 資料などをご覧ください。 CVBのご利益 まずは、既存のベイズ推論手法に対してのadvantageです。 高精度: 理論的には大域解を得られるはずのGibbs samplerに比しても、だいたい同程度、しばしばより良い解が得られます 収束が早い: 多くの場合、素早く収束します 実装が簡単(比較級
この記事はDeep Learning Advent Calendar 7日目の記事です. 準備が大変なので前後半にわけてやりたいと思います.前半はモデルの考案と考えてる応用先について書きます. はじめに Deep Learningは画像認識や音声認識で多大な成果を挙げていますが,自然言語処理の分野でも大きな変化をもたらしたと思っています.現に,評判分析や機械翻訳などでDeep Learningを用いた手法は他を圧倒する成果を挙げています. そのため,機械学習で自然言語処理に取り組んでいる私にとっても,Deep Learningによる自然言語処理がとても熱いです. 今回は実験として,Deep Learningの一つであるRecurrent NNを使い,文書が肯定的(Positive)なのか,否定的(Negative)なのかを分類する感情分析をやってみたいと思います. 感情分析ではRecurs
はじめに 自然言語処理と Python のトレーニングのため,東北大学の乾・岡崎研究室 Web ページにて公開されている言語処理100本ノックに挑戦していきます.その中で実装したコードや,抑えておくべきテクニック等々をメモしていく予定です.コードについてはGitHubでも公開しています. 教科書は『Python入門 2&3対応(細田謙二ら著,秀和システム)』を使用しています. スタートアップに際して参考にさせていただいた記事をご紹介いたします.参考にしすぎてる感も否めないので,不快に感じられたらご連絡ください. http://qiita.com/tanaka0325/items/08831b96b684d7ecb2f7 ズブの素人なので記法が統一されてなかったり,Python 2/3 関係が混在していたりと大変お見苦しいのですが,ご指摘いただければ幸いです.実行環境自体は Python 2
Schedule and Syllabus Unless otherwise specified the course lectures and meeting times are: Tuesday, Thursday 3:00-4:20 Location: Gates B1
雑にですが,知ってるサイトやチュートリアルをまとめたくなったのでまとめてみました.夏ですし. 適宜更新しています. 最終更新 2018年02月03日 チュートリアル 言語処理100本ノック 言語処理100本ノック 2015 東工大の岡崎先生が作られたチュートリアルです. 他大学の研究室でも利用されています. 簡単な内容からはじまるので,プログラミングの導入としてもいいと思います. NLPプログラミングチュートリアル Graham Neubig's Teaching Carnegie Mellon UniversityのGraham Neubig先生のチュートリアルです. Githubにサンプルコードが公開されています. 各チュートリアルにはテストがついているので,実装が正しいかを確かめることができます. 扱っているトピックが広いので,かなり勉強になると思います. ソフト 形態素解析器 日本
岡崎直観. 2015. 単語の分散表現と構成性の計算モデルの発展. 2015年度人工知能学会全国大会(第29回), OS-1 意味と理解のコンピューティング (2), 2F5-OS-01b-1.
ディープラーニングは、人間の脳の中のニューロンとシナプスの回路をコンピューターの電子回路で真似て、それを何層にも重ねた手法。この手法が思いの外、成果を上げているので、人工知能に注目が集まっている。英誌エコノミストも最近の号で人工知能を特集するなど、ビジネスマンの間でも人工知能は今、ちょっとしたブームだ。 ディープラーニングは、人間の脳の中のニューロンとシナプスの回路をコンピューターの電子回路で真似て、それを何層にも重ねた手法。この手法が思いの外、成果を上げているので、人工知能に注目が集まっている。英誌エコノミストも最近の号で人工知能を特集するなど、ビジネスマンの間でも人工知能は今、ちょっとしたブームだ。 しかしディープラーニングのように人間の脳を模倣しなくても、コンピューターを賢くさせる手法はほかにもある。例えば「トピックモデリング」。トピックモデリングは、多数の文書を読み込むことで傾向を
はてなグループの終了日を2020年1月31日(金)に決定しました 以下のエントリの通り、今年末を目処にはてなグループを終了予定である旨をお知らせしておりました。 2019年末を目処に、はてなグループの提供を終了する予定です - はてなグループ日記 このたび、正式に終了日を決定いたしましたので、以下の通りご確認ください。 終了日: 2020年1月31日(金) エクスポート希望申請期限:2020年1月31日(金) 終了日以降は、はてなグループの閲覧および投稿は行えません。日記のエクスポートが必要な方は以下の記事にしたがって手続きをしてください。 はてなグループに投稿された日記データのエクスポートについて - はてなグループ日記 ご利用のみなさまにはご迷惑をおかけいたしますが、どうぞよろしくお願いいたします。 2020-06-25 追記 はてなグループ日記のエクスポートデータは2020年2月28
先日、自然言語処理の講演などをしていたときに、そもそも私なんかが話すよりも公開されているチュートリアルスライドを集めたほうが有用なんではないかと思い立って、これから自然言語処理を学びたい人や、ちょっと新しい分野を知りたい人向けに、日本語で読めるチュートリアルスライドを分野別にまとめてみました。 主に、学会のチュートリアルや招待講演、それから研究者の方のWebページなどを参照しながら作りました。 自然言語処理全般系の資料や、少し境界的なテーマは入っていません。 また、ぱっと読めるスライドだけにしています。 幾つか手前味噌な資料も載せてます・・。 頑張って集めてみましたが、思ったほど集まりませんでした。 作っていてわかったのですが、意外とスライドを公開している人は少ないようです。 埋もれてしまうのはもったいないですね。 いずれ、英語で読めるスライドを集めてみようと思います。 そっちはそっちで、
一応の基本機能がととのったので、できたてほやほやではありますが、Python製の形態素解析器 Janome を公開しました。 http://mocobeta.github.io/janome/ インストール方法や使い方は上記ページを見てください。 ソースコードはGithubにおいています: https://github.com/mocobeta/janome 【公開にいたった背景など】 日本語テキストを分析したりテキストマイニングする場合、まずは形態素解析から始めると思います。 Python の場合、そのためには MeCab をインストールして、mecab-ipadic をインストールして、mecab-python をインストールする、という手順を踏むことが多いと思うのですが、環境依存のところでハマって面倒な思いをしたり、サーバ構築の手間がかかったり、しますよね。なので、Pythonモジュ
Image Credit: Bhupinder Nayyar/Flickr AppleやMicrosoftのような大手テクノロジー企業は、モバイル機器に搭載されたパーソナルデジタルアシスタント機能を多くの人に提供してきた。そのおかげでユーザはデバイスに話しかけるだけでアラームをかけたり、質問の回答を得たりすることができるようになった。現在、他の企業も新しいオープンソースのソフトウェアを用いて、それぞれ独自のバージョンのアシスタント機能を作成することが可能になった。そのソフトウェアは、Sirius。もちろん、AppleのSiriをもじったものだ。 今日、トルコで開かれている「プログラム言語およびOS向けアーキテクチャサポートに関する国際会議」にて、ミシガン大学の研究者らがSiriusについてのプレゼンテーションを行った(編集部注:原文掲載3月14日)。時を同じくした今朝、SiriusはPro
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く