[B! NLP] midnightseminarのブックマーク

midnightseminar id:midnightseminar

NLPに関するmidnightseminarのブックマーク (28)

トピックモデルの話
勤め先の社内勉強会での発表資料です。日本語版 Wikipedia の抄録を対象として gensim の LdaModel を利用する例を説明した後、LDA の生成モデルについて説明します。そのうえで、gensim の LdaModel に指定できるパラメータや提供されているメソッドの意味を LDA の生成モデルに照らして確認します。
midnightseminar 2017/11/03
トピックモデル

NLP

★

テキストマイニング

き機械学習
リンク
数式をなるべく使わずにトピックモデルの解説にチャレンジ - Qiita
トピックモデルは応用範囲が広く、使えるところが多いモデルですが・・数式が鬼難しく分かりづらいので、なるべく数式を使わずに分かりやすくしたい。そして備忘録にしたいってことで記事を書きました。間違いがあれば指摘して頂けると幸いです。トピックモデルの使える範囲端的に言えば、文書からそれが何について記述されているかを推定するモデルです。実は適用範囲はトピックを抽出をしていくだけではないです。トピックに分けるだけでなく、文書の補助情報に関連付けをさせたり、ユーザーの情報に依存させたトピックのみに限定したり、トピックに相関関係を持たせたりできます。また文書だけでなく、画像、ソーシャルネットワーク、論文の引用関係にも応用可能です。トピックモデルの仕組み重要な点をいくつか先に述べます。確率分布、共役事前分布、パラメータ推定の３点がかなり重要になってきます。１：確率分布確率の分布な
midnightseminar 2017/11/03
NLP

トピックモデル

き機械学習

テキストマイニング
リンク
KH Coder 2 チュートリアル（スライド版）
2014年12月20日の勉強会「第41回データマイニング+WEB ＠東京 (#TokyoWebmining 41st )」で発表させていただく内容です。 KH Coderとはテキストマイニング（内容分析）のためのフリーソフトウェアです。内部では茶筌・MeCab＋MySQL＋Rを利用しており、これらのツールの機能を統合するためにPerlを使っています。当日はアンケート自由回答の分析事例を通じて、KH Coderの分析機能をご紹介します。また、非常に手軽なマウス操作でそうした分析が可能なことを、実際にソフトを動かしてのデモからご覧いただきます。加えて、ごくわずかなPerlとRのコードを書くことで、新たな分析機能を追加したり、分析を自動化したりできる、プラグイン機構についてお話しいたします。
midnightseminar 2017/09/30
KHCoder

テキストマイニング

NLP
リンク
mecab-ipadic-neologdがすごいという話 - kivantium活動日記
[O] MeCab 用の新語辞書 mecab-ipadic-neologd を公開しましたという記事が話題になっていたのでmecab-ipadic-neologdを試してみました。インストール READMEを見れば分かりますが一応メモ sudo apt-get install mecab libmecab-dev mecab-ipadic-utf8 git make curl xz-utils git clone --depth 1 https://github.com/neologd/mecab-ipadic-neologd.git cd mecab-ipadic-neologd ./bin/install-mecab-ipadic-neologdでインストールできます。インストール先は echo `mecab-config --dicdir`"/mecab-ipadic-neolo
midnightseminar 2017/05/12
MeCab

NLP
リンク
日本語の形態素解析以外にもMeCabを使う、またはMeCabの辞書の仕組み - Write and Run
みなさん、和布蕪は好きですか。私は食べたことがありません。さて、MeCab は優秀な日本語の形態素解析機として有名ですが、みなさんは MeCab をそれ以外の用途で使ったことがありますか。食わず嫌いは感心できませんねぇ。日本語の形態素解析機としての振る舞いは MeCab のほんの一面に過ぎません。MeCab はいつも読んでる IPAdic が何語の辞書かなんて知りませんし、日本語の文法がハードコートされているわけでもありません。MeCab は、振る舞いの全てを辞書に決められているといっても過言ではないほど、辞書によって様々な「言語」を解析できるようになります。ここでいう「言語」とは、記号の並びの規則、またはその規則に則って並べられた記号列のことだと思ってください。つまり、「辞書」は言語の語彙だけでなく、規則を記述する能力を持っているのです。 MeCab の「辞書」に含まれる情報に軽く触
midnightseminar 2017/05/07
MeCab

Python

NLP

け形態素解析
リンク
【Python】MeCabと極性辞書を使ったツイートの感情分析入門 - StatsBeginner: 初学者の統計学習ノート
負のオーラを自動検出したい前回のエントリで、著作権侵害にあたる違法アップロード動画を自分のTwitterで拡散してしまっている懸念を考えて、YouTube動画のリンクが貼ってあるツイートをまとめて削除しました。前回のエントリでも言いましたが、著作権侵害モノ以外にも、「残しておくとまずいツイート」は色々ある可能性があり、たとえば誹謗中傷の類いがあるかと思います。誹謗中傷ツイートを自動抽出する方法はにわかには思いつきませんが、たぶん「クソ」とか「死ね」とか「バカ」とかそういう悪口の辞書が必要になりそうです。ところで、言語データの分析手法として、単語ごとに感情特性を評価した辞書というものがあちこちで作られていまして、これを使ってツイートがどのような感情を帯びているか分析するということが、よくやられています。Yahoo!がそういうツールを提供してたりもします（参考リンク）。 Yahoo!のリ
midnightseminar 2017/05/07
Python

じ自分

ブログ

NLP

Twitter

形態素解析

機械学習

感情分析

プログラミング

Pandas
リンク
258億語の日本語コーパスをウェブで公開～国立国語研究所　言語研究や自然言語処理技術開発での基礎資料
midnightseminar 2017/03/07
コーパス

NLP
リンク
長文日記
midnightseminar 2016/11/12
き機械学習

NLP

Google

ニューラルネット

し清水亮
リンク
Google翻訳，ニューラルネットワークが導入されて精度が大幅上昇｜迫佑樹オフィシャルブログ
もう英語を勉強する必要がなくなる…？？英語嫌いの私にとっては素晴らしく嬉しいニュースです． Google翻訳の精度が大幅上昇です!!! translate.google.com Swiftドキュメントを翻訳してみるプログラミングする時にネックになるもの… そう，英語で書かれたドキュメントの翻訳です．ちょっとドキュメントを翻訳してみましょう．まずは，Railsのドキュメント． Ruby on Rails API を翻訳してみたいと思います!! Rails is a web-application framework that includes everything needed to create database-backed web applications according to the Model-View-Controller (MVC) pattern. これを翻訳する
midnightseminar 2016/11/12
き機械学習

NLP
リンク
最近のDeep Learning (NLP) 界隈におけるAttention事情
Neural Network with Attention Mechanism for Natural Language Processing: survey Read less
midnightseminar 2016/11/09
昨日のGoogleの論文にattentionてのが出てきて何のことかと思ってこのスライドにたどり着いた。

NLP

ディープラーニング

★
リンク
講義まとめ：自然言語処理のための深層学習（CS224d） - Qiita
CS224d(自然言語処理のための深層学習)はスタンフォード大のRichard Socherが2015年から教えている講義で、動画やスライドなどの講義資料と演習問題がウェブ上で無料で公開されています。 CS224d: Deep Learning for Natural Language Processing 会社の勉強会で週1回半年程度かけて講義動画と演習を終えたため、勉強したことを簡単にまとめてみたいと思います。なぜ今なのか？深層学習（Deep Learning）は2000年代後半のRBMやauto-encoderなどの教師なし学習から流行が始まりましたが、それらを教師あり学習の事前学習に使うアプローチは徐々に衰退し、2010年代前半には画像認識のための畳み込みネットワークがImageNetコンテストのおかげで爆発的に有名になりました。詳しくありませんが音声認識の分野でも既存の複雑な
midnightseminar 2016/08/23
「講義まとめ」というタイトルから期待される内容ではない気がするけど

NLP

ディープラーニング

★
リンク
日本語形態素解析の裏側を覗く！MeCab はどのように形態素解析しているか - クックパッド開発者ブログ
こんにちは、買物情報事業部の荒引 (@a_bicky) です。前回、「検索結果の疑問を解消するための検索の基礎」で単語単位でインデキシングする前提で説明しましたが、今回は文などを単語単位で分割するために使う技術である形態素解析について触れます。形態素解析器には色々ありますが、中でもメジャーと思われる MeCab の仕組みについて説明します。 MeCab の解析精度を上げるために辞書に単語を追加したことのある方もいると思いますが、動作原理を理解することで単語を追加する際に適切な生起コストを設定できるようになったり、学習の際に適切なパラメータを設定できるようになったりするはずです。なお、MeCab は汎用テキスト変換ツールとしても使用できますが、簡単のため MeCab + IPA 辞書のデフォルト設定前提で説明します。アジェンダ形態素解析とは MeCab における最適な解析結果の推
midnightseminar 2016/05/12
MeCab

NLP

け形態素解析
リンク
日本語と英語の、難易度が高い形態素解析の例 - StatsBeginner: 初学者の統計学習ノート
小ネタです。すもももももももものうち昨日、日本語形態素解析エンジンMeCabに関するエントリを書きました。 statsbeginner.hatena blog.com ところで、MeCabの公式サイト（リンク）にいくと、インストール完了後のテストとして「すもももももももものうち」の解析が行われています。"Hello world!"のノリで。 $ mecab すもももももももものうちすもも名詞,一般,*,*,*,*,すもも,スモモ,スモモも助詞,係助詞,*,*,*,*,も,モ,モもも名詞,一般,*,*,*,*,もも,モモ,モモも助詞,係助詞,*,*,*,*,も,モ,モもも名詞,一般,*,*,*,*,もも,モモ,モモの助詞,連体化,*,*,*,*,の,ノ,ノうち名詞,非自立,副詞可能,*,*,*,うち,ウチ,ウチ EOS これを受けて、MeCabの使い方を解説する
midnightseminar 2016/02/05
Python

プログラミング

MeCab

NLP

英語
リンク
perlでTreeTaggerを使う – taichino.com
英語の文章からキーワードを抽出したくなったので形態素解析ツールを探していた所、TreeTaggerというツールを見つけました。英語の他にもフランス語、ドイツ語など色々などにも対応しているようです。英語以外は解りませんので、英語をインストールしました。インストールはここから、以下のファイル群を適当なディレクトリにダウンロードしてinstall-tagger.shを走らせます。ファイルの解凍含めて全て処理してくれます。 tree-tagger-linux-3.2.tar.gz (本体) tagger-scripts.tar.gz (実行スクリプト) install-tagger.sh (インストーラ) english-par-linux-3.1.bin.gz (English parameter file) english-chunker-par-linux-3.1.bin.gz (E
midnightseminar 2016/02/05
け形態素解析

NLP

え英語
リンク
ベイズ階層言語モデルによる教師なし形態素解析
midnightseminar 2016/02/02
「“形態素”とは、文字列の生成確率を最大にするような情報理論的な単位として導くことができる」

け形態素解析

NLP

き機械学習

ベイズ
リンク
WindowsでMeCab Pythonを使う - 人工知能に関する断創録
日本語の文章を単語に分割するには形態素解析を使います。日本語の形態素解析には、ChaSen、MeCab、Yahoo!形態素解析などがあります。ナイーブベイズを用いたブログ記事の自動分類（2010/7/3）でMeCabをPythonから使う方法を簡単にまとめましたが、MeCabはよく使うので再度まとめ直して独立したエントリにしました。Yahoo!形態素解析の使い方は、Yahoo!形態素解析 API（2009/4/15）で書きました。 Windowsへの導入方法 MeCabは高性能な形態素解析モジュールでPython、 Ruby、Perl、Javaなどさまざまな言語から使えます。Mac OS XとLinuxでは簡単にコンパイルしてインストールができるのですが、WindowsではMinGWやVisual Studioのインストール、コードの修正が必要でかなり面倒くさい。そこで、Pythonモジュー
midnightseminar 2016/02/01
MeCab

Python

NLP
リンク
MeCab で UniDic 辞書を使ってみる / 桃缶食べたい。
MeCab で UniDic 辞書を使ってみる MeCab で使える形態素解析用の辞書は、IPA 辞書の他にもいくつか公開されています。そのひとつであるUniDic は、IPA 辞書よりも個々の単語を詳細に分類したもので、分割した形態素が文中で果たす役割をより精密に検出することができます。UniDic はメンテナンスが頻繁に行われているようで、最新版は 1 ヶ月ほど前の 2013/3/14 にリリースされた 2.1.2 になります。ライセンス形態は GPL、LGPL、BSD License のトリプルライセンスとなっていて、その点でも、エンジニアにとっても採用しやすい辞書となっています。今回はこの UniDic を実際にビルドし、MeCab から使ってみることと、辞書の再学習までを試してみました。 MeCab で UniDic を使うUniDic はバイナリ辞書も配布されていますが、ここ
midnightseminar 2016/01/29
MeCab

UniDic

NLP
リンク
マルコフ連鎖を使ってブログの記事を自動生成してみた - karaage. [からあげ]
マルコフ連鎖による文章自動生成ちょっと文章の自動生成に興味が湧いたので、試してみることにしました。まずは事前調査したところ、既にやっている例がたくさんみつかりました。記事末の参考リンクにまとめましたので興味ある方は参照ください。Deep Learningやマルコフ連鎖を使うのがトレンド（？）のようです。本当はDeep Learningでやってみたかったのですが、何度か環境変えてチャレンジしたのですが、悉くエラーが出て失敗したため(chainerのバージョンアップの影響？）、諦めてマルコフ連鎖で実現することにしました。マルコフ連鎖に関してはここでは詳細は説明しませんので、興味ある方は自分で調べてみて下さい。自分もちゃんと理解できませんでした。イメージ的には、元となる文章の文章の流れのようなものを解析して、その解析した流れを元に、ある単語から順番に連想ゲームのように単語を並べていって文章を生
midnightseminar 2016/01/27
き機械学習

NLP
リンク
自然言語処理は Python がいちばん - 武蔵野日記
現在大学1年生の人で3年後には NAIST に (というか松本研に) 来たいという人から「どんなプログラミング言語やっておくといいですか」と質問されたりするのだが、なかなか答えるのは難しい。自分は Perl → Python がメインでときどき C++/C# を使ったりするのだが、どれが一番いいかはなんとも言えないので、自然言語処理以外に転向する可能性も考えると、C とか C++ とか Java とか(授業でそちらをやるのであれば)を最初の武器に選んだ方がいいのでは、と思ってはいる。そんなこんなで最近 Hal Daume III (機械学習を用いた自然言語処理では非常に有名な人) のブログで Language of Choice というタイムリーなエントリーが出ていたので、紹介すると、「それなりに大きな自然言語処理のプロジェクトでどのプログラミング言語を使うのか」というアンケート結果が出
midnightseminar 2015/10/27
Python

NLP

プログラミング

★
リンク
株式会社ALBERT（レコメンドエンジン）
データ分析から導き出されたインサイト無しにAI（人工知能）の活用は始まりません。私たちは、各業界知識とデータ・アナリティクス技術を駆使しデータドリブン経営を強力に支援します。データ、アナリティクス、AIは企業にとって競合他社との差別化を図るかつてないほど大きな要因になっています。今日の経営幹部が効率を向上しながら新たな収益源を開拓し、新しいビジネスモデルをタイムリーに構築する方法を模索する中、価値を生み出し成長を続ける企業には「データ活用」という共通項があります。私たちは、無数のデータから企業にとって本当に必要なデータを活用するための方法を知っています。将来を見据えたオペレーション体制を備えている企業の半数以上（52％）は、すでにデータとアナリティクスを大規模に活用しています。データとAIに関する取り組みをビジネス戦略に沿って実施することで投資利益率を迅速に最大化し、最終的にはAIをビ
midnightseminar 2015/09/15
NLP

ど読書会
リンク
1 2 次のページ