[B! 自然言語処理] been6のブックマーク

been6 id:been6

自然言語処理に関するbeen6のブックマーク (16)

双対分解による構造学習 - Preferred Networks Research & Development
入力\(x\)から出力\(y\)への関数を学習する機械学習の中で、出力が構造を有している問題は構造学習（Structured Output Learning）と呼ばれ、自然言語処理をはじめ、検索のランキング学習、画像解析、行動分析など多くの分野でみられます。今回はその中でも複数の構造情報を組み合わせても効率的に学習・推論ができる双対分解による構造学習について紹介をします。 # 構造学習についてよく知っているという方は双対分解による構造学習のところまで読み飛ばしてください。構造学習の導入構造を有した出力の例として、ラベル列　（品詞、形態素列の推定、時系列におけるアクションの推定、センサ列）木　　　　（係り受け解析における係り受け木、構文解析木、談話分析、因果分析）グラフ　　（DAG:述語項構造による意味解析　二部グラフマッチング:機械翻訳の単語対応）順位付集合（検索における順位
been6 2015/06/29
構造学習

機械学習

自然言語処理
リンク
#TokyoNLP で「∞-gram を使った短文言語判定」を発表しました - 木曜不足
TokyoNLP 第8回にのこのこ参加。主催者の id:nokuno さん、発表者＆参加者のみなさん、そして会場を提供してくださった EC ナビさん改め VOYAGE GROUP さん＆ @ajiyoshi さん、お疲れ様でした＆ありがとうございました。今回は「∞-gram を使った短文言語判定」というネタを発表。「短文言語判定」って、要は「このツイートは何語？」ってこと。こちらが資料。 ∞-gram を使った短文言語判定 View more presentations from Shuyo Nakatani そして実装したプロトタイプ ldig (Language Detection with Infinity-Gram) とモデル(小)はこちらで公開。 https://github.com/shuyo/ldig 言語判定とは「文章が何語で書かれているか」を当てるタスクで、以前一度
been6 2015/01/29
自然言語処理

機械学習
リンク
作って覚える転置インデックス、「検索エンジン自作入門」 - プログラマでありたい
先行発売で、検索エンジン自作入門を購入しました。まだペラペラと眺めている状況ですが、これが非常に面白いです。「検索エンジン自作入門」は、集めた文章をいかに整理するかをテーマとして扱っている本です。整理するという意味は、検索エンジンを利用するというライフハック的な意味ではありません。整理する為の検索エンジン自体を自分で作ることで理解するという、極めて硬派な本です。「検索エンジン自作入門」とは？「検索エンジン自作入門」は、未踏IT人材発掘・育成事業にスーパークリエータに認定された山田浩之氏と、Senna/groongaの開発者の末永匡氏の共著です。検索エンジンについて語らせたら、日本でこれ以上の人たちはいないだろうという組み合わせです。ということで、内容は非常に濃いのですが、難しい内容を解りやすく解説されています。一方で、扱っている内容は非常にマニアックです。下に目次付けておくので見て
been6 2014/09/22
自然言語処理

アルゴリズム

検索エンジン
リンク
【自然言語処理】word2vec の次は、Paragraph2vec（Mikolov氏論文）～ Google発の実装ソース・コード公開は未定だが、第３者が実装したライブラリのソースコードが Github に公開されているのを見つけた - Qiita
Mikolov 氏ほか共著論文 "Distributed Representations of Sentences and Documents" （リンク） Stanford.edu ウェブサイト上記論文を実装したコードは、まだ公式にリリースされていない（はず・・・調べてきた限り）しかし、Mikolov 氏は、Google を退職して、Facebook に移籍したもよう・・・（ Mikolov 氏の LinkedIn トップページ）権利の関係とモチベーションの関係上、Mikolov 氏は、paragrah2vec の実装に取り組むのだろうか？？？そのような（若干？）宙ぶらりん状態のいま、paragraph2vec 論文を独自に実装した（と思われる）下記のコードが目を引きます１. klb3713 氏による sentence2vec （ GitHub へのリンク
been6 2014/09/15
word2vec

自然言語処理

nlp
リンク
文書分類メモ - Negative/Positive Thinking
はじめに文書分類マスターを目指して修行の旅に出るために必要そうな知識を、ざっとメモしておく。(かなり雑だけど・・・) 文書分類とはテキスト分類、Text Classification あらかじめ決められたカテゴリ集合に基づき、与えられた文書に適切なカテゴリを付与する事排他的分類 : 1つのテキストにカテゴリを1つだけ付与される場合マルチラベル分類 : 1つのテキストに複数のカテゴリ付与を許す場合基本的には、目的の分類をどのような分類手法に落とし込むか？を考えることになる主なアプローチとして、以下のような流れで処理する(教師あり分類) 学習データから素性(なんらかの特徴)を抽出し、それらの規則を見つけだす規則に基づく分類モデルを作成未知の文書に対して素性を抽出したものにモデルを適用し、分類結果を返す利用例内容に関する分類ニュースジャンル分類 SPAMフィルタ属性に関す
been6 2014/08/25
自然言語処理

文書分類

Machine learning

nlp

特徴選択

素性選択

機械学習
リンク
ニューラルネットによる単語のベクトル表現の学習〜 Twitterのデータでword2vecしてみた - 病みつきエンジニアブログ
最近にわかにword2vecが流行っています。ので、乗っかってみました的記事です。理論に関してはあまり詳しくしらないので、印象だけで語っているかもしれません。何かありましたらTwitterかコメント等でご指摘いただけますと幸いです。ちなみに、失敗した話が多いです。 word2vecと単語のベクトル表現 word2vecは、機械学習の分野で使われる、ニューラルネットというモデルを使ったツール／ライブラリです*1。名前の通り、wordをvectorにします。vectorにする、というのは、ベクトル表現を獲得するということで、意味(みたいなもの)の獲得というか、素性の獲得というか。単語のベクトル表現の獲得自体は、別にword2vecにしかないわけではありません。言い換えると、昔からあります。LDAを使って単語のトピック分布のようなものを学習したり(vingowでやりました)。余談ですが、こ
been6 2014/07/27
LDA

word2vec

自然言語処理

機械学習
リンク
言語処理学会第20回年次大会(NLP2014) プログラム
会場情報会場：　北海道大学大学院工学研究院・大学院工学院・工学部所在地：〒060-8628 北海道札幌市北区北13条西8丁目アクセスは以下のHPをご覧下さい． http://www.eng.hokudai.ac.jp/access/ 旅程について年次大会開催時期は，悪天候による航空機の欠航の可能性がありますので，大会参加日の当日現地入り予定の方は，可能であれば前日に札幌に来られることをお勧め致します．無線インターネットアクセスについて年次大会期間中は，eduroam (http://www.eduroam.jp/) による無線LANが利用可能です． eduroamに参加機関の皆様は，事前に，所属機関でeduroamのIDを取得することで，今回の会期期間中だけでなく，参加機関に出張の際などに，無線LANの利用が可能になります． eduroam参加機関の一覧 (http://www
been6 2014/07/15
研究テーマ

自然言語処理

NLP
リンク
Argmax Operations in NLP
最先端NLP勉強会�“Learning Language Games through Interaction”�Sida I. Wang, Percy L...Yuya Unno
been6 2014/07/15
自然言語処理

NLP

最適化

組み合わせ最適化
リンク
言語情報処理用語集
あ行アーリーアルゴリズム (Earley algorithm) 文脈自由文法に基づく構文解析アルゴリズム。ある非終端記号の直後に現われ得る終端記号を事前に予測することによって解析効率を改善している点が特徴。 IIS (Improved Iterative Scaling algorithm) 最大エントロピー法のパラメタを学習するアルゴリズム。合図句 (cue phrase) →「手がかり句」曖昧性 (ambiguity) 自然言語処理では、複数の解析結果が得られることを曖昧性があるという。例えば複数の語義がある場合は語義(選択)に曖昧性があるといい、かかり受け解析において複数の可能性がある場合は、かかり受けに曖昧性があるという。曖昧性は様々な処理レベルで存在し、曖昧性解消(ambiguity resolution, disambiguation)は自然言語処理の真髄とも言われる。
been6 2014/07/14
相互情報量

自然言語処理
リンク
統計的テキスト解析(9)～テキストにおける情報量～
標本データが、ある母集団から得られる確率を尤度(ゆうど,Likelihood)と呼ぶ。1枚のコインを100回投げた結果、{表}が48回現れたとする。もし、各面が現れる確率が1/2であることがわかっていれば、48/100≒0.5であるから、{表}が現れる尤度は1/2になる。しかし、ゆがみがあるコインの場合は、ゆがみに関する規則(あるいは関数)を考えることが必要である。ゆがみがあるコインの各面が現れる確率を左右する要因をθとすると、尤度はθの関数である。θをパラメータと呼ぶ。ポアソン分布の場合はλ、正規分布の場合はμ,ρがパラメータθである。確率は、母集団において事象が起こる率であり、尤度は、標本データと仮説のもとで得られた、事象が母集団で起こりそうな度合(尤もらしい度合＝尤度)である。ここでの仮説は、データが従うと仮定したモデルである。データを統計的に分析する際は、しばしば標本データを用
been6 2014/07/14
相互情報量

自然言語処理

機械学習
リンク
相互情報量を用いた特徴選択 - 人工知能に関する断創録
20 Newsgroupsで分類精度を評価（2010/6/18）のつづきです。今回は、特徴選択に挑戦してみようと思います。テキスト分類における特徴とは基本的に単語のことです。特徴選択前回、ナイーブベイズの出力結果で documents: 11269, vocabularies: 53852, categories: 20 accuracy: 0.802265156562となってました。documentsは訓練データの総文書数、categoriesは訓練データのカテゴリ数、vocabulariesは訓練データの総単語数を表します。テキスト分類において53852個の単語を考慮していることを意味します。しかし、この単語の中には分類に寄与しないばかりかノイズになって逆に性能を悪化させるような単語が含まれていることがあります。たとえば、the, in, toなどのストップワードがその一例です。そ
been6 2014/07/14
特徴選択

機械学習

自然言語処理
リンク
Sakusaku svm
KDD2014勉強会: Large-Scale High-Precision Topic Modeling on Twitter
been6 2014/07/10
svm

自然言語処理

機械学習
リンク
Python GensimでLDAを使うための前準備・パッケージのインストール
ツイッターの男女判定(前回の記事)のために、LDAを使ったテキストマイニングがやりたくなった。そのインストール手順メモ。 LDA(Latent Dirichlet Allocations)を使うために現時点で一番簡単な方法は、pythonのgensimというパッケージを使う方法のようです。その手順を書きます。インストール前の注意事項 pythonに必要なパッケージ類は全部ソースからインストールしています。ソースからインストールしない方法もあるのですが、2013年4月時点では、pythonに詳しくないと難しいので全くおすすめしません。対象とするOSはAmazon Linuxです。 pythonはyumで使われてたりするので、システムのpythonのバージョンを変えると問題が起きます。なので、この記事ではpythonを特定の場所にインストールしています。 yumからインストールする系のパッ
been6 2014/06/03
“python2.7 setup.py install”

gensim

自然言語処理

Python
リンク
単語の頻度からLDAまでの流れの簡単なイメージのメモ - 唯物是真 @Scaled_Wurm
トピックモデルのLDA(Latent Dirichlet Allocation)が難しいって話をよく聞きますけど，詳しい理論的な部分はともかくどういう流れに位置するものかってのはわかりやすいので簡単にメモ．専門でないので，詳しくは参考文献を読んだほうがいいです．トピック同じ文書内で使われる確率が高いような似た意味を持つ単語の集まり．例えばスポーツトピックなら「野球」「サッカー」「ボール」が出やすい，など．トピックモデルは文書のトピックと，トピックに属する単語を推定する．単語頻度からトピックモデルまでの流れのイメージ文書をモデル化しよう→単語の頻度同義語や多義語を捉えよう≒次元削減をしよう→LSA＝SVD→以下がトピックモデル確率的にしよう→PLSI ベイズ的にしよう＝訓練データに登場しなかったものにも対応できる→LDA トピック数が自動で決まるようにしよう→ノンパラメトリ
been6 2014/05/12
トピックモデル

LDA

自然言語処理

機械学習
リンク
テキストからの評判分析と機械学習
テキストからの評判分析と機械学習鍜治伸裕東京大学生産技術研究所講演の前に • 想定している聴衆 – 評判分析について専門的なことを知らない – 機械学習（ML）の素養を持っている • 講演の内容 – 評判分析という分野の解説 – 評判分析における ML の適用事例の紹介 • お断り – 自然言語処理(NLP)の話に特化 – ML を使っている論文を私の好みで選んで紹介評判分析を概観する評判分析はこんな技術 • 例： Yahoo!ブログ検索における「VAIO」の検索結果肯定的評判と否定的評判の書き込み数を集計して表示肯定的な書き込みと否定的な書き込みを分類して提示背景: CGMの出現 • CGM – Consumer Generated Media のこと – 例えば Amazon に投稿されたレビューやブログなど – 一般人が作成，発信するコンテンツである点がポイン
been6 2013/10/25
自然言語処理

NLP

機械学習

LDA

トピックモデル
リンク
LDAを利用した、twitter上のユーザ類似度判定システム - risuo's blog
大学院で自然言語処理の研究をしつつ、ブログタイトルのようなものを趣味的にチマチマと作っていまいた。個人的になかなか面白い解析結果が出たと思ったのでご紹介します。目標：１．twitter上で、ある入力ユーザ（自分でなくてもよい）と興味の対象が似ているユーザを発見する２．興味あるトピックには、どういう単語が含まれているか発見する手法：１．１ユーザのツイート全体を１つの文書としてモデリングし、ＬＤＡで解析２．全てのユーザについて、トピック-ユーザの特徴ベクトルの距離を使って類似度を計算特徴：１．巷にあるソーシャルネットワーク系の解析でありがちな、ユーザ同士のリンク情報を全く使っていない２．トピックの次元は語彙の次元と比べてかなり小さい（1/(10^3)くらい）ので、単に単語の頻度を数えるのと比べて柔軟解析結果ですが、とりあえずpythonの処理系が動作する環境で確認できるよう
been6 2012/10/20
LDA

Python

トピックモデル

自然言語処理
リンク
1