タグ

自然言語処理に関するbeen6のブックマーク (16)

  • 双対分解による構造学習 - Preferred Networks Research & Development

    入力\(x\)から出力\(y\)への関数を学習する機械学習の中で、出力が構造を有している問題は構造学習(Structured Output Learning)と呼ばれ、自然言語処理をはじめ、検索のランキング学習、画像解析、行動分析など多くの分野でみられます。 今回はその中でも複数の構造情報を組み合わせても効率的に学習・推論ができる双対分解による構造学習について紹介をします。 # 構造学習についてよく知っているという方は双対分解による構造学習のところまで読み飛ばしてください。 構造学習の導入 構造を有した出力の例として、 ラベル列 (品詞、形態素列の推定、時系列におけるアクションの推定、センサ列) 木    (係り受け解析における係り受け木、構文解析木、談話分析、因果分析) グラフ  (DAG:述語項構造による意味解析 二部グラフマッチング:機械翻訳の単語対応) 順位付集合(検索における順位

    双対分解による構造学習 - Preferred Networks Research & Development
  • #TokyoNLP で「∞-gram を使った短文言語判定」を発表しました - 木曜不足

    TokyoNLP 第8回に のこのこ参加。主催者の id:nokuno さん、発表者&参加者のみなさん、そして会場を提供してくださった EC ナビさん改め VOYAGE GROUP さん& @ajiyoshi さん、お疲れ様でした&ありがとうございました。 今回は「∞-gram を使った短文言語判定」というネタを発表。「短文言語判定」って、要は「このツイートは何語?」ってこと。 こちらが資料。 ∞-gram を使った短文言語判定 View more presentations from Shuyo Nakatani そして実装したプロトタイプ ldig (Language Detection with Infinity-Gram) とモデル(小)はこちらで公開。 https://github.com/shuyo/ldig 言語判定とは「文章が何語で書かれているか」を当てるタスクで、以前一度

    #TokyoNLP で「∞-gram を使った短文言語判定」を発表しました - 木曜不足
  • 作って覚える転置インデックス、「検索エンジン自作入門」 - プログラマでありたい

    先行発売で、検索エンジン自作入門を購入しました。まだペラペラと眺めている状況ですが、これが非常に面白いです。 「検索エンジン自作入門」は、集めた文章をいかに整理するかをテーマとして扱っているです。整理するという意味は、検索エンジンを利用するというライフハック的な意味ではありません。整理する為の検索エンジン自体を自分で作ることで理解するという、極めて硬派なです。 「検索エンジン自作入門」とは? 「検索エンジン自作入門」は、未踏IT人材発掘・育成事業にスーパークリエータに認定された山田浩之氏と、Senna/groongaの開発者の末永匡氏の共著です。検索エンジンについて語らせたら、日でこれ以上の人たちはいないだろうという組み合わせです。ということで、内容は非常に濃いのですが、難しい内容を解りやすく解説されています。 一方で、扱っている内容は非常にマニアックです。下に目次付けておくので見て

    作って覚える転置インデックス、「検索エンジン自作入門」 - プログラマでありたい
  • 【 自然言語処理 】word2vec の次は、Paragraph2vec(Mikolov氏論文)~ Google発の実装ソース・コード公開は未定 だが、第3者が実装したライブラリのソースコード が Github に 公開されているのを見つけた - Qiita

    Mikolov 氏 ほか 共著 論文 "Distributed Representations of Sentences and Documents" ( リンク ) Stanford.edu ウェブサイト 上記 論文を実装したコードは、まだ公式にリリースされていない(はず・・・調べてきた限り) しかし、Mikolov 氏は、Google退職して、Facebook に移籍したもよう・・・ ( Mikolov 氏 の LinkedIn トップページ ) 権利の関係とモチベーションの関係上、Mikolov 氏は、paragrah2vec の実装に取り組むのだろうか??? そのような(若干?)宙ぶらりん状態のいま、paragraph2vec 論文を独自に実装した(と思われる)下記のコードが目を引きます 1. klb3713 氏 による sentence2vec ( GitHub へのリンク

    【 自然言語処理 】word2vec の次は、Paragraph2vec(Mikolov氏論文)~ Google発の実装ソース・コード公開は未定 だが、第3者が実装したライブラリのソースコード が Github に 公開されているのを見つけた - Qiita
  • 文書分類メモ - Negative/Positive Thinking

    はじめに 文書分類マスターを目指して修行の旅に出るために必要そうな知識を、ざっとメモしておく。(かなり雑だけど・・・) 文書分類とは テキスト分類、Text Classification あらかじめ決められたカテゴリ集合に基づき、与えられた文書に適切なカテゴリを付与する事 排他的分類 : 1つのテキストにカテゴリを1つだけ付与される場合 マルチラベル分類 : 1つのテキストに複数のカテゴリ付与を許す場合 基的には、目的の分類をどのような分類手法に落とし込むか?を考えることになる 主なアプローチとして、以下のような流れで処理する(教師あり分類) 学習データから素性(なんらかの特徴)を抽出し、それらの規則を見つけだす 規則に基づく分類モデルを作成 未知の文書に対して素性を抽出したものにモデルを適用し、分類結果を返す 利用例 内容に関する分類 ニュースジャンル分類 SPAMフィルタ 属性に関す

    文書分類メモ - Negative/Positive Thinking
  • ニューラルネットによる単語のベクトル表現の学習 〜 Twitterのデータでword2vecしてみた - 病みつきエンジニアブログ

    最近にわかにword2vecが流行っています。ので、乗っかってみました的記事です。 理論に関してはあまり詳しくしらないので、印象だけで語っているかもしれません。何かありましたらTwitterかコメント等でご指摘いただけますと幸いです。 ちなみに、失敗した話が多いです。 word2vecと単語のベクトル表現 word2vecは、機械学習の分野で使われる、ニューラルネットというモデルを使ったツール/ライブラリです*1。名前の通り、wordをvectorにします。vectorにする、というのは、ベクトル表現を獲得するということで、意味(みたいなもの)の獲得というか、素性の獲得というか。 単語のベクトル表現の獲得自体は、別にword2vecにしかないわけではありません。言い換えると、昔からあります。LDAを使って単語のトピック分布のようなものを学習したり(vingowでやりました)。余談ですが、こ

    ニューラルネットによる単語のベクトル表現の学習 〜 Twitterのデータでword2vecしてみた - 病みつきエンジニアブログ
  • 言語処理学会第20回年次大会(NLP2014) プログラム

    会場情報 会場: 北海道大学大学院工学研究院・大学院工学院・工学部 所在地:〒060-8628 北海道札幌市北区北13条西8丁目 アクセスは以下のHPをご覧下さい. http://www.eng.hokudai.ac.jp/access/ 旅程について 年次大会開催時期は,悪天候による航空機の欠航の可能性がありますので,大会参加日の当日現地入り予定の方は,可能であれば前日に札幌に来られることをお勧め致します. 無線インターネットアクセスについて 年次大会期間中は,eduroam (http://www.eduroam.jp/) による無線LANが利用可能です. eduroamに参加機関の皆様は,事前に,所属機関でeduroamのIDを取得することで,今回の会期期間中だけでなく,参加機関に出張の際などに,無線LANの利用が可能になります. eduroam参加機関の一覧 (http://www

    been6
    been6 2014/07/15
    研究テーマ
  • Argmax Operations in NLP

    最先端NLP勉強会�“Learning Language Games through Interaction”�Sida I. Wang, Percy L...Yuya Unno

    Argmax Operations in NLP
  • 言語情報処理 用語集

    あ行 アーリーアルゴリズム (Earley algorithm) 文脈自由文法に基づく構文解析アルゴリズム。ある非終端記号の直後に現われ得る終端記号を事前に予測することによって解析効率を改善している点が特徴。 IIS (Improved Iterative Scaling algorithm) 最大エントロピー法のパラメタを学習するアルゴリズム。 合図句 (cue phrase) →「手がかり句」 曖昧性 (ambiguity) 自然言語処理では、複数の解析結果が得られることを曖昧性があるという。例えば複数の語義がある場合は語義(選択)に曖昧性があるといい、かかり受け解析において複数の可能性がある場合は、かかり受けに曖昧性があるという。曖昧性は様々な処理レベルで存在し、曖昧性解消(ambiguity resolution, disambiguation)は自然言語処理の真髄とも言われる。

    been6
    been6 2014/07/14
    相互情報量
  • 統計的テキスト解析(9)~テキストにおける情報量~

    データが、ある母集団から得られる確率を尤度(ゆうど,Likelihood)と呼ぶ。1枚のコインを100回投げた結果、{表}が48回現れたとする。もし、各面が現れる確率が1/2であることがわかっていれば、48/100≒0.5であるから、{表}が現れる尤度は1/2になる。しかし、ゆがみがあるコインの場合は、ゆがみに関する規則(あるいは関数)を考えることが必要である。ゆがみがあるコインの各面が現れる確率を左右する要因をθとすると、尤度はθの関数である。θをパラメータと呼ぶ。ポアソン分布の場合はλ、正規分布の場合はμ,ρがパラメータθである。 確率は、母集団において事象が起こる率であり、尤度は、標データと仮説のもとで得られた、事象が母集団で起こりそうな度合(尤もらしい度合=尤度)である。ここでの仮説は、データが従うと仮定したモデルである。 データを統計的に分析する際は、しばしば標データを用

    been6
    been6 2014/07/14
  • 相互情報量を用いた特徴選択 - 人工知能に関する断創録

    20 Newsgroupsで分類精度を評価(2010/6/18)のつづきです。今回は、特徴選択に挑戦してみようと思います。テキスト分類における特徴とは基的に単語のことです。 特徴選択 前回、ナイーブベイズの出力結果で documents: 11269, vocabularies: 53852, categories: 20 accuracy: 0.802265156562となってました。documentsは訓練データの総文書数、categoriesは訓練データのカテゴリ数、vocabulariesは訓練データの総単語数を表します。テキスト分類において53852個の単語を考慮していることを意味します。しかし、この単語の中には分類に寄与しないばかりかノイズになって逆に性能を悪化させるような単語が含まれていることがあります。たとえば、the, in, toなどのストップワードがその一例です。そ

    相互情報量を用いた特徴選択 - 人工知能に関する断創録
  • Sakusaku svm

    KDD2014勉強会: Large-Scale High-Precision Topic Modeling on Twitter

    Sakusaku svm
  • Python GensimでLDAを使うための前準備・パッケージのインストール

    ツイッターの男女判定(前回の記事)のために、LDAを使ったテキストマイニングがやりたくなった。そのインストール手順メモ。 LDA(Latent Dirichlet Allocations)を使うために現時点で一番簡単な方法は、pythonのgensimというパッケージを使う方法のようです。その手順を書きます。 インストール前の注意事項 pythonに必要なパッケージ類は全部ソースからインストールしています。 ソースからインストールしない方法もあるのですが、2013年4月時点では、pythonに詳しくないと難しいので全くおすすめしません。対象とするOSはAmazon Linuxです。 pythonはyumで使われてたりするので、システムのpythonのバージョンを変えると問題が起きます。なので、この記事ではpythonを特定の場所にインストールしています。 yumからインストールする系のパッ

    been6
    been6 2014/06/03
    “python2.7 setup.py install”
  • 単語の頻度からLDAまでの流れの簡単なイメージのメモ - 唯物是真 @Scaled_Wurm

    トピックモデルのLDA(Latent Dirichlet Allocation)が難しいって話をよく聞きますけど,詳しい理論的な部分はともかくどういう流れに位置するものかってのはわかりやすいので簡単にメモ. 専門でないので,詳しくは参考文献を読んだほうがいいです. トピック 同じ文書内で使われる確率が高いような似た意味を持つ単語の集まり. 例えばスポーツトピックなら「野球」「サッカー」「ボール」が出やすい,など. トピックモデルは文書のトピックと,トピックに属する単語を推定する. 単語頻度からトピックモデルまでの流れのイメージ 文書をモデル化しよう→単語の頻度 同義語や多義語を捉えよう≒次元削減をしよう→LSA=SVD→以下がトピックモデル 確率的にしよう→PLSI ベイズ的にしよう=訓練データに登場しなかったものにも対応できる→LDA トピック数が自動で決まるようにしよう→ノンパラメトリ

    単語の頻度からLDAまでの流れの簡単なイメージのメモ - 唯物是真 @Scaled_Wurm
  • テキストからの評判分析と 機械学習

    テキストからの評判分析と 機械学習 鍜治伸裕 東京大学 生産技術研究所 講演の前に • 想定している聴衆 – 評判分析について専門的なことを知らない – 機械学習(ML)の素養を持っている • 講演の内容 – 評判分析という分野の解説 – 評判分析における ML の適用事例の紹介 • お断り – 自然言語処理(NLP)の話に特化 – ML を使っている論文を私の好みで選んで紹介 評判分析を概観する 評判分析はこんな技術 • 例: Yahoo!ブログ検索における「VAIO」の検索結果 肯定的評判と否定的評判の 書き込み数を集計して表示 肯定的な書き込みと否定的 な書き込みを分類して提示 背景: CGMの出現 • CGM – Consumer Generated Media のこと – 例えば Amazon に投稿されたレビューやブログなど – 一般人が作成,発信するコンテンツである点がポイン

  • LDAを利用した、twitter上のユーザ類似度判定システム - risuo's blog

    大学院で自然言語処理の研究をしつつ、ブログタイトルのようなものを趣味的にチマチマと作っていまいた。個人的になかなか面白い解析結果が出たと思ったのでご紹介します。 目標: 1.twitter上で、ある入力ユーザ(自分でなくてもよい)と興味の対象が似ているユーザを発見する 2.興味あるトピックには、どういう単語が含まれているか発見する 手法: 1.1ユーザのツイート全体を1つの文書としてモデリングし、LDAで解析 2.全てのユーザについて、トピック-ユーザの特徴ベクトルの距離を使って類似度を計算 特徴: 1.巷にあるソーシャルネットワーク系の解析でありがちな、ユーザ同士のリンク情報を全く使っていない 2.トピックの次元は語彙の次元と比べてかなり小さい(1/(10^3)くらい)ので、単に単語の頻度を数えるのと比べて柔軟 解析結果ですが、とりあえずpythonの処理系が動作する環境で確認できるよう

    LDAを利用した、twitter上のユーザ類似度判定システム - risuo's blog
  • 1