タグ

NLPに関するbeen6のブックマーク (10)

  • 【 自然言語処理 】word2vec の次は、Paragraph2vec(Mikolov氏論文)~ Google発の実装ソース・コード公開は未定 だが、第3者が実装したライブラリのソースコード が Github に 公開されているのを見つけた - Qiita

    Mikolov 氏 ほか 共著 論文 "Distributed Representations of Sentences and Documents" ( リンク ) Stanford.edu ウェブサイト 上記 論文を実装したコードは、まだ公式にリリースされていない(はず・・・調べてきた限り) しかし、Mikolov 氏は、Google退職して、Facebook に移籍したもよう・・・ ( Mikolov 氏 の LinkedIn トップページ ) 権利の関係とモチベーションの関係上、Mikolov 氏は、paragrah2vec の実装に取り組むのだろうか??? そのような(若干?)宙ぶらりん状態のいま、paragraph2vec 論文を独自に実装した(と思われる)下記のコードが目を引きます 1. klb3713 氏 による sentence2vec ( GitHub へのリンク

    【 自然言語処理 】word2vec の次は、Paragraph2vec(Mikolov氏論文)~ Google発の実装ソース・コード公開は未定 だが、第3者が実装したライブラリのソースコード が Github に 公開されているのを見つけた - Qiita
  • 文書分類メモ - Negative/Positive Thinking

    はじめに 文書分類マスターを目指して修行の旅に出るために必要そうな知識を、ざっとメモしておく。(かなり雑だけど・・・) 文書分類とは テキスト分類、Text Classification あらかじめ決められたカテゴリ集合に基づき、与えられた文書に適切なカテゴリを付与する事 排他的分類 : 1つのテキストにカテゴリを1つだけ付与される場合 マルチラベル分類 : 1つのテキストに複数のカテゴリ付与を許す場合 基的には、目的の分類をどのような分類手法に落とし込むか?を考えることになる 主なアプローチとして、以下のような流れで処理する(教師あり分類) 学習データから素性(なんらかの特徴)を抽出し、それらの規則を見つけだす 規則に基づく分類モデルを作成 未知の文書に対して素性を抽出したものにモデルを適用し、分類結果を返す 利用例 内容に関する分類 ニュースジャンル分類 SPAMフィルタ 属性に関す

    文書分類メモ - Negative/Positive Thinking
  • 言語処理学会第20回年次大会(NLP2014) プログラム

    会場情報 会場: 北海道大学大学院工学研究院・大学院工学院・工学部 所在地:〒060-8628 北海道札幌市北区北13条西8丁目 アクセスは以下のHPをご覧下さい. http://www.eng.hokudai.ac.jp/access/ 旅程について 年次大会開催時期は,悪天候による航空機の欠航の可能性がありますので,大会参加日の当日現地入り予定の方は,可能であれば前日に札幌に来られることをお勧め致します. 無線インターネットアクセスについて 年次大会期間中は,eduroam (http://www.eduroam.jp/) による無線LANが利用可能です. eduroamに参加機関の皆様は,事前に,所属機関でeduroamのIDを取得することで,今回の会期期間中だけでなく,参加機関に出張の際などに,無線LANの利用が可能になります. eduroam参加機関の一覧 (http://www

    been6
    been6 2014/07/15
    研究テーマ
  • Argmax Operations in NLP

    1. 自然言語処理における argmax 操作 NISHIKAWA Hitoshi NISHIKAWA Hitoshi 2011/07/23 DSIRNLP #1 1 2. 目的 • NLP タスクの全体像をご説明差し上げ、ご理解いた タ ク 全体像をご説 差 上げ ご理解 た だき、皆様の学習の一助とする – NLP とは何ぞや – 他の分野との関係 – 構成要素、 NLP の世界観 • NLP タスクのうち、特に argmax 操作(デコード)と呼 g ばれる操作についてお話差し上げ、モデル開発の 一助とする 2011/07/23 DSIRNLP #1 2 3. 目次 概 分 1. NLPの概要(10分) 1. 他分野との関係、 NLP の諸技術(5分) 他分野 関係、 諸技術( 分) 2. モデル、パラメタ、デコード(5分) 2. デコード(30分) 2 デコ ド(30分) 1. 近

    Argmax Operations in NLP
  • 特徴抽出と TF-IDF - Qiita

    今日は TF-IDF についてざっくりとまとめます。 特徴量と特徴抽出 TF-IDF は情報検索や文書推薦などで幅広く利用される特徴量の指標です。 特徴量 - 対象の特徴を表現する値 特徴抽出 - 対象から特徴量を取り出す 日語の特徴抽出 英語の場合はホワイトスペースで分割してから記号などを取り除くだけで特徴抽出できます。 日語の場合は形態素解析または N-Gram などの索引文字列抽出方法を利用します。 索引語頻度 TF (Term Frequency) ある文書 d の中に出現する索引語 t の頻度です。文書中にその単語が何回現れたかをあらわします。 単語 回数

    特徴抽出と TF-IDF - Qiita
    been6
    been6 2014/06/23
  • トピックモデルシリーズ 1 概要

    せっかく区切りがいいところまで勉強したのにoutputしないと忘れそうなので、メモを兼ねてしばらくトピックモデルについて記事を書きます。JAGSで実行したところ、そこそこ速いし収束もしました。しかしほとんど意味をなさないような幅広い推定結果になってしまいましたのでStanを使うことにしました。はじめにStanで実装するメリット・デメリットについて簡単に触れたいと思います。 メリット ・実装がラク。LDAでも30行ぐらい。 ・ややこしい推論部分は一切実装しなくてOK。全部StanのHMCサンプリングにお任せ。 ・モデルの拡張が簡単。 デメリット ・計算が遅い。文書x単語種類が1000x1500・総単語数12000のケースでは トピック数が20, iter=1000で9時間, iter=10000で35時間でした。Stanのmulti-threading対応待ち。 ・データが少ないと収束しない

  • jReadability PORTAL

    各システムの詳細は個別の説明ページをご覧ください。 ご質問やコメントがあれば Facebookグループ にご参加ください。 Japanese / English 日語文章難易度判定システム jReadability 日語文章のテキストを入力すると、その難易度を6段階で判定します。詳細な語彙情報を出力したり、テキストに含まれる語句の意味や用法を表示したりする機能もあります。

    jReadability PORTAL
    been6
    been6 2014/06/02
    難易度
  • Pystan for nlp

    13. LDA(latent dirichlet allocation) ● ● Stan code(manual 128 page) parameters { simplex[K] theta[M]; // topic dist for doc m simplex[V] phi[K]; // word dist for topic k } model { for (m in 1:M) theta[m] ~ dirichlet(alpha); // prior for (k in 1:K) phi[k] ~ dirichlet(beta); // prior for (n in 1:N) { real gamma[K]; for (k in 1:K) gamma[k]<-log(theta[doc[n],k]) +log(phi[k,w[n]]); increment_log_prob(l

    Pystan for nlp
  • Latent Dirichlet Allocation(LDA)を用いたニュース記事の分類 | SmartNews開発者ブログ

    株式会社ゴクロの中路です。 以前のベイズ分類をベースにしたSmartNewsのチャンネル判定で触れたように、SmartNewsで配信する記事を「スポーツ」「エンタメ」「コラム」のようなチャンネルに分類しているのは、人ではなく機械です。そのアルゴリズムとして前回ご紹介したのは「ナイーブベイズ分類器」ですが、記事の分類を行う手法は、他にも様々なものがあります。その中で今回はLatent Dirichlet Allocation(以下LDA)について、先日東京大学の博士課程の皆さんと、社内で合同勉強会を行った際に作成した資料をベースにご紹介します。 LDAでできることの例 前回ご紹介したナイーブベイズ分類器を構築する際には、すでにトピックのラベルが付けられた文章を、学習データとして用意する必要がありました。 一方、LDAの場合は、 東京でサッカー大会が開催された。xx選手のゴールが圧巻であった。

  • テキストからの評判分析と 機械学習

    テキストからの評判分析と 機械学習 鍜治伸裕 東京大学 生産技術研究所 講演の前に • 想定している聴衆 – 評判分析について専門的なことを知らない – 機械学習(ML)の素養を持っている • 講演の内容 – 評判分析という分野の解説 – 評判分析における ML の適用事例の紹介 • お断り – 自然言語処理(NLP)の話に特化 – ML を使っている論文を私の好みで選んで紹介 評判分析を概観する 評判分析はこんな技術 • 例: Yahoo!ブログ検索における「VAIO」の検索結果 肯定的評判と否定的評判の 書き込み数を集計して表示 肯定的な書き込みと否定的 な書き込みを分類して提示 背景: CGMの出現 • CGM – Consumer Generated Media のこと – 例えば Amazon に投稿されたレビューやブログなど – 一般人が作成,発信するコンテンツである点がポイン

  • 1