タグ

nlpとProgrammingに関するhorihorioのブックマーク (4)

  • 📦{tm}パッケージで日本語のPDFからテキストを抽出する - cucumber flesh

    男なら誰しも一度は「俺に落とせない女はいない」、的なことを言ってみたいと思うわけですが、どうやらそんなセリフを言う機会がありそうもないので、「俺に落とせないデータはない」くらいにスケールダウンかつハッカー感を出していければと思います。 というわけでタイトルにある通り、日語のPDFからテキストを抽出する方法です。テキストマイニングに特化した{tm}パッケージを使います。 まず、通常の{tm}の挙動を見てから、日PDFへの応用例を示します。 library(tm) 🔧 tm::readPDF() の基動作 PDFからR上にテキストを落とすreadPDF()の基的な使い方です。 対象にするのは、欲しいなー誰か買ってくれないかなーと狙っている "Zero Inflated Models and Generalized Linear Mixed Models with R"の目次PDF

    📦{tm}パッケージで日本語のPDFからテキストを抽出する - cucumber flesh
  • Deep Learningの教材 - こんな夢を見た

    Deep Learningを勉強するにあたって内容がまとまっている教材についてリスト化しました。 無論ここに挙げたもの以外にも充実した教材は多数存在します。また、全てを読んだり観たりしたわけではありませんので、コメントは参考程度に考えてください。 (追記) ときどき追記/編集していきます。 (以下、一部敬称略) Bengio オンライン Yoshua Bengio, Ian Goodfellow and Aaron Courville http://www.iro.umontreal.ca/~bengioy/dlbook/version-07-08-2015/dlbook.html 現在Web上で閲覧可能。 いつか出版される。終盤はまだ執筆中。 これ一冊で根っこの理論はバッチリそう。天下のBengioさんなので情報の信頼性、網羅性、深みは高い。全部やると分量すごい。 Nielsen オン

    Deep Learningの教材 - こんな夢を見た
  • トピックモデルを利用したアプリケーションの作成 | Tech-Sketch

    最近、「機械学習」や「自然言語処理」、といったキーワードを聞くことが多くなってきていると思います。 反面、すごそうだけどなんだか難しいもの、というイメージもあるのではないかと思います。そこで、今回は「自然言語処理」の一種であるトピックモデルを取り上げ、その仕組みを紹介するとともに、その実装方法について解説していきたいと思います。 (「機械学習」の方については、以前開催した勉強会の資料がありますので、興味があればそちらもご参照ください。) トピックモデルとは トピックモデルは、確率モデルの一種になります。つまり、何かが「出現する確率」を推定しているわけです。 トピックモデルが推定しているのは、文章中の「単語が出現する確率」になります。これをうまく推定することができれば、似たような単語が出てくる文章(=似たようなモデルの文書)が把握でき、ニュース記事などのカテゴリ分類を行ったりすることができま

    トピックモデルを利用したアプリケーションの作成 | Tech-Sketch
  • 言語処理100本ノック - 東北大学 乾研究室 / Inui Lab, Tohoku University

    FrontPage / 言語処理100ノック 3 秒後に NLP 100 Drill Exercises に移動します。 (移動しない場合は、上のリンクをクリックしてください。) © Inui Laboratory 2010-2018 All rights reserved. 研究室紹介/About Us 過去に在籍したメンバー Members 研究室環境 Lab Facilities ↑研究会/Research Meetings 概要 Overview 総合研究会 Research Seminar 意味研究会 SIG Semantics 談話研究会 SIG Discourse 知識獲得研究会 SIG Knowledge Acquisition Embedding研究会 SIG Embedding KIAI Knowledge-Intensive Artificial Intellige

  • 1