男なら誰しも一度は「俺に落とせない女はいない」、的なことを言ってみたいと思うわけですが、どうやらそんなセリフを言う機会がありそうもないので、「俺に落とせないデータはない」くらいにスケールダウンかつハッカー感を出していければと思います。 というわけでタイトルにある通り、日本語のPDFからテキストを抽出する方法です。テキストマイニングに特化した{tm}パッケージを使います。 まず、通常の{tm}の挙動を見てから、日本語PDFへの応用例を示します。 library(tm) 🔧 tm::readPDF() の基本動作 PDFからR上にテキストを落とすreadPDF()の基本的な使い方です。 対象にするのは、欲しいなー誰か買ってくれないかなーと狙っている "Zero Inflated Models and Generalized Linear Mixed Models with R"の目次PDFに