エントリーの編集
エントリーの編集は全ユーザーに共通の機能です。
必ずガイドラインを一読の上ご利用ください。
[python] PDFminer+scikit-learn で自動pdf分類
記事へのコメント0件
- 注目コメント
- 新着コメント
このエントリーにコメントしてみましょう。
注目コメント算出アルゴリズムの一部にLINEヤフー株式会社の「建設的コメント順位付けモデルAPI」を使用しています
- バナー広告なし
- ミュート機能あり
- ダークモード搭載
関連記事
[python] PDFminer+scikit-learn で自動pdf分類
ラボでscikit-learnもくもく会をやった時にやってみました。 やりたいこと ・論文が溜まってくると、管... ラボでscikit-learnもくもく会をやった時にやってみました。 やりたいこと ・論文が溜まってくると、管理や分類がめんどくさい ・似たような論文を勝手に判別してくれると楽だなあ ・クラスタリングだ! 処理の流れ input: 英語の論文pdf output: クラスタリングした結果 ということで、 1、まずpdfをtxtにする -> pythonライブラリのPDFminerを使う。python < 3.0 2、txtにした論文を特徴ベクトルに変換 -> Bag-of-words 3、次元削減 -> 潜在意味解析(LSA) 4、クラスタリングする -> k-means をします。 1, pdf to txt PDFminerをインストールします。参考サイト様 ディレクトリにあるpdfをバリバリ変換します。stackflowより 以下コピペの塊ですがコード #pdf2txt_conver