タグ

関連タグで絞り込む (1)

タグの絞り込みを解除

textminingに関するsuslovmikhailのブックマーク (1)

  • PDFからテキストを抽出する - 人工知能に関する断創録

    自分が収集した論文データベースを対象にいろいろ言語処理してみようと考え中。そのためにはまずPDFファイルからテキスト部分を抽出できなくてはいけない。調べてみたところXpdfというツールが見つかったので使い方メモ。ソースコードからコンパイルもできるし、Windowsならバイナリもある。 以下、インストール手順。とりあえずxpdf-3.02.tar.gzと日PDF用の言語パックxpdf-japanese.tar.gzをダウンロードした。ソースコードからインストールする場合は、freetype2とt1libが必要なので入れておきインストール場所を確認しておく。うちのPCにはすでに /opt/local にインストールしてあった。 tar xvzf xpdf-3.02.tar.gz cd xpdf-3.02 ./configure --with-t1-library=/opt/local/li

    PDFからテキストを抽出する - 人工知能に関する断創録
  • 1