タグ

関連タグで絞り込む (0)

  • 関連タグはありません

タグの絞り込みを解除

pdfに関するytackyのブックマーク (2)

  • ローカルのPDFを全文検索するクライアント/サーバ/Electronアプリを書いた

    ローカルにあるPDFを全部検索して、その結果を一覧したいことがあります。 例えば、今、js-primerという書籍を書いていて、ある用語が他の書籍ではどんな扱い/用語になっているのかを調べたいことがよくありました。 この手のアプリとしては論文管理のPapers for Macなどがありますが、検索したいだけなのに色々な機能がついていてまた、とりあえず作ってみることにしました。 searchiveというプロジェクト名にしてPDFからテキストを取り出す所やフロントエンドのElectronアプリ、PDFからテキストを取り出すのはブラウザでやるには遅いので、そこをサーバ側でやってくれる仕組みを作りました。 大体100冊ぐらいをインデックスに入れて検索していますが、数百ms以内に検索結果が出てるので意外と動くようです。 インストール Release pageからElectronアプリをダウンロードし

    ローカルのPDFを全文検索するクライアント/サーバ/Electronアプリを書いた
    ytacky
    ytacky 2021/07/13
  • xpdfを使ってPDFから日本語抽出 | akkunchoi@github

    環境はMacOSX, homebrewです。 homebrewでxpdfをインストールする。 $ brew install xpdf 動作確認。 $ pdftotext hoge.pdf語が含まれる場合、このようなエラーが出る。 Error: Unknown character collection 'Adobe-Japan1' 調べてみると日語用の設定が必要なようだ。 xpdfのサイトからLanguage Support Packagesの xpdf-japanese.tar.gz をダウンロード。 解凍したものを /usr/local/share/xpdf/japanese に配置する。 /usr/local/etc/xpdfrc に add-to-xpdfrc の内容を追記する。 ここまでだと、エラーはなくなるが、日語が読み飛ばされる。textEncoding設定のコメント

    ytacky
    ytacky 2018/11/29
  • 1