[B! pdf] ytackyのブックマーク

ytacky id:ytacky

pdfに関するytackyのブックマーク (2)

ローカルのPDFを全文検索するクライアント/サーバ/Electronアプリを書いた
ローカルにあるPDFを全部検索して、その結果を一覧したいことがあります。例えば、今、js-primerという書籍を書いていて、ある用語が他の書籍ではどんな扱い/用語になっているのかを調べたいことがよくありました。この手のアプリとしては論文管理のPapers for Macなどがありますが、検索したいだけなのに色々な機能がついていてまた、とりあえず作ってみることにしました。 searchiveというプロジェクト名にしてPDFからテキストを取り出す所やフロントエンドのElectronアプリ、PDFからテキストを取り出すのはブラウザでやるには遅いので、そこをサーバ側でやってくれる仕組みを作りました。大体100冊ぐらいをインデックスに入れて検索していますが、数百ms以内に検索結果が出てるので意外と動くようです。インストール Release pageからElectronアプリをダウンロードし
ytacky 2021/07/13
pdf
リンク
xpdfを使ってPDFから日本語抽出 | akkunchoi@github
環境はMacOSX, homebrewです。 homebrewでxpdfをインストールする。 $ brew install xpdf 動作確認。 $ pdftotext hoge.pdf 日本語が含まれる場合、このようなエラーが出る。 Error: Unknown character collection 'Adobe-Japan1' 調べてみると日本語用の設定が必要なようだ。 xpdfのサイトからLanguage Support Packagesの xpdf-japanese.tar.gz をダウンロード。解凍したものを /usr/local/share/xpdf/japanese に配置する。 /usr/local/etc/xpdfrc に add-to-xpdfrc の内容を追記する。ここまでだと、エラーはなくなるが、日本語が読み飛ばされる。textEncoding設定のコメント
ytacky 2018/11/29
pdf
リンク
1

お知らせ

もっと読む

公式Twitter

@HatenaBookmark
リリース、障害情報などのサービスのお知らせ
@hatebu
最新の人気エントリーの配信

キーボードショートカット一覧

j次のブックマーク

k前のブックマーク

lあとで読む

eコメント一覧を開く

oページを開く

設定を変更しましたx