タグ

pdfに関するshoのブックマーク (23)

  • プログラマーから見たPDFファイル - アンテナハウス PDF資料室

    更新日: 2020年8月14日 このページの目的 プログラマーは、クライアントから提供されたPDFファイルで、その要求を実現させようとしたとき、PDFのどんなところを見ているのでしょうか。このページでは、ちょっと珍しい視点でPDFファイルを解き明かしていきます。 自分でプログラムを書いてPDFファイルからテキストデータを取り出したいという人も、ぜひご一読ください。 はじめに PDFファイルをクリックすると、あたかも紙に印刷したかのように、どんなマシンでも同じような見た目で文章や画像がディスプレイに表示されます。 この単純な事実は、日常的にPDFファイルを利用していると当たり前に感じられるかもしれません。しかし、よくよく考えると驚くべきことです。 いったい、どのような仕組みがあれば、「過去から現在に至るさまざまな種類のコンピューターで見た目を変えずに同一の紙面を再現する」という目的を達成でき

    プログラマーから見たPDFファイル - アンテナハウス PDF資料室
    sho
    sho 2020/08/15
    結論が「pdftotextを使え。以上」みたくなってて笑った。まぁそうだよねぇ……
  • ssig33.com - 縦書き PDF を楽に作成

    縦書き PDF の作成というのは意外とめんどくさくて、 Adobe 系のツールとかが必要だったりする。 これではいろいろ困るということでやり方を考えてみたところ、 nightmare を使うというのを考えた。 nightmare はページを PDF で保存する機能があるので、 CSS縦書き化したサイトをあれで PDF 保存すればいいのではないか。 というわけで http://ssig33-paste.herokuapp.com/658747593d31aeeaecd125a2011f478e のような感じのページを用意して、以下のような簡単なスクリプトを書いた。 package.json { "dependencies": { "nightmare": "2.0.9", "vo": "", } } app.js var Nightmare = require('nightmare');

    sho
    sho 2015/12/21
    jsで縦書きWebページをPDF化
  • 詳細PDF入門 ー 実装して学ぼう!PDFファイルの構造とその書き方読み方 - プログラムモグモグ

    PDFのファイル構造を理解すると、テキストエディタでも直接PDFファイルを作ることができるようになります。このエントリーではPDFファイルの基礎要素を説明し、簡単なPDFファイルを例にしてファイル構造を説明します。更に、テキストを渡すとPDFファイルを吐いてくれる簡単なプログラムや、PDFを読み込んで簡単な解析をするプログラムを書いてみます。 目次 目次 まえがき オブジェクト 間接参照 ファイル構造 Hello, world! ヘッダ トレーラ 相互参照テーブル PDFを生成するプログラム 日語の扱い方 日語を含むPDFを生成するプログラム グラフィックス PDFを読むプログラム あとがき まえがき 1990年代前半、アドビシステムズは、どのプラットフォームやデバイスでも文書を確実に表示・共有できることを目的としてPDFファイルフォーマットを開発しました。 PDFの表示ソフト

    詳細PDF入門 ー 実装して学ぼう!PDFファイルの構造とその書き方読み方 - プログラムモグモグ
    sho
    sho 2015/09/17
    なんだこの超絶グレートな資料は!?
  • Adobe、「Adobe Reader」後継の「Adobe Acrobat Reader DC」を公開

    Adobe、「Adobe Reader」後継の「Adobe Acrobat Reader DC」を公開
    sho
    sho 2015/04/08
    もうPDFはChromeでしか読まないのでどうでもいいや
  • PDFにタイトルと著者名を - Just another Ruby porter, 2014-11-a

    ■ 突然fitbitbluetoothが認識されなくなった 困ったなあ。充電開始してから全然同期が取れない。 bluetoothとして認識されない。 リセットってできるんかな。あった。 Help article: How do I restart my tracker? チャージしながら10-12秒長押しして外してまた長押ししてスタートさせてみる。 おお、見事に復活した。 ■ AOL Readerのフィード登録用URL RSS Add to Page Buttonsというページを発見したので、 さっそく http://feeds.my.aol.com/add.jsp?url=%s で試したみたがだめだった。 そもそも普通に+を押して進めてもやたらと失敗するしで困ったもんだ。 結局 https://reader.aol.com/#subscription/%s でよさげ。失敗しても再表示で

    sho
    sho 2014/11/07
    exiftoolでPDFのメタ情報も読み書きできる。Debianだとlibimage-exiftool-perl
  • sort -uの挙動 - jarp,

    PDFの綴じ方を右に Acrobatだとプロパティの詳細設定に読み上げオプションってのがあって、 綴じ方を右にできる。が、これは数が多いとやってらんない。 ぐぐってみると/ViewerPreferences<</Direction/R2L>>を追加すればいいらしいので、 % sed -i~ 's,/Type \?/Catalog,&/ViewerPreferences<</Direction/R2L>>,' foo.pdf としてみたが、どうにも壊れたPDFになったしまう。試しにこの壊れてるPDFを % pdftk foo.pdf output foo-fixed.pdf としてみたらきれいなPDFになった。とりあえず、これでいいか。 ■ pdfsam pdftkできれいになったのは偶然のようで、 いろいろ試すと右綴じ指定が消えることのほうが多かった。 そこでちゃんとしたツールを探して

    sho
    sho 2014/10/15
    PDFを右綴じにするのにpdfsamというツールが使える
  • OSを64ビット版Windowsに変えたらPDFのサムネイルが非表示に――その解決法は

    近年発売しているWindows(7以降)は、従来の32ビット版に加えて64ビット版も用意している。64ビット版は32ビット版に比べて動作が高速になり、また多くのメモリを搭載できるとあって、PCを快適に使いたい人にとってはこの上ない選択肢である。 もっとも、32ビット版では問題なくできていたにもかかわらず、64ビット版ではいまだ挙動が完全でないケースも一部に見られる。例えばPDFでは、64ビット版ではエクスプローラでPDFのサムネイルが表示できない。これまで32ビット版であればサムネイルを見れば1ページ目の内容がおおむね把握できていたのが、64ビット版では今のところそれができないのである。 これを解決するには「Adobe PDF iFilter 64」というソフトをインストールしてやるとよい。もともとはPDFファイルの全文検索機能を利用するためのソフトなのだが、これが入っていれば、64ビット

    OSを64ビット版Windowsに変えたらPDFのサムネイルが非表示に――その解決法は
    sho
    sho 2013/12/02
    こういうことだったのか……
  • CubePDF Utility | PDF 結合・編集ソフト (無料)

    PDFの結合や並び替え等を直感的な操作で CubePDF Utility は、PDF のページ単位での結合や抽出、分割、一部ページの削除、 並び替え、回転等の編集作業をサムネイルを介して直感的に実行する事ができる PDF 編集ソフトです。 結合では、PDF ファイルに加えて PNG, JPEG, BMP, TIFF 等の画像ファイルも PDF ページとして一緒にまとめる事ができます。 その他、編集後の PDF ファイルに対して文書プロパティや各種セキュリティ設定を行う事も可能です。 直感的でわかりやすい CubePDF Utility は、PDF の結合、抽出、分割、一部ページの削除、並び替え、回転等のページ編集をグラフィカルに行う事ができます。 サムネイル表示で一目瞭然となっており、ページ順序の間違い等の編集ミスを削減する事が期待できます。 また、上部のボタン群は、多様な使用用途を想定し

    CubePDF Utility | PDF 結合・編集ソフト (無料)
    sho
    sho 2013/11/11
    軽いPDF編集ツールを探していたらGPL3で公開されていた。
  • 長沢 智治 \ Tomoharu Nagasawa on Twitter: "Visual Studio使っている人は自分たちのアドバンテージをよくご理解ください。取り残されてもしーらないっと。『Visual Studio 2012による継続的デリバリーのためのテスト』無償電子書籍。もちろん日本語 http://t.co/5RwGnYL3uW #tfsug"

    sho
    sho 2013/07/11
    「Visual Studio 2012 による 継続的デリバリのためのテスト」
  • Old and New Version of Adobe Reader Download - OldApps.com

    Windows 95 (Adobe Reader 5), 98, Me (Adobe Reader 6), 2000, XP, Vista, 7, 8

  • Origamiを使ってPDF中の画像を調整する

    ScanSnapで検索可能なPDFにしたとする。このとき、せっかくだから検索可能なまま画像の調整をしたくなる。だが、その種のことができるツールというのをどうもうまく探せない。いかにも何かありそうなものなのだけど。 それなら作ればよい。PDFを扱うライブラリはたくさんある。最終的にできるかどうかはともかくとして、ちょっと試すくらいならやりようがあるだろう。 そう思ってあれこれやっていたのが2010年12月くらいのこと。その当時の環境ではこれが意外にめんどうで途中までやりかけたものの放ってしまっていた。その時使っていたライブラリのバージョンが上がってリリース版が出たというのを先日知って、もう一度やってみることにした。すると意外にもこれが結構簡単にできてしまった。 当時でもPDFを扱うライブラリは簡単にいくつも見付かった。代表的なのはPDF::WriterやPrawn。その他のいくつかのライブラ

  • FreeMyPDF.com - Removes passwords from viewable PDFs

    You'll get a download dialog box, where you can save the unlocked PDF. YOU MAY NOT USE THIS SERVICE FOR ILLEGAL PURPOSES. See below for details. Use this site to remove passwords and restrictions (such as printing, copying text, etc.) from PDFs. Note: This only works for PDFs that you can open and read without any 3rd party plugins. PDFs that require a password to be viewed cannot be unlocked by t

  • PDFファイルをスマートフォンやeBookリーダーで読みやすいように再構築してくれる『Papercrop』 | ライフハッカー・ジャパン

    Windows/Linux:『Papercrop』は、スマートフォンやeBookリーダーの小さな画面でも読みやすいように、PDFファイルを再構築してくれる無料ユーティリティです。 PDFファイルの多くはマージンが大きすぎたり、カラムがたくさんありすぎて、小さい画面では読み辛く、指であちこち画面を揺らしながら読む、というハイテクなのか、アナログなのか理解できない状況に陥ることもしばしば...。 Papercropは、各ページのコンテンツの種類を読み取り、それぞれに合った大きさにページを作り替えてくれます。ブランクページにページ番号だけが大きく表示されているページがあっても、多くの場合、テキストのそれぞれのカラムにはそれ用のページが付与され、マージンを埋めるために拡大されたものが表示されます。 アウトプットされるファイルは完璧とは言い難いですが、Papercropにはカスタマイズオプションも数

    PDFファイルをスマートフォンやeBookリーダーで読みやすいように再構築してくれる『Papercrop』 | ライフハッカー・ジャパン
  • qpdf を使って PDF のパスワードを除去する - SmallStyle(2011-07-14)

    _ qpdf を使って PDF のパスワードを除去する 給与明細が PDF で送られてくるけど手元に保存しておくのにパスワードがついてると面倒なので,パスワードを除去した状態にしたいと思って,なんとかできないか探してみた.やり方は何種類かあるみたいだけど,OS X の環境では homebrew でインストールできるパッケージで簡単に使えそうな qpdf を利用してみることに.qpdf をインストールしたら以下のように実行する. $ qpdf --password=PASSWORD --decrypt input.pdf output.pdf これだけで,パスワードが除去された PDF にすることができる.なんともあっさりできるもんだ.

    sho
    sho 2011/07/20
  • オライリーのPDF書籍をePubに変換する - 今日もスミマセン。

    なんとなく日PDFをePub化することができたので、その手順をメモっとく。ただし、以下の方法ソースをベタでイジるので万人にはおすすめできない。 大まかな手順は、 Calibre最新版をインストール Calibreの最新ソースを落としてくる poppler(pdftohtmlコマンドが含まれている)の最新版を落としてくる xpdf-japanese 言語サポートパッケージを用意する Calibreのソースを改変、無理やり日語対応させる という感じ 環境は、Mac OS X Snow Leopard 10.6.7 以下、手順の詳細 Calibre最新版をインストール 以下から最新版をダウンロード/インストールする。 calibre - E-book management このときのバージョンは $ calibre --version calibre (calibre 0.7.55) Ca

    オライリーのPDF書籍をePubに変換する - 今日もスミマセン。
    sho
    sho 2011/05/05
    おっ、と思ったけど、処理結果を見た限りではちょっと無理があるなぁ。
  • days of speed(2011-02-01)ファイルサイズの大きなPDFを最適化する

    この記事は1年以上前の古い記事です。現状に即していない記述の場合があります。あらかじめご了承ください。 _ ここんとこ、ひょうごんテック関係のチラシやらポスターやらをInkscapeで作っ てるわけですが、作成したPDFを送ったところ「ファイルサイズが大きすぎるの でなんとかなりませんか」と連絡が。 送ったファイルを見てみるとPDFなのに6MB〜8MBの大きさ。InkscapeのPDF書き出しって、 こんなサイズが大きくなったっけ? 基的に文字と写真の切り貼りなので、そんなにサイズは大きくならないはずなのにおかしい。 けど、そうは言ってられないのでLinux上でPDFを最適化する方法を探してみた。 ということでググってみたら、Ghostscriptを使うとPDFの最適化ができるそう。 ネタ元 Ubuntu Tip:Howto reduce PDF file size from comma

    sho
    sho 2011/02/03
  • PDFを小型電子書籍デバイス向けに整形する「PaperCrop」

    PaperCropはPDFファイルを区切って小さなデバイスでの可読性をあげる。 [/s2If] PaperCropはWindows用のオープンソース・ソフトウェア。電子書籍を閲覧するためのデバイスが増えてきた。従来で言えば携帯電話でも読めるし、スマートフォン、iPadKindleその他のデバイスでも閲覧が可能だ。iPadくらいの画面サイズであればA4のPDFでも概ね問題ない。 処理中の画面 だが小型デバイスを求める人にとって、大きなPDFファイルを閲覧するのはとても大変だ。ズームして左右に移動して次のページへ…では読みづらくて仕方がない。そこで予め整形してしまうのがPaperCropの役目だ。 PaperCropを立ち上げ、PDFファイルを読み込むと自動的にテキストの配置を認識する。そのCropと呼ばれる単位が新しいページになる。つまり段組みされているページであれば、1/2、1/4にして

    sho
    sho 2010/11/22
  • papercrop - Project Hosting on Google Code

    Code Archive Skip to content Google About Google Privacy Terms

    sho
    sho 2010/11/21
  • WebKitを使ったHTML2PDF·wkhtmltopdf MOONGIFT

    Safariではレンダリングエンジンとして、WebKitが採用されている。iPhoneAndroid、Palmといったモバイル機器やAdobe AIRでもWebKitをレンダリングエンジンとしており、そのシェアは拡大中だ。高速なレンダリングが可能であり、何よりオープンソースだ。 WebKitを使ったHTML2PDF そんなWebKitを使ってWebページをPDFに変換してくれるのがwkhtmltopdfだ。 今回紹介するオープンソース・ソフトウェアはwkhtmltopdf、Windowsで使えるHTML2PDFだ。 wkhtmltopdfはコマンドラインで使うソフトウェアで、URLやHTMLファイルを渡すと、それをWebKitでレンダリングした結果をPDFファイルとして保存する。日語も利用可能だ。オプションがとにかく多彩に用意されている。 オプションが多彩 表示に関するオプションの他、

    WebKitを使ったHTML2PDF·wkhtmltopdf MOONGIFT
  • PDFCrop

    What is PDFCrop? PDFCrop is a Perl script that crops the white margins of PDF pages and rescales them to fit a standard size sheet of paper. It makes the printed pages far more attractive to read! PDFCrop is particularly useful to academics who print downloaded journal articles and people who receive PDF documents designed for letter size paper, but need to print the pages on A4 paper (or vice ver

    sho
    sho 2010/11/11
    PDFをトリミングしてくれるPythonスクリプト? 試してみる。