タグ

PDFに関するatm_09_tdのブックマーク (72)

  • How to Translate a PDF File Into Any Language

    If you have a PDF file in a foreign language, or if you need to send a PDF to someone in another language, here's how you translate them. Whether you’re a researcher who wants to dig into a topic or work with foreigners, you might want to translate a PDF into another language. While translating text files is quite simple, PDFs can get a bit trickier. This is especially true if you want to translat

    How to Translate a PDF File Into Any Language
  • Google Cloud Vision API でPDFからEPUBを作成してみた | DevelopersIO

    Google Cloud Vision API を使って、PDFから文字を抽出し、簡易的なEPUB を作成してみました 西田@大阪@MAD事業部です。 エントリは クラスメソッド Google Cloud Advent Calendar 2021 の 15日目 の記事です。 今回は Google Cloud Vision API を使って、PDFから文字を抽出し、簡易的なEPUB を作成してみました Cloud Vision APIとは Cloud Vision API機械学習の知識がなくても、簡単に画像の解析が可能でサービスです。画像、PDF/TIFF からテキストを抽出したり(OCR)、ランドマーク検出、顔検出などができます。 参考: 機能リスト | Cloud Vision API | Google Cloud 構成 Input 用の Cloud Storage に PDFファ

    Google Cloud Vision API でPDFからEPUBを作成してみた | DevelopersIO
  • GoFPDF - GoでPDFを出力するならば使おう

    MOONGIFTはオープンソース・ソフトウェアを紹介するブログです。2021年07月16日で更新停止しました システム開発でPDFを生成する場面は少なくありません。特に業務システムに関わっていると避けては通れないでしょう。最近ではWebブラウザのPDF印刷機能を使ったりもしますが、描画を細かく制御するならサーバ側で出力すべきです。 今回紹介するGoFPDFGo製のPDF生成ライブラリです。多機能なのが特徴となっています。 GoFPDFの使い方 生成したPDFです。一例としてウォーターマークをサポートしています。 グラフ。温度を表示しています。 別なグラフ。 テンプレートを用意して、文字を置き換えながら出力できます。 インターネット上の画像も埋め込めます。 SVGを描画できます。 画像と段組。 GoFPDFは多言語に対応し、ドローや画像の埋め込みにも対応したPDFライブラリです。パスワード

    GoFPDF - GoでPDFを出力するならば使おう
  • Local PDF - クライアントサイドでPDFをマージ

    MOONGIFTはオープンソース・ソフトウェアを紹介するブログです。2021年07月16日で更新停止しました Webアプリケーションは便利ですが、サーバサイドで動く際には常にセキュリティに注意が必要です。一旦サーバに送られたデータは消されているかは分からず、容易にアップロードはできません。しかしローカルでのみ動作するWebアプリケーションなら安心して利用できます。 今回紹介するLocal PDFはローカルでのみ動作するWebアプリケーションです。PDFのマージを行います。 Local PDFの使い方 トップページです。 複数のPDFファイルをドロップします。 処理中… できあがったPDFはすべてのPDFが結合したものになります。 Local PDFWebAssemblyを使うことで高速に処理されます。そしてクライアントサイドでしか動作しませんので、セキュリティにも安心して利用できます。W

    Local PDF - クライアントサイドでPDFをマージ
  • pdf-translate-replacer - PDFのテキストをGoogle翻訳/DeepL翻訳する際のお供に MOONGIFT

  • 僕「PDFとは何か知りたい」 - Qiita

    追記情報 - (2020/11/7 18:30) @scivola さんのコメントに基づき、 ラスタースキャン、 ベクタースキャン、 ブラウン管 の説明を追加しました。 TL;DR PDFについて次のような内容を(私の好奇心の赴くままに)調べたので共有したいと思います。 「PostScript」とは? 高速ロードの仕組み フォント埋め込み 「PDFってどんなファイルなんだろう」 PDFを使ったこと無い人はいないと思います。 それほど、PDFは身近な存在となる一方で、その仕組みについて触れる機会はほとんどないと言っても過言ではないです。 何百ページにも渡るPDFで開いた時、ページ移動したときに、パッと表示されたりしますよね。 あれってなんでか知っていますか? 私はもちろん知りませんでした。 たまたま仕事PDFをあれこれいじるにあたって、仕様がわかってないこともあり、なかなかうまくいかず

    僕「PDFとは何か知りたい」 - Qiita
  • プログラマーから見たPDFファイル - アンテナハウス PDF資料室

    更新日: 2020年8月14日 このページの目的 プログラマーは、クライアントから提供されたPDFファイルで、その要求を実現させようとしたとき、PDFのどんなところを見ているのでしょうか。このページでは、ちょっと珍しい視点でPDFファイルを解き明かしていきます。 自分でプログラムを書いてPDFファイルからテキストデータを取り出したいという人も、ぜひご一読ください。 はじめに PDFファイルをクリックすると、あたかも紙に印刷したかのように、どんなマシンでも同じような見た目で文章や画像がディスプレイに表示されます。 この単純な事実は、日常的にPDFファイルを利用していると当たり前に感じられるかもしれません。しかし、よくよく考えると驚くべきことです。 いったい、どのような仕組みがあれば、「過去から現在に至るさまざまな種類のコンピューターで見た目を変えずに同一の紙面を再現する」という目的を達成でき

    プログラマーから見たPDFファイル - アンテナハウス PDF資料室
  • 【自動化】PDF内の表をPythonで抜き出す - Qiita

    PDFは扱いにくい PDFファイルをPythonで扱うのは大変です。 表がPDFの中に埋め込まれているケースも割とあります。 例えば 平成30年 全衛連ストレスチェックサービス実施結果報告書の中にはたくさんの表データが埋め込まれています。 例えばファイルの40ページの【表14 業種別高ストレス者の割合】を抜き出したいと思ったとします。 この表を選択して、Excelにコピペしてみましょう。 コピーして、Excelに貼り付けます。 おや?うまくいかないですね。 1つのセルの中に、全部のデータが羅列されてしまっています。 実はPythonを使ってこのPDF中の表を比較的簡単にcsvExcelに変換することができます。 PythonPDFの表をcsvPythonPDF内の表(テーブル)をcsvexcelに変換する手順は2ステップです。 ステップ1. PDFから表をpandasのData

    【自動化】PDF内の表をPythonで抜き出す - Qiita
  • MarkdownをPDFに変換する「md-to-pdf」は痒いところに手が届く素敵ツール | DevelopersIO

    Markdown to PDF Markdownで書きたいけど、PDFで出力したい という機会はエンジニアはよく出くわすと思います。 「Markdown to PDF」といえばGitBook CLIが有名ですが、こちらはメンテナンスがストップされているため推奨されません(環境依存による不具合などが解決されない)。 GitBookほど多機能でなくても良いですが、綺麗にいい感じに出力したい…!と探し回っていたところ md-to-pdf が最も私の要件に合致したので使ってみました。 そんな私の要件はこちら。 CLIから出力したい ページ内リンクが作れる ページ分割ができる ページ数表示が簡単にできる 全体に対して簡単にテーマをCSSで適用できる いざという時にはHTML+CSSでカスタマイズができる それに対して md-to-pdf は以下のような機能があります。 ディレクトリ内のMarkdow

    MarkdownをPDFに変換する「md-to-pdf」は痒いところに手が届く素敵ツール | DevelopersIO
  • Camelot - PDFからテーブル情報を抽出

    請求書などの帳票と自社システムを連携したいと考えることはよくあります。その際には送付されてくるPDFから情報を読み取って、データベースに入れたりします。しかし、PDFを解析するのは大変です。 そこで使ってみたいのがCamelotです。PDFからテーブル情報とデータを抜き出してくれるソフトウェアです。 Camelotの使い方 実行例です。CSVHTML、そしてExcel出力もできます。 日語も問題ありません。 CamelotはPythonから利用でき、CLIも用意されています。簡易的にはCLIでHTMLを出力するだけでも良いでしょうし、より自動化を進める際にはライブラリとして使えば良いでしょう。活躍の場が広そうなソフトウェアです。 CamelotはPython製のオープンソース・ソフトウェア(MIT License)です。 atlanhq/camelot: Camelot: PDF Ta

    Camelot - PDFからテーブル情報を抽出
  • "印刷してから手書き"はムダ! PDFに画面上でテキストを書き込めるツール4選

    申請書や申込書といったさまざまな書類の原紙が、PDFで提供されるのはもはや当たり前になりつつある。もっとも、それらを紙に印刷して手書きで記入し、再度スキャナなどでPDFに変換して返送するのは、二度手間以外の何物でもない。PDFのまま画面上でテキストを記入し、それを返送するのが正しいあり方だろう。 また、紙のまま提出する場合も、印刷前にPC上でテキストを記入できれば、手書きに比べて読みやすい上、住所や電話番号などの定形句を入力する場合はコピペで済ませることができる。転記や記入のミスを減らし、かつ労力も軽減できるとなれば一石二鳥だ。 今回はこうした、PDFに画面上でテキストを記入できるツールを、ソフト、サービスなど種類を問わず集めてみた。なお今回はPC上での作業に限定しており、スマホやタブレットで利用できるアプリは対象から省いているのでご了承いただきたい。 注釈として書き込むなら定番の「Acr

    "印刷してから手書き"はムダ! PDFに画面上でテキストを書き込めるツール4選
  • PDF-Reader - ページをめくる感覚のPDFリーダー

    MOONGIFTはオープンソース・ソフトウェアを紹介するブログです。2021年07月16日で更新停止しました PDFはビジネス以外の場面でも使われるようになっています。時に電子書籍であったり、マガジン、絵、説明書など様々なケースで見ることでしょう。iOSでは標準のPDFリーダーが組み込まれていますが、あまりに汎用的で面白みに欠けます。 そこで使ってみたいのがPDF-Readerです。電子書籍や電子雑誌に使うと良さそうなPDFリーダーです。 PDF-Readerの使い方 デモなので最初に幾つかのPDFファイルが表示されています。リモートファイルも扱えます。 PDFファイルを開きました。 ページめくりはカールしながら行われます。 実際の動きです。 PDF-Readerを使うと、より滑らかに実際の書籍に近い形で電子書籍を閲覧できるようになります。PDFファイルの種類を選ぶかも知れませんが、ぴっ

    PDF-Reader - ページをめくる感覚のPDFリーダー
  • Honyomi - Rubyで書かれたpdfの全文検索エンジン

    Honyomi HonyomiはRubyで書かれたpdfの全文検索エンジンです。大量のpdfをデータベースに登録して高速に検索することができます。 pdfリーダー、pdfビューワーといったソフトウェアを使わずにブラウザだけでpdf文書の検索や閲覧ができます。検索結果はページ単位で取得できるため目的のページをすぐに開けます。 個人の蔵書管理、社内文書データベース、リファレンスマニュアル検索などに使えます。 目次 最新情報 インストール マニュアル Webインターフェース コマンドライン デモ 読みの図書館

  • Apache PDFBoxライブラリを使ってPDF文書の表示(着手編) - torutkのブログ

    ときおり、PDF文書から任意のページを切り出したいということがあります。PDF文書を扱うのはAcrobat(≠Acrobat Reader)を購入するのが一番でしょうし、フリーのツールも多々存在しますが、ここはJavaでツールを作成してみたいと思います。 まず、第一歩としてPDF文書をページ単位でJavaで表示するPDFのビューアーを作成し、次にページを指定して切り出す機能を付けるという段階で進めていこうと考えました。 JavaからPDFを扱うオープンソースライブラリとしては、昔からの定番のiTextと、ApacheのPDFBoxが著名でしょうか。ぐぐっていると次のまとめページがありました。このページは分かりやすいです。 今どきのJavaPDFライブラリ まとめ (2014年版) | WEB ARCH LABO iTextは商用ライセンスとAffero GPLのデュアルライセンスです。A

    Apache PDFBoxライブラリを使ってPDF文書の表示(着手編) - torutkのブログ
  • 詳細PDF入門 ー 実装して学ぼう!PDFファイルの構造とその書き方読み方 - プログラムモグモグ

    PDFのファイル構造を理解すると、テキストエディタでも直接PDFファイルを作ることができるようになります。このエントリーではPDFファイルの基礎要素を説明し、簡単なPDFファイルを例にしてファイル構造を説明します。更に、テキストを渡すとPDFファイルを吐いてくれる簡単なプログラムや、PDFを読み込んで簡単な解析をするプログラムを書いてみます。 目次 目次 まえがき オブジェクト 間接参照 ファイル構造 Hello, world! ヘッダ トレーラ 相互参照テーブル PDFを生成するプログラム 日語の扱い方 日語を含むPDFを生成するプログラム グラフィックス PDFを読むプログラム あとがき まえがき 1990年代前半、アドビシステムズは、どのプラットフォームやデバイスでも文書を確実に表示・共有できることを目的としてPDFファイルフォーマットを開発しました。 PDFの表示ソフト

    詳細PDF入門 ー 実装して学ぼう!PDFファイルの構造とその書き方読み方 - プログラムモグモグ
  • PDFをKindle Paperwhite向けに史上最高レベルで変換してくれるk2pdfopt : NETBUFFALO

    Kindle を購入したら何をしたいと思いましたか? 勿論、Kindle 向けに電子化されたをストアで購入して読むのも楽しみでした。 ただ、僕が最初に期待したのは PDF 化された既存資産(電子書籍データ)を Kindle で読むことだったんです。 でも、これには少しがっかりしました。文字密度が高く、図・表も含まれ、場合によっては1ページに2カラムで記述される技術PDF資料(例えば論文)を読むのにKindleが適しているとは言い難い状況だったんです。 色々と試したんですが、PDFKindle向けに変換するツール・方法に銀の弾丸は無い、それが僕の結論でした・・・しかし、久しぶりに”PDF to Kindle”で感動するツールに出会いましたよ! それが今日ご紹介する k2pdfopt 。 複雑なPDF電子書籍Kindleで読むことの難しさ 詳しくは下記エントリに書きましたが、図・表の含

    PDFをKindle Paperwhite向けに史上最高レベルで変換してくれるk2pdfopt : NETBUFFALO
  • markdown-pdf - MarkdownをPDFに変換

    MOONGIFTはオープンソース・ソフトウェアを紹介するブログです。2021年07月16日で更新停止しました Markdownのシェアが増えるのに従って、とりあえずメモはMarkdownでしておくという人も多いでしょう。しかし業務で提出する資料や公開資料などはHTMLではなく、PDFベースでの提出を求められることが多いです。 Webブラウザに出して、それをPDFに変換しても良いですが、それならばmarkdown-pdfを使ってみましょう。markdown-pdfはその名の通り、MarkdownファイルをPDFに変換するソフトウェアです。 markdown-pdfの使い方 markdown-pdfはnpmを使ってインストールできます。 npm install -g markdown-pdf 使い方は以下の通りです。 $ markdown-pdf Usage: markdown-pdf [op

    markdown-pdf - MarkdownをPDFに変換
  • Linux とかで PDF を結合とか n-up とかするコマンドたち - polamjaggy

    我々大学生にとっては、授業資料持ち込み可とされた試験に持ち込む資料をいかに効率的に印刷するかということは死活問題であります。先日も、ある試験に Linux の man ページを厚さ 1cm ぶんほど持ち込もうとしていた人を見ました。 それはさておき、一見プロプラな何かが必要そうな PDF の編集も、単純なものであればコマンド一発で済ませることができます。大量の授業資料をガショッと印刷して、ライバルに差をつけちゃおう! 結合する % pdfunite hoge.pdf fuga.pdf piyo.pdf out.pdf とすると hoge, fuga, piyo の順で結合された奴が out.pdf として出現します。Arch では extra/poppler パッケージのコマンドでした。 また、 % pdfjoin hoge.pdf fuga.pdf piyo.pdf でも同じことができま

    Linux とかで PDF を結合とか n-up とかするコマンドたち - polamjaggy
  • MacでPDFを読んだり編集するときに役立つ最強アプリを5つ選びました。 | iTea4.0

    今回はMacPDFを読んだり、編集するときに役立つアプリを厳選して5つご紹介します! 使えそうなものがあれば、是非チェックしてみてください。

    MacでPDFを読んだり編集するときに役立つ最強アプリを5つ選びました。 | iTea4.0
  • もうWordはいらない。wkhtmltopdfで簡単PDF作成|TechRacho by BPS株式会社

    wkhtmltopdfはその名の通り、Webkitのレンダリングエンジンを用いて、HTMLPDFに変換するというソフトウェアです。 ちょっとしたドキュメントを作る際に、慣れしたんだHTML+CSSPDFを作れるとやっぱり楽ですね。 俺達はWordやExcelなんて使いたくないんだ。 環境 ubuntu 12.04でのお話です。 でもWinやMac用のものもあるので適宜置き換えてください。 インストール wget https://wkhtmltopdf.googlecode.com/files/wkhtmltopdf-0.11.0_rc1-static-amd64.tar.bz2 tar xvf wkhtmltopdf-0.11.0_rc1-static-amd64.tar.bz2 cp wkhtmltopdf-amd64 /usr/local/bin/wkhtmltopdf ubunt

    もうWordはいらない。wkhtmltopdfで簡単PDF作成|TechRacho by BPS株式会社