タグ

PDFに関するryskosnのブックマーク (21)

  • Pythonを用いたPDFデータからの情報抽出 / Extraction data from PDF using Python

    ■イベント 
:第54回情報科学若手の会 https://wakate.connpass.com/event/222829/ ■登壇概要 タイトル:Pythonを用いたPDFデータからの情報抽出 / Extraction data from PDF using Python 発表者: 
技術部 DSOC R&D研究員  青見 樹 ▼Twitter https://twitter.com/SansanRandD

    Pythonを用いたPDFデータからの情報抽出 / Extraction data from PDF using Python
    ryskosn
    ryskosn 2021/09/26
    PyMuPDF
  • CubePDF のメイン画面を非表示にする方法 - Cube Lilac

    CubePDF に対して、最も要望の多い機能の一つにメイン画面(ダイアログ)を非表示にしたいと言うものがあります。各種アプリケーションから CubePDF プリンターを選択して印刷ボタンを押すと、あらかじめ設定しておいた内容で自動的に変換処理を実行して欲しいと言う要望です。 この機能は、残念ながら CubePDF では実現できませんが(今後も、CubePDF としては追加する予定はありません)、カスタマイズ版 CubePDF と位置付けている CubeVP であれば実現可能です。先日、CubeVP に対して個人利用であれば無償で利用可能なライセンス を新設したので、ここでは CubeVP を用いて CubePDF のメイン画面を非表示にする方法を記載します。 CubeVP のインストール このチュートリアルを実行するには、CubeVP があらかじめインストールされている必要があります。Cu

    CubePDF のメイン画面を非表示にする方法 - Cube Lilac
    ryskosn
    ryskosn 2021/09/19
  • PdfSharpでPDFを結合する - Qiita

    記事は、自分サイトのこの記事と同一内容です。 はじめに PDFを結合するプログラムを日語で調べると、出てくる多くはiTextSharpを使う方法です。 これでもいいのですが、無料版のライセンスがAPGLであり商用ソフトを作る場合には支障をきたします。 そこで今回は、MITライセンスのpdfSharpを用いてPDFを結合してみます。 ※ライセンスの違いは以下の記事を参照 「オープンソースライセンス、どれなら使っても良いの??」@fate_shelled 準備 まずはC#のプロジェクトをvisual studioで作成します。 次にそのプロジェクトPdfSharpをインストールします。 1.プロジェクト > NuGet パッケージの管理を開く 2.検索欄に"pdfSharp"を入力する 3.右側"インストール"ボタンをクリックする コード実装 いよいよコードを実装します。 まずはライブラ

    PdfSharpでPDFを結合する - Qiita
    ryskosn
    ryskosn 2021/04/16
  • 白紙のPDF | 鯨井blog

    需要があるかは謎ですが,白紙のPDFを置いてみます。改造や再配布はご自由にどうぞ。 ※ B列は,日で一般的なのは「JIS」の方です。 A3縦 A3横 A4縦 A4横 A5縦 A5横 B4縦 (JIS) B4横 (JIS) B5縦 (JIS) B5横 (JIS) B4縦 (ISO) B4横 (ISO) B5縦 (ISO) B5横 (ISO) Letter縦 Letter横 これらが必要になる場面としては例えば,「幾人かの原稿をまとめて一つのPDFにしたいのだけど,各人の1ページめは必ず奇数ページにこないといけない」ような状況を想定しています。花子さんの原稿が3枚で次に太郎さんの原稿を置く場合,間にこの白紙PDFを挟めば良いかと。pdftk でやるならこうですね。 pdftk hanako.pdf blanksheet-a4-portrait.pdf tarou.pdf cat output

    ryskosn
    ryskosn 2021/04/16
  • ApplescriptでPDFに保管 - Qiita

    VitalSourseのBookShelfからPDFにする方法です。 面倒臭かったのでスクリプト化してみました。備忘録がてら投稿してみます。 はじめての投稿はまさかのApplescriptとは。 そもそもVitalSourseBookshelfなるものが 印刷したいのに10枚ずつしか出力できないのを 少しでも楽しようと思って、開始ページを入力すれば10ページ先まで印刷するScriptを応用しました。 ただ、決まりきったキーを押していくだけなんですが、 かなり楽になりました。 きっと印刷部分を繰り返しにして10ページごとに繰り返してくれるのが理想なんだけど。 --開始のページを取得 set Start_val to text returned of ¬ (display dialog ¬ "最初のページを入力してください" with title ¬ "印刷ページの先頭指定" default

    ApplescriptでPDFに保管 - Qiita
    ryskosn
    ryskosn 2021/04/15
    こちらを参考にしてできるかも
  • Safari の Export as PDF と Print からの Save as PDF

  • PDF.jsを設置する - Qiita

    PDF.jsはJavaScriptで作られたPDFビューアです。(厳密にはPDF読み込みを行うパーサ、描画を行うレンダラ、画面UIのビューアがセットになっているもので、ライセンスはApache License 2.0です) Mozilla Foundationが開発していてFirefoxのPDFビューアとして採用されているため品質が高い JavaScriptPDFを読み込んでCanvasで描画しているためiPhoneAndroidなどスマートフォンでも表示できる ビューアがHTMLファイルのため<iframe>でPDFを埋め込み表示できる のような特長があり、PDFを直接表示できない環境での代替として使用することがよくあります。 この文書では、PDF.jsの基的な設置方法を説明します。 1. 配布サイトからファイルをダウンロードする まず https://mozilla.github

    PDF.jsを設置する - Qiita
  • PDF.jsとMouse Dictionaryで最高を手に入れる - Qiita

    $ wget https://github.com/mozilla/pdf.js/releases/download/v2.0.943/pdfjs-2.0.943-dist.zip $ unzip pdfjs-2.0.943-dist.zip -d pdfjs $ cd pdfjs

    PDF.jsとMouse Dictionaryで最高を手に入れる - Qiita
  • https://matcha-choco010.net/2018/10/08/mouse-dictionary%E3%81%A7pdf%E3%82%92%E8%AA%AD%E3%82%80/

  • pdftkの簡単な使い方とPDFの操作 - 自動化.work

    pdftkというコマンドラインのPDFの編集を行える高機能なアプリケーションがあります。 コマンドラインによるPDF操作を行えばわざわざ重いPDF編集アプリを立ち上げなくともPDFファイルの編集ができます。またスクリプト、バッチファイルとしてPDFを処理するようにすれば複数のPDFファイルを短時間でミスなく編集することができるようになります。 コマンドラインでPDF操作のできるツールであるpdftkはWindows, Mac, Linux用にリリースされています。 ダウンロード先 PDFtk – The PDF Toolkit pdftkをインストールすると自動的にコマンドラインのpdftkのパスが設定されるため、どこのディレクトリからも呼び出すことができます。 今回はpdftkを用いた基的な使い方について紹介します。 PDFファイルの結合 pdf1.pdfpdf2.pdfを結合してc

  • 毎月数時間を要していたスキャンデータ整理をOCRで自動化した - 無駄と文化

    企業活動をするなかで見積書や請求書といった書類を発送するシーンは多いですよね。 私が勤める会社でもそういった書類をクライアントに郵送していますが、郵送する前の書類をスキャンしてスキャンデータを残しておく決まりになっています。 書類を作るのに必要なデータはすべて手元にあるものの、現物のスキャンデータがあれば安心なのも分かります。 書類に押したハンコを記録しておく意味もあるのかも知れません。 スキャンしたPDFの整理が負担に しかし、毎月何百枚という書類のスキャンを取り発送するなかで、スキャンデータを整理する作業が負担になっていました。 スキャンを取る作業自体は書類の束をスキャナーに突っ込むだけなのですが、そうやって出来上がったPDFファイルはファイル名が 無機質な連番 になっています。 後で参照するときに目的のスキャンデータを探すことを考えると、一つひとつに適切なファイル名を付け直しておく必

    毎月数時間を要していたスキャンデータ整理をOCRで自動化した - 無駄と文化
  • Go+LuaでHTMLからPDFを生成するCLIツールを作った - オープンソースこねこね

    github.com 以前、Goでプロビジョニングツールを作った でも書いたように、GoGopherLuaでCLIツールをいろいろ実装していて、今回もその成果物の一つです。 概要 Goで書かれたワンバイナリで動くPDF生成ツールです。現時点で動作環境は64bitMacLinuxのみをサポートしてます(windowsはまだ)。全体的にコードの実装はcofuからコピペして雑に作ったので、使いかたもほぼ同じです。 html2pdfというコマンドをreleaseページからダウンロードしてPATHの通ったディレクトリに配置し、 local html2pdf = require "html2pdf" local example = html2pdf.pdf "example.pdf" example.options = { page_size = "A4", } example.pages =

    Go+LuaでHTMLからPDFを生成するCLIツールを作った - オープンソースこねこね
  • pdf2htmlEX - TeX Wiki

    pdf2htmlEX とは † pdf2htmlEX は PDF ファイルを HTML ファイルに変換するソフトウェアです. pdf2htmlEX by coolwanglu pdf2htmlEX FAQ WANG Lu (coolwanglu) - Twitter語で返信していただいてもかまいません。 ↑ MinGW † Poppler - TeX Wiki を参照して Poppler をインストールします.(pdf2htmlEX をビルドする場合 Poppler は configure で Makefile を作成してインストールしてください) pango をインストールします. $ curl --insecure -R -L -O https://download.gnome.org/sources/pango/1.36/pango-1.36.8.tar.xz $ tar xv

    ryskosn
    ryskosn 2015/09/27
  • あらゆるPDFをHTMLに変換する「pdf2htmlEX」がすごい | ソフトアンテナ

    上の画像、複雑な計算式が書かれていて(理論計算機科学のチートシートらしい)、一見PDFをブラウザで表示したものかと思ってしまいそうですが、実これHTMLで作られています(cheat.html)。 PDFからHTMLを自動生成するソフト「pdf2htmlEX」のデモとして作られたものらしく、他にもいくつかサンプルファイルがあるのですが、どれを見ても再現性が高いです。GitHubの説明によると、中国語、英語、日語に対応したオープンソースソフトウェアで、作っているのは中国の方のようです。 LinuxMac(Homebrew/MacPorts)、Win32用のパッケージもダウンロードできます(Download)。自分で使ってみる場合QuickStartが参考になるでしょう。 どんなPDFでも(画像じゃない検索可能な)HTMLにする優れものpdf2htmlEX http://t.co/6Gohg

    あらゆるPDFをHTMLに変換する「pdf2htmlEX」がすごい | ソフトアンテナ
    ryskosn
    ryskosn 2015/09/27
  • 猫でもわかるPostScriptとPDFの昔話 - ちくちく日記

    はじめに この話はTwitterで大暴れの最強初心者、○嬢の発した ▲一応鍵アカなんでモザイクかけとく と、なんていうかどこから突っ込んでいいやら分からないほど混乱した質問への答えとして書いた連続ツイートを元に多少解説などを加えたものです。 彼女の一連の疑問ツイートなどはご人がTogetterでまとめてますのでそちらをご覧ください(「PDFとPSの関係がわからなくなってきた時のこと」) ここではPostScriptとPDFをDTPの視点から解説しています。簡単に説明するためあえて細かい説明などは省いた部分もあります。 同じように「なんかこの辺よくわかんない…」って思ってるDTP従事者の理解の一助になれば幸いです。 昔話 昔Adobeという神様が、テキストで図形を表現するためにPostScriptという言葉を作りました。この言葉は▲や■などの図形を言葉で表現できました。神様はこの言葉で書

    猫でもわかるPostScriptとPDFの昔話 - ちくちく日記
  • 17スキン炭酸パック 口コミ|効果なしの悪い口コミは本当?使ってみたレビュー

    17skinのシミに対する口コミや評価は? 17skinはAmazon楽天・公式サイトどこで買うのがお得? 17skin高濃度炭酸パックを使ってみた感想は? この記事では上記のような質問に対して、詳しく答えをまとめています。17skinのお得な購入方法についても記載しているので、ぜひ参考にしてくださいね。 17skin 高濃度炭酸パックは今年買って良かったものTOP5に入る! ちょっと贅沢なエステクオリティのスペシャルケアをこの価格で自宅でできることにびっくりして、記事にせずにはいられませんでした。 実年齢よりも老けて見えてしまい、実際の年齢よりも老けて見られてしまったことがあるのは私だけではないはずです。 肌がたるんでしまったり、ハリや弾力が失われてしまうと、実年齢よりも老けて見られやすいです。 そんなたるみを気にして化粧水や美容液などを使ってみても、あまり効果はなく、どうしたらいいん

    17スキン炭酸パック 口コミ|効果なしの悪い口コミは本当?使ってみたレビュー
  • PDFMiner

    Python PDF parser and analyzer Homepage Recent Changes PDFMiner API What's It? Download Where to Ask How to Install CJK languages support Command Line Tools pdf2txt.py dumppdf.py PDFMiner API Changes TODO Related Projects Terms and Conditions What's It? PDFMiner is a tool for extracting information from PDF documents. Unlike other PDF-related tools, it focuses entirely on getting and analyzing tex

  • はてなブログ | 無料ブログを作成しよう

    南関東の「いろんなところから富士山が見える」状況に驚きつづけている 大阪から東京に引っ越して30年以上経つが、じわじわと蓄積されてきた驚きがついに閾値を超えたので筆を執った次第である。正確には「ポメラ DM250を起動してmenuキーを押して新規作成を選んだ」のだが、ポメラを持っていなかったら、さらに驚きが蓄積されていないと…

    はてなブログ | 無料ブログを作成しよう
    ryskosn
    ryskosn 2012/05/30
  • GoodReader for iPad

    iPadが我が家に届いてから数日が経過しました。快適に使えるようになるにはもう少し勉強が必要だなと思うのですが、今日はPDFファイルをiPadで読むために覚えておきたいTipsを書いてみたいと思います。ちなみに入門編です(^^;A 1.GoodReader for iPadとi文庫HDは必須! いきなりTipsでも何でもなくてすみません(^^;A 多くのサイトでも書かれているとおり、この2つのアプリはを裁断してスキャンしてiPadPDFファイルを読みたいという用途では必須です!ということで、今日はこの2つのアプリについてお話しします。GoodReaderはファイルマネージャ、i文庫はビューアの側面が強い気がしてます。 GoodReader for iPad (¥115) i文庫HD (¥700) 2.ファイルの転送 PCに保存しているPDFファイルをアプリに転送する方法ですが、これを覚

  • Overview — Sphinx v1.0 (hg) documentation

    ダウンロード このドキュメントはバージョン1.0 (hg)のためのものです。まだリリースされていません。 Mercurialリポジトリのコードを利用するか、Python Package Indexにあるリリースバージョンを探してください。 疑問? 意見? Googleグループへの参加: もしくは、FreeNodeの#python-docsチャンネルへどうぞ 何か気づいたことがあれば、issue trackerを使用して通知することもできます。 Sphinxは知的で美しいドキュメントを簡単に作れるようにするツールです。Georg Brandlによって開発され、BSDライセンスのもとで公開されています。 このツールはもともと、新しいPythonのドキュメントの変換のために作られました。そして、今までに数々のPythonや、他の言語で開発されているプロジェクトに対して、すばらしいドキュメンテーシ