並び順

ブックマーク数

期間指定

  • から
  • まで

1 - 40 件 / 63件

新着順 人気順

PDFBoxの検索結果1 - 40 件 / 63件

  • Javaを使ってPDFからテキストを抽出する(Apache PDFBox 編) - デベルマン

    最新の情報を利用する場合は、キャッシュレス・消費者還元事業(https://cashless.go.jp/)のページより入手してください。 処理実装今回読み取りに使用するPDFは、以下のように店舗が一覧化されています。この一覧から、「No.」「都道府県」「市区町村」「事業所名(屋号)」「業種」「業種(サブカテゴリ)」「還元率」の7種類の情報を個別の文字列として取得しましょう。 ちなみにいろいろひっかかるこの一覧。「伊達の牛タン本舗」の各店でスペース有り無しが混在しているのが細かいけどすごく気になるし、No.10001にはおそらく間違いが2つ存在してます。まず気になる文字化けはハイフン。その上で「だし廊」と「だし廊 -NIBO-」は別店舗。この一覧の作者は詰めが甘いように思う。。 こんにちは!だし廊本店です! 遅くなり申し訳ございません! 今週の限定の献立表が出来ました! 今週もだし廊でお待

    • Apache PDFBox | A Java PDF Library

      Apache PDFBox Overview License Download Community Support Mailing Lists Issue Tracker Project Team Documentation 4.0 (not released) Migration Guide 3.0 Migration Guide Getting Started Dependencies Command-Line Tools FAQ API Docs via javadoc.io 2.0 Migration Guide Getting Started Examples Dependencies Cookbook Document Encryption Command-Line Tools FAQ API Docs via javadoc.io Development Building f

      • My Diesel Claims – PDFBox.org – Claim News

        Welcome to the site where you can find out about My Diesel Claim. The only place online to discover all matters relating to the DieselGate emissions scandal involving most of the major manufacturers including but not limited to Mercedes, Vauxhall, Volkwagen, Audi, SEAT, Skoda, Ford, BMW, Landrover, Jaguar, Nissan, Kia and many more. The Dieselgate scandal relates to an emissions cheat device fitte

          My Diesel Claims – PDFBox.org – Claim News
        • Apache PDFBox日本語対応パッチ - atsuoishimoto's diary

          Apache PDFBox はPDFファイルの操作や内容の抽出などを行うオープンソースのライブラリで、最初にリリースされてからの歴史も長く、結構メジャーなライブラリである。InfoPileで利用しているApache Tika プロジェクトでも標準のPDF読み込み機能として採用されている。 しかし、残念なことにPDFBoxはCJKなテキストをほとんどサポートしておらず、日本語PDFではほとんど使い物にならない。他のPDFライブラリに切り替えるのも手だが、他に日本語が扱えるJava製ライブラリが存在するのかどうか不案内だし、切り替えると Tika まで直しにかからないといけなくなってしまう。というわけで素直にPDFBoxの日本語対応にチャレンジしてみた。PDFとかPostScriptとかあんまり詳しい方ではないけど、なんとかなるだろう。 調べてみると、今年の春頃に日本語対応にチャレンジされた方

            Apache PDFBox日本語対応パッチ - atsuoishimoto's diary
          • PDFBoxで日本語 — ありえるえりあ

            PDF文書からテキストを取り出す必要があって、Nutchでも使用されていることだし、PDFBoxというJavaのオープンソースを使うことにしました。 使い方は簡単で、読み取りたい文書のInputStreamやFileオブジェクトを渡してPDDocumentというオブジェクトを作ったら、後はPDFTextStripperというクラスのgetTextというメソッドにPDDocumentを渡すだけです。 ところが、やってみると、日本語の文書ではちっともテキストを出してくれません。 どうも、日本語のエンコーディングを諦めて何にも処理してくれていない風情でした。そもそもPDFのエンコーディングの決定方法とかも知らなかったのですが、日本語などはフォントに対するCMapというものでエンコーディングが決まるとか(ここら辺りは、PDFLibという商用ライブラリのマニュアルの4.7章で解説されていました。ht

            • Java ライブラリ Apache PDFBox で PDF を操作しよう (第1回:概要と簡単な操作) |

              本連載では Java で PDF を操作できる Apache PDFBox について解説します。 第一回の本稿では、PDFBox の概要と簡単な操作を示したいと思います。 本稿では、2016年にリリースされた Version 2 を対象に解説していきます。 Apache PDFBox について Apache PDFBox は比較的新しいライブラリで、Version 1.0.0 は2010年にリリースされ、2017年01月現在の最新は 2.0.4 です。 Version 1 は、日本語などのマルチバイト文字に対応していませんでしたが、2016年にリリースされた Version 2 から日本語にも対応しましたので、日本国内の開発での選択肢となるかと思います。 名前の通り、The Apache Software Foundation のもとで開発が行われており、ライセンスは Apache Lic

                Java ライブラリ Apache PDFBox で PDF を操作しよう (第1回:概要と簡単な操作) |
              • BSDライセンスで提供されるJava PDFライブラリ - PDFBox 0.7.2公開 | エンタープライズ | マイコミジャーナル

                The PDFBox Projectは11日(米国時間)、PDFBoxの最新版となるPDFBox 0.7.2を公開した。PDFBox 0.7.2はJavaで開発されたPDF形式のドキュメントを扱えるライブラリ。BSD ライセンスのもとオープンソースソフトウェアとして公開されている。 PDFBoxは、PDFドキュメントの生成を行ったり、PDFドキュメントの編集、内容の抽出などを行うことができる。PDFVoxにはPDFドキュメント内の検索機能があり、全文検索エンジンとしてLuceneが組み込まれている。また、Antタスクが用意されているため、Apache Antとの連携が可能。いくつかのコマンドラインユーティリティを同梱されている。 PDFBox 0.7.2では、PDFドキュメントの印刷やTIFF形式へのイメージ抽出機能の追加、いくつかのPDFドキュメント操作の追加や変更、各種バグの修正などが

                • Apache PDFBox | A Java PDF Library

                  Apache PDFBox Overview License Download Community Support Mailing Lists Issue Tracker Project Team Documentation 4.0 (not released) Migration Guide 3.0 Migration Guide Getting Started Dependencies Command-Line Tools FAQ API Docs via javadoc.io 2.0 Migration Guide Getting Started Examples Dependencies Cookbook Document Encryption Command-Line Tools FAQ API Docs via javadoc.io Development Building f

                  • Apache PDFBoxライブラリを使ってPDF文書の表示(着手編) - torutkのブログ

                    ときおり、PDF文書から任意のページを切り出したいということがあります。PDF文書を扱うのはAcrobat(≠Acrobat Reader)を購入するのが一番でしょうし、フリーのツールも多々存在しますが、ここはJavaでツールを作成してみたいと思います。 まず、第一歩としてPDF文書をページ単位でJavaで表示するPDFのビューアーを作成し、次にページを指定して切り出す機能を付けるという段階で進めていこうと考えました。 JavaからPDFを扱うオープンソースライブラリとしては、昔からの定番のiTextと、ApacheのPDFBoxが著名でしょうか。ぐぐっていると次のまとめページがありました。このページは分かりやすいです。 今どきのJavaのPDFライブラリ まとめ (2014年版) | WEB ARCH LABO iTextは商用ライセンスとAffero GPLのデュアルライセンスです。A

                      Apache PDFBoxライブラリを使ってPDF文書の表示(着手編) - torutkのブログ
                    • JAVA開発メモ - PDFBox

                      String readFile = "xxx.pdf"; FileInputStream pdfStream = null; try { pdfStream = new FileInputStream(readFile); PDFParser pdfParser = new PDFParser(pdfStream); pdf = pdfParser.getPDDocument(); } catch (Exception e) { e.printStackTrace(); } finally { if (pdfStream != null) { pdfStream.close(); } } String writeFile = "xxx.pdf"; COSWriter writer = null; FileOutputStream stream = null; try { stream =

                      • JAVA開発メモ - PDFBox

                        String readFile = "xxx.pdf"; FileInputStream pdfStream = null; try { pdfStream = new FileInputStream(readFile); PDFParser pdfParser = new PDFParser(pdfStream); pdf = pdfParser.getPDDocument(); } catch (Exception e) { e.printStackTrace(); } finally { if (pdfStream != null) { pdfStream.close(); } } String writeFile = "xxx.pdf"; COSWriter writer = null; FileOutputStream stream = null; try { stream =

                        • 「PDFBox 2.0」がリリース - ApacheによるPDF処理用ライブラリが待望のメジャーバージョンアップ | ソフトアンテナ

                          Apache Software Foundationは3月31日、オープンソースのJava用PDF処理ライブラリ「PDFBox」の最新版v2.0をリリースしました(アナウンス、slashdot)。PDFBox v2.0は3年の開発期間、および150人以上の開発者の協力により正式公開に到達したメジャーバージョンアップ版で、多数の機能の拡張や改良が行われています。 新機能のハイライトとして以下の項目があげられています: レンダリングとテキスト抽出の改良 PDF生成時のUnicodeサポート インタラクティブフォームの刷新 署名と暗号化の拡張 不正なPDFファイル用の自己修復機能を含む新しくなったパーサ メモリ使用量のきめ細かい制御などによるメモリ/リソースフットプリントの減少 PDF/A-1b企画適合性チェックのためのpreflightモジュールの拡張 実行環境のサイズを縮小するためのパッケー

                            「PDFBox 2.0」がリリース - ApacheによるPDF処理用ライブラリが待望のメジャーバージョンアップ | ソフトアンテナ
                          • Apache PDFBoxで日本語の出力とフォントの埋め込み

                            PDFBoxを使ってみたのですが、どうしても日本語フォントを使用しての PDF出力ができない。 JavaのPDFライブラリ Apache PDFBoxでHello World もう、諦めていたのですがひょっとして、まだ正式リリースされていない 2.0系を使用すれば表示できるのでは。と思い試してみます。 スナップショットの取得 PDFBoxのダウンロード https://pdfbox.apache.org/download.cgi Download a snapshot buildのリンクをたどります。 「fontbox」「pdfbox」それぞれの「2.0.0-SNAPSHOT」のリンクをたどります。 ・fontbox-2.0.0-20150803.050027-1654.jar ・pdfbox-2.0.0-20150803.050251-1602.jar をそれぞれダウンロードし、ビルドパ

                              Apache PDFBoxで日本語の出力とフォントの埋め込み
                            • Apache PDFBox | A Java PDF Library

                              Apache PDFBox Overview License Download Community Support Mailing Lists Issue Tracker Project Team Documentation 4.0 (not released) Migration Guide 3.0 Migration Guide Getting Started Dependencies Command-Line Tools FAQ API Docs via javadoc.io 2.0 Migration Guide Getting Started Examples Dependencies Cookbook Document Encryption Command-Line Tools FAQ API Docs via javadoc.io Development Building f

                              • Apache PDFBoxが日本語出力できるようになった件 - Qiita

                                Apache PDFBoxはjavaでPDFをごにょごにょできるライブラリです。 https://pdfbox.apache.org/ 2016年3月に2.0系がリリースされ日本語が出力できるようになってました。 以前からSNAPSHOT版が出ており、試している人がいたので下記参考に試してみた結果を書きます。 http://symfoware.blog68.fc2.com/blog-entry-1777.html 試したソースコード pom.xmlに下記を追記。 <dependency> <groupId>org.apache.pdfbox</groupId> <artifactId>pdfbox</artifactId> <version>2.0.1</version> </dependency> import org.apache.pdfbox.pdmodel.PDDocument;

                                  Apache PDFBoxが日本語出力できるようになった件 - Qiita
                                • Apache PDFBox | Download

                                  Verify It is essential that you verify the integrity of the downloaded files using the PGP signatures or SHA512 checksums. Please read Verifying Apache HTTP Server Releases for more information on why you should verify our releases. The PGP signatures can be verified using PGP or GPG. First download the KEYS file as well as the .asc signature files for the relevant release packages. Make sure you

                                  • BSDライセンスで提供されるJava PDFライブラリ - PDFBox 0.7.2公開 | エンタープライズ | マイコミジャーナル

                                    The PDFBox Projectは11日(米国時間)、PDFBoxの最新版となるPDFBox 0.7.2を公開した。PDFBox 0.7.2はJavaで開発されたPDF形式のドキュメントを扱えるライブラリ。BSD ライセンスのもとオープンソースソフトウェアとして公開されている。 PDFBoxは、PDFドキュメントの生成を行ったり、PDFドキュメントの編集、内容の抽出などを行うことができる。PDFVoxにはPDFドキュメント内の検索機能があり、全文検索エンジンとしてLuceneが組み込まれている。また、Antタスクが用意されているため、Apache Antとの連携が可能。いくつかのコマンドラインユーティリティを同梱されている。 PDFBox 0.7.2では、PDFドキュメントの印刷やTIFF形式へのイメージ抽出機能の追加、いくつかのPDFドキュメント操作の追加や変更、各種バグの修正などが

                                    • Apache PDFBox で折り返しのある文章を表示する - A Memorandum

                                      はじめに HelloWorld True Type Font の指定 段落文章の表示 まとめ はじめに Apache PDFBox は PDF を操作する Java ライブラリです。 PDFの作成やテキストの抽出、PDFの分割やマージなどを行うことができます。 Apache PDFBox は比較的低レベルな API セットとなっているため、文章を作成しようとした場合に行の折返し操作を自身で実装する必要があったりします。 ここでは、簡単な HelloWorld からはじめ、折返しのある文章の表示方法について見ていきます。 HelloWorld まずは簡単な PDF の生成です。 public static void main(String[] args) { try (PDDocument doc = new PDDocument()) { PDPage page = new PDPage(

                                        Apache PDFBox で折り返しのある文章を表示する - A Memorandum
                                      • GitHub - apache/pdfbox: Mirror of Apache PDFBox

                                        You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert

                                          GitHub - apache/pdfbox: Mirror of Apache PDFBox
                                        • Java(PDFBox)でPDFファイルからテキストを抽出する | Apitore blog

                                          はじめに Apitoreの次の商品の仕込みをしています。今回はJavaでPDFファイルからテキスト情報を取得します。ApacheからPDFBoxというOSSが出ていて、version 2.0から日本語にも対応したそうなのでこちらを使います。 ライブラリ Mavenから以下のライブラリを取得します。pdfbox-toolsはpdfboxでよく使うケースをパッケージ化したものです。bcprov-jdk15onはpdfboxで古いPDFファイルを入力したときにエラーが出たので追加しました。 <dependency> <groupId>org.apache.pdfbox</groupId> <artifactId>pdfbox</artifactId> <version>2.0.3</version> </dependency> <dependency> <groupId>org.apache.p

                                            Java(PDFBox)でPDFファイルからテキストを抽出する | Apitore blog
                                          • JavaでPDFのイメージを抽出―PDFBox― - のらくら備忘録

                                            はじめに JavaでPDFを操作するライブラリの中で,「PDFBox」に触れてみる 特長は PDFファイルからのテキストの抽出 PDFファイルの結合 PDFファイルの暗号・複合化 検索エンジン Lucene の組み込み FDFデータの埋め込み イメージをPDFに変換 PDFからのイメージ取得 など 準備 Apache PDFBox - Download からダウンロード ※今回は,「pdfbox-1.4.0.jar」 使ってみる PDFファイルの読み込み FileInputStream pdfStream = new FileInputStream(readFile); PDFParser pdfParser = new PDFParser(pdfStream); pdfParser.parse(); // 分析 PDDocument pdf = pdfParser.getPDDocume

                                            • Apache PDFBox | Command-Line Tools

                                              Command-Line Tools PDFBox comes with a series of command-line utilities. They are available as standard Java applications. See the Dependencies page for instructions on how to set your classpath in order to run PDFBox tools as Java applications. Decrypt This application will decrypt a PDF document. NOTE: You must have the owner password to decrypt the document! Usage: java -jar pdfbox-app-2.y.z.ja

                                              • JavaからPDFを扱う(iTextからPDFBox) - torutkのブログ

                                                何年か前、JavaからPDF文書を扱うには、iTextというライブラリが定番でした。昔の日記にも少し記述していました。id:torutk:20060724 今、iTextを見ると、バージョンが5.0と随分とアップしており、ライブラリのパッケージ名も、com.lowagie.toolsから、com.itextpdf.textに変わっています。さらに、ライセンスがLGPLからAffero GPL(AGPL) Ver.3に変更され、サーバー側で利用してもGPLの義務が伴います。さもなければ商用ライセンスを購入するという手はあるようです。価格は要相談のようです。 そこで、再度PDFライブラリ調査をしてみました。なお、昔の日記でPDFライブラリ調査をしていたことがありました。id:torutk:20050711 ここでPDFBoxは今やApache PDFBoxとして開発・公開されています。こちらは

                                                  JavaからPDFを扱う(iTextからPDFBox) - torutkのブログ
                                                • Apache PDFBoxでPDFページを画像にする(ラスタライズ) - Qiita

                                                  Apache PDFBoxが日本語出力できるようになったのでちょっとPDFBoxどんなことできるのっていうのを少しずつ調べようかと思いました。 今回はPDFを画像にする(ラスタライズ)方法です。 https://pdfbox.apache.org/2.0/migration.html#pdf-rendering に記載されている方法です。 (ネットで調べると「convertToImage使え」っていう記事が多く出てきますが、2系で方法が変わったようですね。) コード public static void main(String[] args) throws IOException { Path path = Paths.get("pdf.jpg"); try (InputStream in = new FileInputStream("pdf.pdf"); OutputStream out

                                                    Apache PDFBoxでPDFページを画像にする(ラスタライズ) - Qiita
                                                  • Apache PDFBoxでPDFを印刷する - Qiita

                                                    Apache PDFBoxが日本語出力できるようになったのもあり、今まで全然使ったことなかったけどPDFBoxどんなことできるの?っていうのを少しずつ調べています。 今回はPDFの印刷の方法です。 下記の公式Documentを参考にしました。(というか下記を見たらこのページ見る意味ないですけど) https://pdfbox.apache.org/2.0/migration.html#pdf-printing PDFファイルの印刷 public static void main(String[] args) throws IOException, PrinterException { try (InputStream in = new FileInputStream("pdf.pdf")) { print(in); } } public static void print(InputStr

                                                      Apache PDFBoxでPDFを印刷する - Qiita
                                                    • Apache PDFBox でテーブルを表示する - A Memorandum

                                                      はじめに PDFBox での矩形描画 PDFBox でのテーブル描画 セルテキストの Box 表示 easytable によるテーブル表示 まとめ はじめに 前回は PDFBox による文章の Box 表示を見ました。 blog1.mammb.com PDFBox が提供する PDF 操作の API は、低レベルな操作に限定されており、文章の折返しなども自身で処理する必要がありました。 テーブルの表示も同じく専用の API などは用意されておらず、線画を組み合わせて自身で描画する必要があります。 PDFBox での矩形描画 テーブルのセルを描画するには、単に四角形を描画することになります。 addRect(x, y, width, height) が用意されているため、以下のように四角形を描画できます。 float x = 10; float y = 10; float width = 1

                                                        Apache PDFBox でテーブルを表示する - A Memorandum
                                                      • 試験管のなかのコード :: PDFBox を試してみる

                                                        [Library] PDFBox を試してみる PDFBox とは PDF の読み書きから暗号化、復号化までしてくれるスグレモノの Java 用ライブラリ。 基本機能で少し遊んでみた。 PDFBox http://www.pdfbox.org/ PDFBox の実行環境構築 PDFBox(pdfbox-0.7.2.jar) をクラスパスに追加。 サンプルコード 既存 PDF の読み込み 1 byte 文字のみで構成されている PDF を読み込んで JPEG に書き出してみた。 何とも簡単に出来た。 日本語 PDF の書き出し 1 byte 文字のみの PDF 書き出しはサンプルにあったので、2 byte 文字の書き出しにチャレンジ。 TTC 形式のフォント(TTF ファイルの集合) は読み込めないので、予め BREAKTTC というツールで TTF を作成しておいた。 結局、上手く行かない

                                                        • Java ライブラリ Apache PDFBox で PDF を操作しよう (第2回:文字の表示) |

                                                          本連載では Java で PDF を操作できる Apache PDFBox について解説します。 前回は PDFBox の概要と簡単な操作について解説しました。 今回は文字を PDF に表示する方法について解説します。 文字を埋め込んだ PDF を作成しよう 最初にお決まりの Hello World から始めましょう。 次のようにプログラムを作成してください。 package sample.pdfbox; import java.io.IOException; import org.apache.pdfbox.pdmodel.PDDocument; import org.apache.pdfbox.pdmodel.PDPage; import org.apache.pdfbox.pdmodel.PDPageContentStream; import org.apache.pdfbox.pd

                                                            Java ライブラリ Apache PDFBox で PDF を操作しよう (第2回:文字の表示) |
                                                          • JavaのPDFライブラリ Apache PDFBoxでHello World

                                                            以前から気になっていたPDFライブラリ「Apache PDFBox」 Apache PDFBox ライセンスが「Apache License v2.0」なのがいいですね。 使い方を調べてみます。 ライブラリの取得 Downloads こちらから、「pdfbox-1.8.9.jar」をダウンロードしました。 ダウンロードしたjarをビルドパスに含めておきます。 また、Apache Commons Loggingに依存していますので、 http://commons.apache.org/proper/commons-logging/download_logging.cgi こちらから「commons-logging-1.2-bin.zip」をダウンロード。 commons-logging-1.2.jarもビルドパスに含めておきます。 空のPDF生成 Document Creation こちらを

                                                              JavaのPDFライブラリ Apache PDFBoxでHello World
                                                            • 楓 software: PDFBox を使おうとしたが無理そう

                                                              « 西日本への移動を真剣に検討してみては? | メイン | 設定画面のリストに画像を埋め込む » 2011年04月12日 Android:: PDFBox を使おうとしたが無理そう Tweet    @jin1016をフォロー Android で PDF を表示するために、ライセンス的に使いやすく JAVA で書かれた PDFBox を使おうとしたが、どうもそのまま使うのは難しそうだ。 まず、java.awt.* などの Android で使えないライブラリが使われているので、それらを使用しているクラスは使えない。 PDFBox はレンダリング時に java.awt.* を使用しているので、ここはまず書き換えないと無理。 パーサー部分については、PDFBox はどうも一気にドキュメント構造全部を調べて、内部構造に変換してしまうようだ。 この処理が時間かかる上にメモリ不足で落ちる。 小さいド

                                                              • pdfBOXでテキスト出力の場所を変更したい

                                                                1import java.io.File; 2import java.io.IOException; 3import java.util.Calendar; 4 5import org.apache.fontbox.ttf.TrueTypeCollection; 6import org.apache.pdfbox.pdmodel.PDDocument; 7import org.apache.pdfbox.pdmodel.PDPage; 8import org.apache.pdfbox.pdmodel.PDPageContentStream; 9import org.apache.pdfbox.pdmodel.font.PDFont; 10import org.apache.pdfbox.pdmodel.font.PDType0Font; 11 12public class PdfTest

                                                                  pdfBOXでテキスト出力の場所を変更したい
                                                                • Apache PDFBoxを使用してPDF出力(日本語フォント) - Qiita

                                                                  はじめに 現在プロジェクトでSpring(Java)を使用しているのですが、PDF出力機能が要件にあり、1日ほどハマってしまったので 備忘録がてら記事にしました。JavaでPDF出力するにあたって、商用利用可能であること、form操作ができること、メジャーなライブラリであることを 条件に探していたところPDFBox(バージョン2.0.22)というApache License 2.0のライブラリが見つかったので今回はそちらを採用しました。 また今回のPDF出力機能は、白紙の状態から文字をPDF出力するものではなく、決まったPDFテンプレートがあり、それらに対して、 データをマッピングして出力する要件でした。 何が起きたか? 白紙の状態からPDF出力するなら日本語の記事がたくさんあるのですが、今回のように テンプレートを読み込んでそこから日本語出力するという記事や公式ドキュメントが中々見つから

                                                                    Apache PDFBoxを使用してPDF出力(日本語フォント) - Qiita
                                                                  • PDFBoxとFXGraphics2Dを使って大きなPDFをレンダリングする - カタヤマンがプログラマチックに今日もコードアシスト

                                                                    この記事は、JavaFX Advent Calendar 2015 - Qiita の 16 日目の記事です。 昨日は kimukou さんの basilisk-fw について試食した雑感 - exception think でした。 はじめに 先日お伺いしたJJUG CCC 2015 fall でセッションをさせて頂いた際に、SORACOMの業務システムにJavaFXを使っていますよ、という話をさせて頂きました。 SORACOMでのJava/AWS活用 from Akio Katayama セッションの中では、Swaggerの話やAWS Lambdaの話などをさせて頂きましたが、「javax.smartcardioでSIMカードを読む」というくだりが(さすがにJavaの人たちなので)一番反応が良かったので、このアドベントカレンダーでもJavaFXを使ったカードリーダーにしよう、と思ったわ

                                                                      PDFBoxとFXGraphics2Dを使って大きなPDFをレンダリングする - カタヤマンがプログラマチックに今日もコードアシスト
                                                                    • 【2019年11月版】Quarkus で PDFBox もネイティブ化に挑戦!→日本語はアカン! - Qiita

                                                                      Quarkus の REST API で日本語入りの PDF ファイル出力に挑戦。 Java のシステムで往々にしてあるのが PDF出力 でありまして、業務システムで出力する PDF は当然、日本語が入ってくるわけでございます。 そして、なんで今更、しかも Quarkus でチャンレンジしようとしたかと申しますと・・・ こちら、Quarkus の本家リポジトリでプラグインの一覧でございます。 quarkusio/quarkus/extensions | github.com ある日、"Quarkusのプラグインって何が使えるのかしら〜?" と一覧を眺めていると・・・ ... spring-web swagger-ui tika undertow-websockets ... ん?!待って・・・tika? あの、tika だよね?オフィス文書とかPDFから文字列抽出するライブラリ、Apach

                                                                        【2019年11月版】Quarkus で PDFBox もネイティブ化に挑戦!→日本語はアカン! - Qiita
                                                                      • Apache PDFBox日本語対応パッチ(その2) - atsuoishimoto's diary

                                                                        先日作成したApache PDFBox日本語対応パッチを、PDFBox 1.0.0用に更新した。パッチ済みのソースはこちら。 bzr branch lp:~aishimoto/+junk/pdfbox-1.0.0-jaでBazaarブランチを取得できる。 また、このブランチには、id:buzztaiki さんが作成された、日本語PDFから画像を生成するパッチを取り込んでいる。ぜひ画像生成もお試しいただきたい。

                                                                          Apache PDFBox日本語対応パッチ(その2) - atsuoishimoto's diary
                                                                        • LuceneでPDFBoxを利用する場合のメモ - IkeTの日記

                                                                          Apache Luceneを利用してPDFファイルのインデクシングを行う場合、PDFBoxを利用するのが一番簡単であるが、最新のLuceneに対応するためにはApache Incubatorで開発されている最新のバージョンを使用する必要がある。もちろんの事ながらMavenのリモートリポジトリは公開されていないため、Subversionからソースを取得し、ローカルリポジトリへインストールしなければならない。 他の、PDFライブラリを利用してもよいのだが、単純にコンテンツを抜き出すだけの処理であるため高度な操作は必要ないことや、同じApacheのプロジェクトのため(?)Apache Luceneで利用するためのExtractorが備わっていることなどから、PDFBoxが最適であると判断した。 端末の移項に伴い、もう一度セットアップする機会が生まれたので、ここで手順を残しておく。残す手順はMav

                                                                          • Clojure で PDFBox を使って PDF ファイルのサムネイル画像を作成する : Serendip - Webデザイン・プログラミング

                                                                            Clojure を使って PDF ファイルのサムネイル画像を生成してみた。 Apache PDFBox – Apache PDFBox – Java PDF Library を使うと PDF ファイルからテキストや画像を抽出したり、ページのサムネイル画像を生成したりすることができるらしい。 利用には FontBox というライブラリも必要だったので、PDFBox と同じ場所(Apache PDFBox – Download)からダウンロードした。 さらに commons-logging というライブラリも必要になったので、Commons Logging – Overview からダウンロードして配置する。 Clojure プロジェクトの管理には Leiningen(technomancy’s leiningen at master – GitHub)を使用したので、lib ディレクトリにこ

                                                                            • Java ライブラリ Apache PDFBox で PDF を操作しよう (第4回:罫線の表示) |

                                                                              本連載では Java で PDF を操作できる Apache PDFBox について解説します。 前回は画像の埋込み表示について解説しました。 今回は PDF に罫線を表示する方法について解説します。 罫線をひいてみよう PDF に帳票を出力する場合などに、罫線をひいて表や下線をあらわしたい場合があります。 ここでは、PDFBox で PDF に罫線を表示する方法について学びます。 まずは簡単なプログラムを提示します。 単純に PDF に一本だけ罫線が表示されるプログラムです。 package sample.pdfbox; import java.awt.Color; import java.io.IOException; import org.apache.pdfbox.pdmodel.PDDocument; import org.apache.pdfbox.pdmodel.PDPage

                                                                                Java ライブラリ Apache PDFBox で PDF を操作しよう (第4回:罫線の表示) |
                                                                              • 【Kotlin/PDFBox】Kotlinを使ってPDFBoxでPDFを編集する - B-Teck!

                                                                                前置き ライブラリ読み込み PDFを操作する 既存のPDFを読み込む 新しいPDFを生成する 保存する ページを複製する PDFを編集する 文字を書く フォントを指定する 文字列の高さ・幅を取得する 左寄せで文字を書く 折返しのある文字を書く 右寄せで文字を書く 中央寄せで文字を書く 文字色を変更する 画像を書き込む 描画する向きを回転させる トラブルシュート 既存のPDFを編集すると真っ白になってしまう 定数にないレイアウトのページを追加する PDFに文字を書き込んだら鏡文字になってしまった 指定のフォントで描画できない文字を判定したい 拡張関数 前置き Apache PDFBox は、JavaでPDFを操作するためのライブラリです。 PDFBoxは低レベルなAPI群で構成されているため、段落の処理や文字の折返しなどの処理が組み込まれていなかったりします。 今回、KotlinでPDFの編

                                                                                  【Kotlin/PDFBox】Kotlinを使ってPDFBoxでPDFを編集する - B-Teck!
                                                                                • PDFライブラリ Apache PDFBoxで線の描画と矩形の塗りつぶし

                                                                                  PDFBox 2.0系を使用すれば日本語が使えそうです。 Apache PDFBoxで日本語の出力とフォントの埋め込み このまま2.0系で線や矩形の描画方法を調べてみます。 ラインの描画 簡単なサンプルは以下のとおり。 moveToで開始座標、lineToで終点座標を指定。 strokeで線の描画を行います。 package com.fc2.blog68.symfoware;import org.apache.pdfbox.pdmodel.PDDocument;import org.apache.pdfbox.pdmodel.PDPage;import org.apache.pdfbox.pdmodel.PDPageContentStream;public class MainProccess {    public static void main(String... args) thr

                                                                                    PDFライブラリ Apache PDFBoxで線の描画と矩形の塗りつぶし