並び順

ブックマーク数

期間指定

  • から
  • まで

1 - 40 件 / 92件

新着順 人気順

PDFBoxの検索結果1 - 40 件 / 92件

  • Javaを使うなら知っておきたい技術、フレームワーク、ライブラリ、ツールまとめ

    Javaの開発と言っても、各種ミドルウェアやフレームワーク、ライブラリ、ツールなどが豊富にあり選択に悩むことは少なくないと思います。 そこで関連技術のインデックスになればと作成しました。 あくまで知っている範囲で記述しているので、コメントしてもらえれば随時追加します! すべてを書くと膨大な量になるため、現状採用が減ってきているものや、そもそもあまり採用されていないもの、後継があったり、類似のものと比較した場合に明らかに劣っているものは省いています。 ちなみにライブラリには高機能なものも多いので、分類は参考程度にご覧下さい。 サーバ系 Apache HTTP Server 世界中でもっとも多く使われているWebサーバ。 nginx フリーかつオープンソースのWebサーバで、処理性能・高い並行性・メモリ使用量の小ささに焦点を当てて開発されている。 Tomcat Java ServletやJSP

      Javaを使うなら知っておきたい技術、フレームワーク、ライブラリ、ツールまとめ
    • Awesome Java : 素晴しい Java フレームワーク・ライブラリ・ソフトウェアの数々 - Qiita

      元記事: Awesome Java Awesome List in Qiita Awesome Ruby Awesome JavaScript Awesome Node.js Awesome Python Awesome Go Awesome Selenium Awesome Appium Bean マッピング Bean マッピングを容易にするフレームワーク dOOv - 型安全なドメインモデルの検証とマッピングのための API を提供します. アノテーション, コード生成, および型安全 DSL を使用して, Bean の検証とマッピングを迅速かつ簡単にします. Dozer - アノテーション, API または XML 設定を使用して, あるオブジェクトから別のオブジェクトへデータをコピーするマッパー. JMapper - 高速コードマッピングのためにバイトコード操作を使用. アノテーシ

        Awesome Java : 素晴しい Java フレームワーク・ライブラリ・ソフトウェアの数々 - Qiita
      • Javaを使うなら知っておきたい技術、フレームワーク、ライブラリ、ツールまとめ

        Javaの開発と言っても、各種ミドルウェアやフレームワーク、ライブラリ、ツールなどが豊富にあり選択に悩むことは少なくないと思います。 そこで関連技術のインデックスになればと作成しました。 あくまで知っている範囲で記述しているので、コメントしてもらえれば随時追加します! すべてを書くと膨大な量になるため、現状採用が減ってきているものや、そもそもあまり採用されていないもの、後継があったり、類似のものと比較した場合に明らかに劣っているものは省いています。 ちなみにライブラリには高機能なものも多いので、分類は参考程度にご覧下さい。 サーバ系 Apache HTTP Server 世界中でもっとも多く使われているWebサーバ。 nginx フリーかつオープンソースのWebサーバで、処理性能・高い並行性・メモリ使用量の小ささに焦点を当てて開発されている。 Tomcat Java ServletやJSP

          Javaを使うなら知っておきたい技術、フレームワーク、ライブラリ、ツールまとめ
        • Awesome Java : 素晴しい Java フレームワーク・ライブラリ・ソフトウェアの数々 - Qiita

          元記事: Awesome Java Awesome List in Qiita Awesome Ruby Awesome JavaScript Awesome Node.js Awesome Python Awesome Go Awesome Selenium Awesome Appium Bean マッピング Bean マッピングを容易にするフレームワーク dOOv - 型安全なドメインモデルの検証とマッピングのための API を提供します. アノテーション, コード生成, および型安全 DSL を使用して, Bean の検証とマッピングを迅速かつ簡単にします. Dozer - アノテーション, API または XML 設定を使用して, あるオブジェクトから別のオブジェクトへデータをコピーするマッパー. JMapper - 高速コードマッピングのためにバイトコード操作を使用. アノテーシ

            Awesome Java : 素晴しい Java フレームワーク・ライブラリ・ソフトウェアの数々 - Qiita
          • Javaを使ってPDFからテキストを抽出する(Apache PDFBox 編) - デベルマン

            最新の情報を利用する場合は、キャッシュレス・消費者還元事業(https://cashless.go.jp/)のページより入手してください。 処理実装今回読み取りに使用するPDFは、以下のように店舗が一覧化されています。この一覧から、「No.」「都道府県」「市区町村」「事業所名(屋号)」「業種」「業種(サブカテゴリ)」「還元率」の7種類の情報を個別の文字列として取得しましょう。 ちなみにいろいろひっかかるこの一覧。「伊達の牛タン本舗」の各店でスペース有り無しが混在しているのが細かいけどすごく気になるし、No.10001にはおそらく間違いが2つ存在してます。まず気になる文字化けはハイフン。その上で「だし廊」と「だし廊 -NIBO-」は別店舗。この一覧の作者は詰めが甘いように思う。。 こんにちは!だし廊本店です! 遅くなり申し訳ございません! 今週の限定の献立表が出来ました! 今週もだし廊でお待

            • Apache PDFBox | A Java PDF Library

              Apache PDFBox Overview License Download Community Support Mailing Lists Issue Tracker Project Team Documentation 4.0 (not released) Migration Guide 3.0 Migration Guide Getting Started Dependencies Command-Line Tools FAQ API Docs via javadoc.io 2.0 Migration Guide Getting Started Examples Dependencies Cookbook Document Encryption Command-Line Tools FAQ API Docs via javadoc.io Development Building f

              • Javaで業務系システムを開発するときの鉄板構成(2015年12月版) - Qiita

                はじめに Javaにはたくさんのフレームワークやライブラリがあります。 新規のプロジェクトでは何を採用するか検討する必要がありますが、最近Javaを始めた人や長い間レガシーなシステムをやっていて新しい技術に触れる機会がなかった人にとっては、たくさんの候補の中から選択していくのは大変なのではないでしょうか。 そこで、大部分のプロジェクトで無難に対応できるような鉄板ともいえる構成をまとめてみました。 想定システム 業務系システムと呼ばれるもの。金融系、人事系など、比較的お堅い感じのシステム メンバーが複数人で中規模以上のプロジェクト Webアプリ+バックエンドのバッチ 対象外 比較的カジュアルなWebサイト(そういうサイトでJavaを採用する事自体少ないですし) メンバーが一人で個人の趣味でプロダクトを自由気ままに選択できるようなプロジェクト Androidアプリ デスクトップアプリ 自分が鉄

                  Javaで業務系システムを開発するときの鉄板構成(2015年12月版) - Qiita
                • 新規事業開発での技術選定の意思と意図 (バックエンド編) - Sansan Tech Blog

                  こんにちは、新規事業開発室に所属するソフトウェアエンジニアの加藤です。私は関西支店でBill Oneという新規サービスの開発に携わっています。 弊社にはSansanのカタチという企業理念があり、働く人々が体現すべきValuesの1つに「意思と意図をもって判断する」があります。ソフトウェアエンジニアとして、意志と意図をもって利用する技術を選定することは当然かもしれませんが、細部までそれを徹底するのは難しいこともあります。本稿では、私たちが使用している技術やライブラリを振り返って、どんな意志と意図があるかを確認していきたいと思います。 などと硬めのことを書きましたが、他所のチームでは普通に使われているライブラリを意外と知らなかったりするので、似たような記事を読みたいなと思って、技術選定を公開してみる次第です。まずはバックエンド編です。 前提 私たちのチームで開発しているBill Oneは今年の

                    新規事業開発での技術選定の意思と意図 (バックエンド編) - Sansan Tech Blog
                  • 今どきのJavaのPDFライブラリ まとめ (2014年版) |

                    本稿は2014年版の記事です。 新しい2017年版の記事がありますのでそちらをご覧ください。 本稿では Java で PDF を作成/操作するライブラリについて調査した結果をご紹介します。 2014年06月現在、Googleで「Java PDF」などのキーワードで検索をすると古い記事ばかりがヒットするので、今どきのライブラリはどれなのかを調査しました。 まずは OSS のものを調査した後に製品プロダクトについても調査しました。 Apache PDFBox 最初に紹介するのは Apache PDFBox です。 比較的新しいライブラリで、Version 1.0.0 は2010年にリリースされ、現時点で最新の 1.8.6 は2014年06月にリリースされたばかりです。 プロジェクトが停止していないのは心強いですね。名前の通り、The Apache Software Foundation のもと

                      今どきのJavaのPDFライブラリ まとめ (2014年版) |
                    • Apache Tika – Apache Tika

                      Apache Tika - a content analysis toolkit The Apache Tika™ toolkit detects and extracts metadata and text from over a thousand different file types (such as PPT, XLS, and PDF). All of these file types can be parsed through a single interface, making Tika useful for search engine indexing, content analysis, translation, and much more. You can find the latest release on the download page. Please see

                      • Index of /maven2

                        ../ HTTPClient/ - - abbot/ - - academy/ - - acegisecurity/ - - activation/ - - activecluster/ - - activeio/ - - activemq/ - - activemq-jaxb/ - - activesoap/ - - activespace/ - - adarwin/ - - ae/ - - aelfred/ - - aero/ - - ai/ - - aislib/ - - al/ - - altrmi/ - - am/ - - andromda/ - - annogen/ - - ant/ - - ant-contrib/ - - ant-doxygen/ - - ant4eclipse/ - - antlr/ - - anttex/ - - aopalliance/ - - apa

                        • Java向けPDF操作ライブラリ「ApachePDFBox 1.0」公開 | OSDN Magazine

                          Apache PDFBoxコミュニティは2月16日、PDFの作成や操作を行えるオープンソースのJavaライブラリ「Apache PDFBox 1.0.0」および「Apache FontBox 1.0.0」を公開した。性能と安定性が強化され、また最小要件はJava 5となっている。 ApachePDFBoxはPDFファイルの作成や操作、PDFドキュメントからの内容抽出などを行うJavaライブラリ。PDFドキュメントの暗号化と解読、テキスト抽出などのコマンドラインツールも備える。「Apache Tika」や「Apache Lucene」などとの連携も可能。 ApachePDFBox 1.0では性能の強化、ページラベルとAdobe CFF/Type 2フォントのサポートなどが特徴となる。暗号化されたPDFファイルの読み込みや暗号化PDFファイルから暗号化なしPDFファイルへの変換も可能となった。

                            Java向けPDF操作ライブラリ「ApachePDFBox 1.0」公開 | OSDN Magazine
                          • Awesome Java : 素晴しい Java フレームワーク・ライブラリ・ソフトウェアの数々 - Qiita

                            元記事: Awesome Java Awesome List in Qiita Awesome Ruby Awesome JavaScript Awesome Node.js Awesome Python Awesome Go Awesome Selenium Awesome Appium Bean マッピング Bean マッピングを容易にするフレームワーク dOOv - 型安全なドメインモデルの検証とマッピングのための API を提供します. アノテーション, コード生成, および型安全 DSL を使用して, Bean の検証とマッピングを迅速かつ簡単にします. Dozer - アノテーション, API または XML 設定を使用して, あるオブジェクトから別のオブジェクトへデータをコピーするマッパー. JMapper - 高速コードマッピングのためにバイトコード操作を使用. アノテーシ

                              Awesome Java : 素晴しい Java フレームワーク・ライブラリ・ソフトウェアの数々 - Qiita
                            • Google App Engine/Python で無料でAIサービスをホストする - Qiita

                              前書き 今更GAE/pかよ! って感じですが、これがやっぱり良くできてるのですよ。 自分用に作ったAI論文検索ツールをGoogle App Engine/pythonでウェブサービス用にしてみたら結構さくっと動いてしまったので、またやる時のためにメモ書きとして残しておきます。 TL DR; Facebook fasttext を使ったディープラーニング論文の検索/クラスタリングツールをwebサービスにする手順。使ったものは fasttext, scikit-klearn, GAE/p, jinja2です。無料でまずはパパッと公開しようぜ! >> サービスサイトはこちら。コードはgithubに。 AI系論文のサイトがとても使いにくいポンコツ ってこと、ありますよね。CVPR2018という画像処理のトップ学会があります。ディープラーニングブームを盛り上げて来た学会で、東京では毎年論文読み会が開

                                Google App Engine/Python で無料でAIサービスをホストする - Qiita
                              • Cloudera Searchってのが出たらしい(とりあえず、雑感?)

                                AWS Summitに来ていたのですが、TLでは、Cloudera Searchが賑わってました。 ということで、軽くどんなものか読んだり調べたりしたメモを残しとこうかと。 英語力はあやしいので、おかしいとこがあったらツッコミを。 Cloudera Searchとは? CDH4.3に対応したCDHユーザ向けの検索システム(beta版)なのかな? CDHに統合された検索フレームワークなのかな? 基本はLucene/Solr 4.3でHadoopのペタバイトデータを検索することができるようになるみたいです。 どんな仕組み? 次のものを利用しているようです。(GithubのREADMEから。) 使ってるもの Apache Solr(4.3.0+α?) Apache Lucene(Solrつかってるからね) Apache SolrCloud(うーん、Solrに含まれるのに別に出してるのなんで?)

                                  Cloudera Searchってのが出たらしい(とりあえず、雑感?)
                                • My Diesel Claims – PDFBox.org – Claim News

                                  Welcome to the site where you can find out about My Diesel Claim. The only place online to discover all matters relating to the DieselGate emissions scandal involving most of the major manufacturers including but not limited to Mercedes, Vauxhall, Volkwagen, Audi, SEAT, Skoda, Ford, BMW, Landrover, Jaguar, Nissan, Kia and many more. The Dieselgate scandal relates to an emissions cheat device fitte

                                    My Diesel Claims – PDFBox.org – Claim News
                                  • AndroidでPDFを作成してみる - プログラミング雑記

                                    こんにちは。久しぶりのブログ更新です。 今回はAndroidアプリから、PDFファイルを作成する方法を紹介したいと思います。 実現方法としては・・・ 既存ライブラリを活用する 自前でスクリプトを書く PDFを生成してくれるWebサービスを利用する 他アプリからインテントを使い生成する 僕自身、全て試したわけではありませんが、手っ取り早いのは(1)既存のライブラリを活用する事だと思います。実装が一筋縄ではありませんが・・・ (2)に関しては、PDFの仕様を理解していないとイバラの道になると思います。 でも仕様を理解することは勉強にもなるし、時間に余裕のある人はこちらをオススメします。(日本語訳の公式リファレンスが5、6千円で売ってます。英語のリファレンスはWebで無料でダウンロードできます) (3)に関しては2chで仕入れた情報ですが、面倒臭そうなので調べていません… (4)調べたんですが、

                                      AndroidでPDFを作成してみる - プログラミング雑記
                                    • 都道府県別の新型コロナ感染状況を一覧できるサイトをつくった - きしだのHatena

                                      都道府県別に傾向を一覧で見たいとおもって、JSならほかの人にも見やすいだろうなと作ってみた。 新型コロナウィルス都道府県別感染者数の傾向 都道府県ごとの数値を見るだけであればNHKがまとめていたのだけど、時系列グラフがほしかった。 特設サイト 新型コロナウイルス 都道府県別の感染者数・感染者マップ|NHK いまはNHKも都道府県を選択すれば個別のグラフが見えるようになっている。 一覧で見れることの他には、感染拡大度合いで地図の色付けをしているのと、感染拡大率のグラフを見れるようにした。 地図の色付けは、NHKや東洋経済など他のサイトでは感染者数で色付けをしているのだけど、一旦最高値の色になると変化がなく、また人口が少ない県では感染がひろまっても色付け基準にならないなど、ほとんど情報量がなくなってしまっている。 ここでは、感染拡大率によって色を変えているので、感染が拡大しているところは色がか

                                        都道府県別の新型コロナ感染状況を一覧できるサイトをつくった - きしだのHatena
                                      • JavaでPDFから文章を抽出 - tsubosakaの日記

                                        プログラム上からPDFの文章を取り出したいと思うことがあったので、方法を調べてみた。 PDFBoxというツールを使うと結構いい感じに抽出できた。 以下に簡単なサンプルプログラムを示す。 import java.io.*; import org.apache.pdfbox.pdfparser.PDFParser; import org.apache.pdfbox.pdmodel.PDDocument; import org.apache.pdfbox.util.PDFTextStripper; public class ExtractPDF { private static String extractText(String filePath) throws FileNotFoundException, IOException { FileInputStream pdfStream = ne

                                          JavaでPDFから文章を抽出 - tsubosakaの日記
                                        • Apache PDFBox日本語対応パッチ - atsuoishimoto's diary

                                          Apache PDFBox はPDFファイルの操作や内容の抽出などを行うオープンソースのライブラリで、最初にリリースされてからの歴史も長く、結構メジャーなライブラリである。InfoPileで利用しているApache Tika プロジェクトでも標準のPDF読み込み機能として採用されている。 しかし、残念なことにPDFBoxはCJKなテキストをほとんどサポートしておらず、日本語PDFではほとんど使い物にならない。他のPDFライブラリに切り替えるのも手だが、他に日本語が扱えるJava製ライブラリが存在するのかどうか不案内だし、切り替えると Tika まで直しにかからないといけなくなってしまう。というわけで素直にPDFBoxの日本語対応にチャレンジしてみた。PDFとかPostScriptとかあんまり詳しい方ではないけど、なんとかなるだろう。 調べてみると、今年の春頃に日本語対応にチャレンジされた方

                                            Apache PDFBox日本語対応パッチ - atsuoishimoto's diary
                                          • 裁断機で本を切断してScanSnapでとりこんだPDFを画像ファイルにばらしてImageMagickで加工して再度PDFにしてみた

                                            裁断機で本を切断してScanSnapで取り込むまで 前段階として裁断機で本を切断してScanSnapで取り込むところは、中身を捨てずに空間をすてる。漫画も本も iPhone に入れる全工程 | Lifehacking.jpと同じです。私は裁断機はPLUS PK-513を使っていて、ScanSnapはfi-5110E0Xです。 読み込む設定ですが、解像度は以前はスーパーファインにしてましたが、最近は容量削減のためファインにすることが多いです。白黒/カラーは自動判定にはせず切り替えて使います。白黒はモノクロ2値なのでグレースケールの書籍の場合はカラーにします。 また表紙カバーは別途フラットヘッドスキャナで取り込んでPDFファイルにしておきます。 PDFファイルの連結 表紙カバーと本体と裏表紙のPDFを連結して一旦1つのPDFにします。 Linuxだとpdftk - the pdf toolki

                                            • 今どきのJavaのPDFライブラリ まとめ (2017年版) |

                                              本稿では Java で PDF を作成/操作するライブラリについて調査した結果をご紹介します。 3年前の2014年に「今どきのJavaのPDFライブラリ まとめ (2014年版)」という記事を書きましたが、3年間でだいぶ状況が変わりましたので、あらためて2017年現在で Java で PDF を操作するにはどんなライブラリがあるのかを再調査しました。 今回も OSS がメインです。 Apache PDFBox 最初に紹介するのは Apache PDFBox です。 比較的新しいライブラリで、Version 1.0.0 は2010年にリリースされ、現時点で最新の 2.0.4 は2016年12月にリリースされたばかりです。 2016年に新しいメジャーバージョン 2.0 がリリースされ、待望のマルチバイト文字対応が行われました。 それまでは日本語が利用できなかったため、日本でのシステム開発で脚光

                                                今どきのJavaのPDFライブラリ まとめ (2017年版) |
                                              • PDFBoxで日本語 — ありえるえりあ

                                                PDF文書からテキストを取り出す必要があって、Nutchでも使用されていることだし、PDFBoxというJavaのオープンソースを使うことにしました。 使い方は簡単で、読み取りたい文書のInputStreamやFileオブジェクトを渡してPDDocumentというオブジェクトを作ったら、後はPDFTextStripperというクラスのgetTextというメソッドにPDDocumentを渡すだけです。 ところが、やってみると、日本語の文書ではちっともテキストを出してくれません。 どうも、日本語のエンコーディングを諦めて何にも処理してくれていない風情でした。そもそもPDFのエンコーディングの決定方法とかも知らなかったのですが、日本語などはフォントに対するCMapというものでエンコーディングが決まるとか(ここら辺りは、PDFLibという商用ライブラリのマニュアルの4.7章で解説されていました。ht

                                                • Java ライブラリ Apache PDFBox で PDF を操作しよう (第1回:概要と簡単な操作) |

                                                  本連載では Java で PDF を操作できる Apache PDFBox について解説します。 第一回の本稿では、PDFBox の概要と簡単な操作を示したいと思います。 本稿では、2016年にリリースされた Version 2 を対象に解説していきます。 Apache PDFBox について Apache PDFBox は比較的新しいライブラリで、Version 1.0.0 は2010年にリリースされ、2017年01月現在の最新は 2.0.4 です。 Version 1 は、日本語などのマルチバイト文字に対応していませんでしたが、2016年にリリースされた Version 2 から日本語にも対応しましたので、日本国内の開発での選択肢となるかと思います。 名前の通り、The Apache Software Foundation のもとで開発が行われており、ライセンスは Apache Lic

                                                    Java ライブラリ Apache PDFBox で PDF を操作しよう (第1回:概要と簡単な操作) |
                                                  • BSDライセンスで提供されるJava PDFライブラリ - PDFBox 0.7.2公開 | エンタープライズ | マイコミジャーナル

                                                    The PDFBox Projectは11日(米国時間)、PDFBoxの最新版となるPDFBox 0.7.2を公開した。PDFBox 0.7.2はJavaで開発されたPDF形式のドキュメントを扱えるライブラリ。BSD ライセンスのもとオープンソースソフトウェアとして公開されている。 PDFBoxは、PDFドキュメントの生成を行ったり、PDFドキュメントの編集、内容の抽出などを行うことができる。PDFVoxにはPDFドキュメント内の検索機能があり、全文検索エンジンとしてLuceneが組み込まれている。また、Antタスクが用意されているため、Apache Antとの連携が可能。いくつかのコマンドラインユーティリティを同梱されている。 PDFBox 0.7.2では、PDFドキュメントの印刷やTIFF形式へのイメージ抽出機能の追加、いくつかのPDFドキュメント操作の追加や変更、各種バグの修正などが

                                                    • Microsoft Word - Filip_Saidak's_proofPDF.doc

                                                      ユークリッドの素数定理の新証明 「素数は、無限個ある」という、ユークリッド(エウクレイデス)の証明は、簡素で力強いものだ。そ して、それから、2000年以上たった現代に、その証明法を超えたのではないかという新しい証明方法 が2006年に発見された。 (American Math. Manthly, Vol 113,No.10,December 2006) 証明したのは、 フィリップ ・ サイダック (ノース ・ カロライナ大学グリーンズボロ校University of North Carolina at Greensboro)だ。 ユークリッドの証明法(現代風ですが)を書いた後、サイダックの証明を紹介する。 【定理】素数は無限個ある ユークリッドの証明 素数は有限個で、個数はn 個であるとする。その素数をすべて書き出し n P P P , , , 2 1 ⋅ ⋅ ⋅ とする。今、 1 2

                                                      • Apache PDFBox | A Java PDF Library

                                                        Apache PDFBox Overview License Download Community Support Mailing Lists Issue Tracker Project Team Documentation 4.0 (not released) Migration Guide 3.0 Migration Guide Getting Started Dependencies Command-Line Tools FAQ API Docs via javadoc.io 2.0 Migration Guide Getting Started Examples Dependencies Cookbook Document Encryption Command-Line Tools FAQ API Docs via javadoc.io Development Building f

                                                        • Java向けPDF操作ライブラリ「ApachePDFBox 1.0」公開

                                                          PDFの作成や操作を行えるオープンソースのJavaライブラリ「Apache PDFBox 1.0.0」「Apache FontBox 1.0.0」がリリースされた。ページラベルとAdobe CFF/Type 2フォントのサポートなどが図られている。 Apache PDFBoxコミュニティーは2月16日、PDFの作成や操作を行えるオープンソースのJavaライブラリ「Apache PDFBox 1.0.0」および「Apache FontBox 1.0.0」を公開した。性能と安定性が強化され、また最小要件はJava 5となっている。 ApachePDFBoxはPDFファイルの作成や操作、PDFドキュメントからの内容抽出などを行うJavaライブラリ。PDFドキュメントの暗号化と解読、テキスト抽出などのコマンドラインツールも備える。「Apache Tika」や「Apache Lucene」などとの連

                                                            Java向けPDF操作ライブラリ「ApachePDFBox 1.0」公開
                                                          • Apache PDFBoxライブラリを使ってPDF文書の表示(着手編) - torutkのブログ

                                                            ときおり、PDF文書から任意のページを切り出したいということがあります。PDF文書を扱うのはAcrobat(≠Acrobat Reader)を購入するのが一番でしょうし、フリーのツールも多々存在しますが、ここはJavaでツールを作成してみたいと思います。 まず、第一歩としてPDF文書をページ単位でJavaで表示するPDFのビューアーを作成し、次にページを指定して切り出す機能を付けるという段階で進めていこうと考えました。 JavaからPDFを扱うオープンソースライブラリとしては、昔からの定番のiTextと、ApacheのPDFBoxが著名でしょうか。ぐぐっていると次のまとめページがありました。このページは分かりやすいです。 今どきのJavaのPDFライブラリ まとめ (2014年版) | WEB ARCH LABO iTextは商用ライセンスとAffero GPLのデュアルライセンスです。A

                                                              Apache PDFBoxライブラリを使ってPDF文書の表示(着手編) - torutkのブログ
                                                            • Doc⚡split

                                                              Docsplit Docsplit is a command-line utility and Ruby library for splitting apart documents into their component parts: searchable UTF-8 plain text via OCR if necessary, page images or thumbnails in any format, PDFs, single pages, and document metadata (title, author, number of pages...) Docsplit is currently at version 0.7.6. Docsplit is an open-source component of DocumentCloud. Installation & De

                                                              • PDF Stream Dumper

                                                                This is a free tool for the analysis of malicious PDF documents. This tool has been made possible through the use of a mountain of open source code. Thank you to all of the authors involved. Has specialized tools for dealing with obsfuscated javascript, low level pdf headers and objects, and shellcode. In terms of shellcode analysis, it has an integrated interface for libemu sctest, an updated bui

                                                                • PDF から 日本語を含むテキストを抽出する | Altus-Five Labs

                                                                  PDF から日本語テキストを抽出するための方法をいくつか探し回った。 Java から使えること 日本語が読み取れること PDF のバージョンに依存しないこと 開発環境が限定されないこと(Linux と Windows の両方で使えること) これらの条件を満たすツール等を探して、2つ試してみた。 PDFBox http://incubator.apache.org/pdfbox/ Apache のプロジェクトなので、これで決まれば一番いいなぁと思いながら、試してみた。 残念。 ページ下端のページ番号の数字だけ処理されて、日本語が処理されなかった。 さらに探すと、「Apache PDFBox と FONTBox を日本語化する」という記事を見つけたので、こちらにあるソースをダウンロードして、JDK1.6でビルドし直して使ってみた。 ほとんどの PDF の日本語が正しく処理された。 すばらし

                                                                  • PDFソフトウェアの一覧 - Wikipedia

                                                                    この記事は更新が必要とされています。 この記事には古い情報が掲載されています。編集の際に新しい情報を記事に反映させてください。反映後、このタグは除去してください。(2016年2月) PDFソフトウェアの一覧(PDFソフトウェアのいちらん)ではPortable Document Format(PDF)ソフトウェアを列記する。 PDFファイルを表示・印刷するソフトウェア[編集] Acrobat Reader - 無料。 CubePDF Viewer Evince - GNOMEデスクトップ環境向けのドキュメントビューア。 Foxit PDF Reader - 無料、多機能。 Google ドキュメント - PDFをHTMLへ変換して表示できるウェブアプリケーション。 GSview - Ghostscriptをバックエンドに使用するビューア&コンバーター。 Impressive(英語版) - P

                                                                    • Perl で PDF生成(PDF::API2)|カタテマ|ウェブマーケティングの株式会社オーク

                                                                      最近、案件でPDFをPerlのプログラムから動的に作成する機会があったので、ポイントやノウハウなど書いてみたいと思います。 どのライブラリを使うか PerlでPDFを扱うライブラリとしては、以下が代表的なようです。 PDFlib PDF::API2 PDFJ PDFlibは、古くからある有償のPDFのライブラリで、Perlだけでなく、様々な言語から利用が可能です。おそらくこの中では、一番多機能だと思います。ただやはり有償なのと、APIが古そう(完全な偏見)なため、今回は見送りました。 残るPDF::API2と、PDFJですが、PDF::API2のほうが、cpanに登録されていて、比較的メンテナンスもされているように見えること、WEBでの情報量が多いことなどから、PDF::API2を使うことにしました。 cpan - PDF::API2 http://search.cpan.org/dist

                                                                        Perl で PDF生成(PDF::API2)|カタテマ|ウェブマーケティングの株式会社オーク
                                                                      • JAVA開発メモ - PDFBox

                                                                        String readFile = "xxx.pdf"; FileInputStream pdfStream = null; try { pdfStream = new FileInputStream(readFile); PDFParser pdfParser = new PDFParser(pdfStream); pdf = pdfParser.getPDDocument(); } catch (Exception e) { e.printStackTrace(); } finally { if (pdfStream != null) { pdfStream.close(); } } String writeFile = "xxx.pdf"; COSWriter writer = null; FileOutputStream stream = null; try { stream =

                                                                        • 全バージョンのapacheプログラムのアーカイブ

                                                                          Name Last modified Size Description Parent Directory - META/ 2022-06-17 12:55 - abdera/ 2017-10-04 10:56 - accumulo/ 2024-02-17 15:33 - ace/ 2017-10-04 11:11 - activemq/ 2024-03-15 10:20 - age/ 2024-01-26 00:48 - airavata/ 2022-06-17 12:56 - airflow/ 2024-03-25 20:09 - allura/ 2023-11-06 22:37 - ambari/ 2024-02-03 18:28 - ant/ 2023-11-26 15:58 - any23/ 2023-07-03 13:18 - apex/ 2022-06-17 12:55 - a

                                                                          • Awesome Java : 素晴しい Java フレームワーク・ライブラリ・ソフトウェアの数々 - Qiita

                                                                            元記事: Awesome Java Awesome List in Qiita Awesome Ruby Awesome JavaScript Awesome Node.js Awesome Python Awesome Go Awesome Selenium Awesome Appium Bean マッピング Bean マッピングを容易にするフレームワーク dOOv - 型安全なドメインモデルの検証とマッピングのための API を提供します. アノテーション, コード生成, および型安全 DSL を使用して, Bean の検証とマッピングを迅速かつ簡単にします. Dozer - アノテーション, API または XML 設定を使用して, あるオブジェクトから別のオブジェクトへデータをコピーするマッパー. JMapper - 高速コードマッピングのためにバイトコード操作を使用. アノテーシ

                                                                              Awesome Java : 素晴しい Java フレームワーク・ライブラリ・ソフトウェアの数々 - Qiita
                                                                            • JAVA開発メモ - PDFBox

                                                                              String readFile = "xxx.pdf"; FileInputStream pdfStream = null; try { pdfStream = new FileInputStream(readFile); PDFParser pdfParser = new PDFParser(pdfStream); pdf = pdfParser.getPDDocument(); } catch (Exception e) { e.printStackTrace(); } finally { if (pdfStream != null) { pdfStream.close(); } } String writeFile = "xxx.pdf"; COSWriter writer = null; FileOutputStream stream = null; try { stream =

                                                                              • Ibiblio Maven2 リポジトリ

                                                                                ../ HTTPClient/ 01-Nov-2005 05:03 - abbot/ 28-Sep-2015 06:18 - acegisecurity/ 23-Dec-2005 12:20 - activation/ 21-Dec-2005 15:37 - activecluster/ 01-Nov-2005 05:09 - activeio/ 01-Nov-2005 05:10 - activemq/ 01-Nov-2005 05:13 - activemq-jaxb/ 01-Nov-2005 05:11 - activesoap/ 01-Nov-2005 05:20 - activespace/ 01-Nov-2005 05:04 - adarwin/ 01-Nov-2005 05:03 - ae/ 06-Apr-2015 06:14 - aelfred/ 01-Nov-2005 0

                                                                                • Apache Tika – Apache Tika

                                                                                  Apache Tika - a content analysis toolkit The Apache Tika™ toolkit detects and extracts metadata and text from over a thousand different file types (such as PPT, XLS, and PDF). All of these file types can be parsed through a single interface, making Tika useful for search engine indexing, content analysis, translation, and much more. You can find the latest release on the download page. Please see