[B! pdf] youzのブックマーク

MuPDF / WebAssembly

youz 2021/01/08

リンク

プログラマーから見たPDFファイル - アンテナハウス PDF資料室

更新日: 2020年8月14日このページの目的プログラマーは、クライアントから提供されたPDFファイルで、その要求を実現させようとしたとき、PDFのどんなところを見ているのでしょうか。このページでは、ちょっと珍しい視点でPDFファイルを解き明かしていきます。自分でプログラムを書いてPDFファイルからテキストデータを取り出したいという人も、ぜひご一読ください。はじめに PDFファイルをクリックすると、あたかも紙に印刷したかのように、どんなマシンでも同じような見た目で文章や画像がディスプレイに表示されます。この単純な事実は、日常的にPDFファイルを利用していると当たり前に感じられるかもしれません。しかし、よくよく考えると驚くべきことです。いったい、どのような仕組みがあれば、「過去から現在に至るさまざまな種類のコンピューターで見た目を変えずに同一の紙面を再現する」という目的を達成でき

youz 2020/08/14

pdf

リンク

PDFから「使える」テキストを取り出す（第6回） - golden-luckyの日記

今日まで延々と「PDFからテキストデータを取り出すのは大変」という話を続けてきましたが、その構造を見るにあたっては、 hpdft という自作のツールを使ってきました。大変とはいっても、まあ実現困難な話ではなく、この程度のPDFパーザであれば趣味プログラミングで自作できる範囲です。しかし、べつにわざわざ自作しなくても、「PDFからテキストデータを取り出す」ためのツールなら世の中にはすでにいくつもあります。特に有名で昔からよく使われているのは、Xpdf由来のpdftotextでしょう。 pdftotext http://www.xpdfreader.com/ XpdfからはPopplerが分派しているので、Poppler版のpdftotextもあります。また、pdfminerというツールもあります。 pdfminer https://www.unixuser.org/~euske/py

youz 2019/12/06

"データの再利用を前提としたドキュメント、たとえば行政機関による統計データの配布などにはまったく不向きです。後者にPDFを使うのはやめましょう。"

pdf

リンク

PDFから「使える」テキストを取り出す（第5回） - golden-luckyの日記

昨日の記事では、PDFのコンテンツストリームから文字を読めたことにして、その文字をテキストとして再構築する話をしました。今日は昨日までの話の締めくくりとして、「PDFごとにカスタムなテキスト取り出し」の話をするつもりだったのですが、その前に文字とコンテンツストリームについて落穂拾いをしておくことにしました。というのは、昨日までの記事への反応を見ていて、この本のことをちょっと思い出したからです。 John Whitington 著、村上雅章訳『PDF構造解説』（オライリー・ジャパン、2012年5月）この本、PDFのドキュメント構造を知りたい人が最初に読むにはぴったりだと思います。自分で簡単なPDFを手書きしながら「PDFの中身がどうなっているのか」を学べるように書かれているので、ドキュメント構造やコンテンツストリームの雰囲気を手軽に体験できる良書です。しかし、この「自分で簡単な

youz 2019/12/06

pdf

リンク

PDFから「使える」テキストを取り出す（第4回） - golden-luckyの日記

昨日までで、PDFからテキストを取り出すにあたり、グリフから文字を手に入れるところまでを説明しました。いや本当のことを言うと、まだ全然説明できてないんです。でも、文字の話ばかりしていても先に進めないので、今日は（可能な場合には）PDFから文字を入手できるものとし、そこからテキストを再構築する話に進みます。文字については改めて明後日にでも補足記事を書くかも（このシリーズはいちおう今日と明日で終わる予定）。 PDFオペレータを読むとグリフを置く場所がわかる昨日に引き続き、次のようなテキストセクションで考えます。グリフから文字の解決は済んでいるということにして、TJオペレータの引数は文字そのものに置き換えました。 BT /F1 12.4811 Tf 125.585 -462.55 Td [(#1)] TJ /F2 13.2657 Tf 19.932 0 Td [(代数的データ型とパター

youz 2019/12/06

pdf

リンク

PDFから「使える」テキストを取り出す（第3回） - golden-luckyの日記

昨日の記事では、PDFのページに表示されるコンテンツはPDFのドキュメント構造を掘っていくと手に入れることができて、それはこんな姿をしているぞ、というところまで話が進みました。 $ hpdft -r 66 NML-book.pdf [ /Filter: /FlateDecode /Length: 381.0, q .913 0 0 .913 0 595.276 cm q 462.33906 0 0 655.95015 -3.064 -652.208 cm /Im24 Do Q 1 G 1 g BT /F1 12.4811 Tf 125.585 -462.55 Td[(#1)]TJ /F2 13.2657 Tf 19.932 0 Td[<0b450a3a0c2403c3029403bb0715037103cd03bb029403ef03da03bf03bd0377062c0ac5>] TJ

youz 2019/12/03

pdf

リンク

PDFから「使える」テキストを取り出す（第2回） - golden-luckyの日記

昨日は、PDFの本来の用途は「人間がPDFをビューワーで開いて読む」ことなので、そこから文字を抜き出すのは一筋縄ではいかない、という話をしました。ではどうすればPDFファイルの中からテキストを取り出せるの、というのが今日の話の出発点です。まず昨日の記事で、「PDFには国際的な規格があり、これはAdobeから『PDFリファレンスマニュアル』という形で無償で入手できる」という話をしたことを思い出してください。昨日は話のついでみたいな感じで書きましたが、実を言うと、このリファレンスの中に、「PDFファイルの中に書き込まれているグリフを表示するための情報からUnicodeなテキストを取り出す手法」がちゃんと書いてあるのです。具体的には、『PDFリファレンスマニュアル第6版』の §5.9 "Extraction of Text Content"に、その情報が一応整理されています。ただし、言

youz 2019/12/02

pdf

リンク

PDFから「使える」テキストを取り出す（第1回） - golden-luckyの日記

PDFからテキストを取り出すのは、意外と大変です。それにはいくつかの理由があるのですが、もっとも根本的な点で真っ先に解決が必要になるのは、人間が雑に文字としてみなしている絵（「グリフ」）をコンピューターで扱えるような「文字」にする方法です。これには2つのアプローチが考えられます。 PDFビューワーでファイルを開いた状態から何とかしてテキストを読み取る PDFファイルの中身を解析してテキストを抜き出すこのうち2つめの話は明日以降にして、今日は1つめの話をします。 PDFビューワーでファイルを開いた状態から何とかしてテキストを読み取る方法この方法は、言ってみれば、人間もしくは人間のように振る舞うソフトウェアによりPDFビューワーの表示を「視覚的に読む」ということです。これはPDFの本来の使い道に即した手法です。 PDFというのは、グリフ（文字の形）をページ上に表示するための汎用の仕組

youz 2019/12/02

pdf

リンク

「マークダウンで作る岩波新書」高瀬拓史氏(イースト)/20190731t - Speaker Deck

All slide content and descriptions are owned by their creators.

youz 2019/08/02

リンク

texlive.js – A LaTeX Compiler for Javascript

texlive.js – A LaTeX Compiler for Javascript Usage var pdf tex = new PDF TeX(); var latex_code = "" + "\\documentclass{article}" + "\\begin{document}" + "\\LaTeX is great!" + "$E = mc^2$" + "\\end{document}"; pdf tex.compile(latex_code) .then(function(pdf) { window.open(pdf) }); Demo LaTeX Input Compile this LaTeX code to a PDF Start Collaboration Mode \documentclass[12pt]{article} \usepackage{amsmat

youz 2014/06/10

リンク

Home of PDFsharp and MigraDoc Foundation - PDFsharp & MigraDoc

A .NET library for processing PDF PDFsharp is the Open Source .NET library that easily creates and processes PDF documents on the fly from any .NET language. The same drawing routines can be used to create PDF documents, draw on the screen, or send output to any printer. • Overview • Features • Downloads • First Steps ' • Articles ' • Samples ' • FAQs ' • Wiki ' Creating documents on the fly Migra

youz 2012/07/18

pdf
.NET

リンク

anythingでPDFファイルをプレビューしながら高速に選びたい - 技術日記＠kiwanami

anything-books.el ? anythingでPDFファイルをプレビューしながら開くプログラムを作りました。なぜか大量にPDFがあって、PDFの管理方法に困っていて、たまたまEmacsを使っている人向けです。画面イメージ動かした方が受けが良さそうなので、今回はスクリーンキャストを用意してみました。スクリーンキャストインストール必要なもの： anything-books.el anything.el deferred.el, concurrent.el ImageMagick PDF変換ツール（evince, convert+gsとか） PDFビューアー（AdobeReaderとか） anything.elはすでに皆さん入っていると思います。まだの人はanything導入のeverything 〜3分で使えるanything.el〜 - http://rubikitc

youz 2010/11/18

リンク

Google Chrome Extensions: html2pdf

() - 846 users - Weekly installs: 665 Generate PDF from any webpage instantly with a single single click. The plugin takes the URL of any page and sends it to a PDF converter service which will generate it for you. Restart browser or open new tabs after the first install. Please note that the current version doesn't support PDF conversion of authenticated resources. If thats something you like to

youz 2009/12/09

リンク

Google Chrome Extensions: Docs PDF/PowerPoint Viewer (by Google)

Automatically previews pdfs, powerpoint presentations, and other documents in Google Docs Viewer. The "Docs PDF/PowerPoint Viewer" extension is now obsolete - we recommend trying Google's "Office Editing for Docs, Sheets & Slides" extension instead: https://chrome.google.com/webstore/detail/office-editing-for-docs-s/gbkeegbaiigmenfmjfclcdgdpimamgkj By clicking on a link for a supported document fo

youz 2009/12/09

リンク

Embeddable Google Document Viewer

An unofficial blog that watches Google's attempts to move your operating system online since 2005. Not affiliated with Google. Send your tips to gostips@gmail.com. Google Docs offers an undocumented feature that lets you embed PDF files and PowerPoint presentations in a web page. The files don't have to be uploaded to Google Docs, but they need to be available online. Here's the code I used to emb

youz 2009/09/10

リンク

はてなブログ | 無料ブログを作成しよう

朝4時台起きセルフメソッド自分のため(セルフ)の朝４時台起きメソッド。これはそういうことなんだ。。。朝が暖かくなる５月半ばから朝４時台に起きることを目標に試行錯誤していく。まずは２日間だけ試した記録。時間設定＋朝４時台とは午前４時～午前４時４０分ならOK ＋寝る時間午後９…

youz 2009/07/03

>cairo 1.8 からはテキストはコピペなどができます。

リンク

Google Code Archive - Long-term storage for Google Code Project Hosting.

Code Archive Skip to content Google About Google Privacy Terms

youz 2008/11/17

リンク

pdfforge.org | The free PDF Creator and Converter

Our PDF converter allows you to create PDFs from any application. Its easy-to-use features are designed to streamline your workflow.

youz 2008/10/19

pdf

リンク

PDF Hacks Software Downloads

pdftk - the PDF Toolkit AutoPasteLoop - Word and Open Office mac ros BBOX - Acrobat plug-in (Win) bookmark_page - Reader/Acrobat JavaScript (Win, Mac, Linux) concat_pdf - Java CopyTablesIntoNewDocument - Microsoft Word VBA script Dynamic PDF Links Example - PHP Dynamic PDF Text Example - PHP forge_fdf - PHP form_session - PHP jumpsection - Acrobat plug-in (Win) kw_index - C++ and Windows binary mer

youz 2008/10/01

リンク

SourceForge.net: News: PDFedit version 0.4.1 released

youz 2008/10/01

リンク

はてなブックマーク

タグ

関連タグで絞り込む (27)

pdfに関するyouzのブックマーク (26)

お知らせ

今週のはてなブックマーク数ランキング（2024年9月第5週）

今週のはてなブックマーク数ランキング（2024年9月第4週）

今週のはてなブックマーク数ランキング（2024年9月第3週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス