kyo_agoのブックマーク - はてなブックマーク

ドキュメント技術とプログラミング言語の相似について - golden-luckyの日記
よく知られているように、ドキュメントには「構造」があります。 WebページではHTMLとCSSにより構造とスタイルを分離するべきとか、Wordでは書式設定をスタイルとして定義して使うことで構造とスタイルを分離するべきとか、ドキュメントの「べき」論で必ず言及される「構造とスタイルの分離」における「構造」です。昨日までの話ではPDFにもドキュメント構造というのが出てきました。あれは、この「構造とスタイルの分離」というときの「構造」とは別物なので注意してください。たぶん、PDFのドキュメント構造には、「ドキュメントを表すデータ構造」くらいの意味合いくらいしかありません。一方、ドキュメントの話において「構造とスタイルの分離」というときの「構造」は、もうちょっとこうなんていうか、セマンティックな話です。データをどう構成するかではなく、ドキュメントで表したい意味をどう構成するか、という話。し
kyo_ago 2019/12/09
ドキュメント

考え方

プログラミング

言語

技術

pdf

文章

misc
リンク
PDFから「使える」テキストを取り出す（第6回） - golden-luckyの日記
今日まで延々と「PDFからテキストデータを取り出すのは大変」という話を続けてきましたが、その構造を見るにあたっては、 hpdft という自作のツールを使ってきました。大変とはいっても、まあ実現困難な話ではなく、この程度のPDFパーザであれば趣味プログラミングで自作できる範囲です。しかし、べつにわざわざ自作しなくても、「PDFからテキストデータを取り出す」ためのツールなら世の中にはすでにいくつもあります。特に有名で昔からよく使われているのは、Xpdf由来のpdftotextでしょう。 pdftotext http://www.xpdfreader.com/ XpdfからはPopplerが分派しているので、Poppler版のpdftotextもあります。また、pdfminerというツールもあります。 pdfminer https://www.unixuser.org/~euske/py
kyo_ago 2019/12/09
pdf

ツール

ドキュメント

書籍

html

翻訳

データ
リンク
PDFから「使える」テキストを取り出す（第3回） - golden-luckyの日記
昨日の記事では、PDFのページに表示されるコンテンツはPDFのドキュメント構造を掘っていくと手に入れることができて、それはこんな姿をしているぞ、というところまで話が進みました。 $ hpdft -r 66 NML-book.pdf [ /Filter: /FlateDecode /Length: 381.0, q .913 0 0 .913 0 595.276 cm q 462.33906 0 0 655.95015 -3.064 -652.208 cm /Im24 Do Q 1 G 1 g BT /F1 12.4811 Tf 125.585 -462.55 Td[(#1)]TJ /F2 13.2657 Tf 19.932 0 Td[<0b450a3a0c2403c3029403bb0715037103cd03bb029403ef03da03bf03bd0377062c0ac5>] TJ
kyo_ago 2019/12/03
pdf

フォント

オブジェクト
リンク
PDFから「使える」テキストを取り出す（第2回） - golden-luckyの日記
昨日は、PDFの本来の用途は「人間がPDFをビューワーで開いて読む」ことなので、そこから文字を抜き出すのは一筋縄ではいかない、という話をしました。ではどうすればPDFファイルの中からテキストを取り出せるの、というのが今日の話の出発点です。まず昨日の記事で、「PDFには国際的な規格があり、これはAdobeから『PDFリファレンスマニュアル』という形で無償で入手できる」という話をしたことを思い出してください。昨日は話のついでみたいな感じで書きましたが、実を言うと、このリファレンスの中に、「PDFファイルの中に書き込まれているグリフを表示するための情報からUnicodeなテキストを取り出す手法」がちゃんと書いてあるのです。具体的には、『PDFリファレンスマニュアル第6版』の §5.9 "Extraction of Text Content"に、その情報が一応整理されています。ただし、言
kyo_ago 2019/12/03
pdf

gtd

stationery

ドキュメント

オブジェクト

text processing

conversion

format

ノート
リンク
PDFから「使える」テキストを取り出す（第1回） - golden-luckyの日記
PDFからテキストを取り出すのは、意外と大変です。それにはいくつかの理由があるのですが、もっとも根本的な点で真っ先に解決が必要になるのは、人間が雑に文字としてみなしている絵（「グリフ」）をコンピューターで扱えるような「文字」にする方法です。これには2つのアプローチが考えられます。 PDFビューワーでファイルを開いた状態から何とかしてテキストを読み取る PDFファイルの中身を解析してテキストを抜き出すこのうち2つめの話は明日以降にして、今日は1つめの話をします。 PDFビューワーでファイルを開いた状態から何とかしてテキストを読み取る方法この方法は、言ってみれば、人間もしくは人間のように振る舞うソフトウェアによりPDFビューワーの表示を「視覚的に読む」ということです。これはPDFの本来の使い道に即した手法です。 PDFというのは、グリフ（文字の形）をページ上に表示するための汎用の仕組
kyo_ago 2019/12/03
pdf

ファイル

stationery

history

Adobe

text processing

format

ノート

deferred

gtd
リンク
■ - golden-luckyの日記
マッハ新書、β版で電子版を先行発売して紙を売り出すという、ここ10年来の英語圏における一部技術書の動向が、日本語圏では技術書界に先立って新書という形で、トップダウンかつボトムアップに再発明されたものという感じがする（ポジティブな感想です）。ここで、トップダウン的というのは、著者からという意味。ボトムアップ的というのは、読者からという意味。日本の出版をめぐる業界構造は、著者と読者が不在で、両者の間を出版社、取次、書店からなる三角形が取り結んでいる。読者が支払った書籍の対価は、その三角形の中でぐるっと回遊し、その一部が著者に還元される。もちろん、形式的なお金の流れは読者→書店→取次→出版社→著者なんだけど、この三角形の中でお金を回遊させることで、「コンテンツという水物をパッケージングして全国に配信する」という難事業に伴ういろんなリスクを回避してきたわけだ。マッハ新書では、この三角形を
kyo_ago 2018/05/08
publishing

book

出版

business
リンク
■ - golden-luckyの日記
note.mu 言いたいことは、すごくよくわかる。でも、残念ながら、「読まれるテキストとは、読み飛ばせるテキストである」というのが圧倒的に正しい。だから、「読まれるテキスト」を考えるなら、元記事のように、「読み飛ばせるテキストにするにはどうするか」っていうのをスタートにしたほうがいいとおもう。読み飛ばせるテキスト、ぜんぜん悪いものじゃないよ。読み飛ばすような内容もないのが、悪いテキスト。ちなみに、内容がないけど読み飛ばせないテキストっていうのが最高ですね。そもそも、段落をちゃんと構成しなきゃいけないのは「読み飛ばせる」ようにするためだ。そういう構成ができているテキストを読むっていうのは、情報を取り入れるための最速な手段だといえる。「あ、これ、ちゃんと分かりたいし、ちゃんと読まないと絶対に分からないやつだ」という人は、読み飛ばしたあと、読みなおしてくれる。だから、そのときに困らないよう
kyo_ago 2017/12/19
テキスト
リンク
1