タグ

ブックマーク / golden-lucky.hatenablog.com (7)

  • ドキュメント技術とプログラミング言語の相似について - golden-luckyの日記

    よく知られているように、ドキュメントには「構造」があります。 WebページではHTMLCSSにより構造とスタイルを分離するべきとか、Wordでは書式設定をスタイルとして定義して使うことで構造とスタイルを分離するべきとか、ドキュメントの「べき」論で必ず言及される「構造とスタイルの分離」における「構造」です。 昨日までの話ではPDFにもドキュメント構造というのが出てきました。あれは、この「構造とスタイルの分離」というときの「構造」とは別物なので注意してください。 たぶん、PDFのドキュメント構造には、「ドキュメントを表すデータ構造」くらいの意味合いくらいしかありません。 一方、ドキュメントの話において「構造とスタイルの分離」というときの「構造」は、もうちょっとこうなんていうか、セマンティックな話です。 データをどう構成するかではなく、ドキュメントで表したい意味をどう構成するか、という話。 し

    ドキュメント技術とプログラミング言語の相似について - golden-luckyの日記
  • PDFから「使える」テキストを取り出す(第6回) - golden-luckyの日記

    今日まで延々と「PDFからテキストデータを取り出すのは大変」という話を続けてきましたが、その構造を見るにあたっては、 hpdft という自作のツールを使ってきました。 大変とはいっても、まあ実現困難な話ではなく、この程度のPDFパーザであれば趣味プログラミングで自作できる範囲です。 しかし、べつにわざわざ自作しなくても、「PDFからテキストデータを取り出す」ためのツールなら世の中にはすでにいくつもあります。 特に有名で昔からよく使われているのは、Xpdf由来のpdftotextでしょう。 pdftotext http://www.xpdfreader.com/ XpdfからはPopplerが分派しているので、Poppler版のpdftotextもあります。 また、pdfminerというツールもあります。 pdfminer https://www.unixuser.org/~euske/py

    PDFから「使える」テキストを取り出す(第6回) - golden-luckyの日記
  • PDFから「使える」テキストを取り出す(第3回) - golden-luckyの日記

    昨日の記事では、PDFのページに表示されるコンテンツはPDFのドキュメント構造を掘っていくと手に入れることができて、それはこんな姿をしているぞ、というところまで話が進みました。 $ hpdft -r 66 NML-book.pdf [ /Filter: /FlateDecode /Length: 381.0, q .913 0 0 .913 0 595.276 cm q 462.33906 0 0 655.95015 -3.064 -652.208 cm /Im24 Do Q 1 G 1 g BT /F1 12.4811 Tf 125.585 -462.55 Td[(#1)]TJ /F2 13.2657 Tf 19.932 0 Td[<0b450a3a0c2403c3029403bb0715037103cd03bb029403ef03da03bf03bd0377062c0ac5>] TJ

    PDFから「使える」テキストを取り出す(第3回) - golden-luckyの日記
  • PDFから「使える」テキストを取り出す(第2回) - golden-luckyの日記

    昨日は、PDF来の用途は「人間がPDFをビューワーで開いて読む」ことなので、そこから文字を抜き出すのは一筋縄ではいかない、という話をしました。 ではどうすればPDFファイルの中からテキストを取り出せるの、というのが今日の話の出発点です。 まず昨日の記事で、「PDFには国際的な規格があり、これはAdobeから『PDFリファレンスマニュアル』という形で無償で入手できる」という話をしたことを思い出してください。 昨日は話のついでみたいな感じで書きましたが、実を言うと、このリファレンスの中に、「PDFファイルの中に書き込まれているグリフを表示するための情報からUnicodeなテキストを取り出す手法」がちゃんと書いてあるのです。 具体的には、『PDFリファレンスマニュアル第6版』の §5.9 "Extraction of Text Content"に、その情報が一応整理されています。 ただし、言

    PDFから「使える」テキストを取り出す(第2回) - golden-luckyの日記
  • PDFから「使える」テキストを取り出す(第1回) - golden-luckyの日記

    PDFからテキストを取り出すのは、意外と大変です。 それにはいくつかの理由があるのですが、もっとも根的な点で真っ先に解決が必要になるのは、人間が雑に文字としてみなしている絵(「グリフ」)をコンピューターで扱えるような「文字」にする方法です。 これには2つのアプローチが考えられます。 PDFビューワーでファイルを開いた状態から何とかしてテキストを読み取る PDFファイルの中身を解析してテキストを抜き出す このうち2つめの話は明日以降にして、今日は1つめの話をします。 PDFビューワーでファイルを開いた状態から何とかしてテキストを読み取る方法 この方法は、言ってみれば、人間もしくは人間のように振る舞うソフトウェアによりPDFビューワーの表示を「視覚的に読む」ということです。 これはPDF来の使い道に即した手法です。 PDFというのは、グリフ(文字の形)をページ上に表示するための汎用の仕組

    PDFから「使える」テキストを取り出す(第1回) - golden-luckyの日記
  • ■ - golden-luckyの日記

    マッハ新書、β版で電子版を先行発売して紙を売り出すという、ここ10年来の英語圏における一部技術書の動向が、日語圏では技術書界に先立って新書という形で、トップダウンかつボトムアップに再発明されたものという感じがする(ポジティブな感想です)。 ここで、トップダウン的というのは、著者からという意味。ボトムアップ的というのは、読者からという意味。 日の出版をめぐる業界構造は、著者と読者が不在で、両者の間を出版社、取次、書店からなる三角形が取り結んでいる。 読者が支払った書籍の対価は、その三角形の中でぐるっと回遊し、その一部が著者に還元される。 もちろん、形式的なお金の流れは読者→書店→取次→出版社→著者なんだけど、この三角形の中でお金を回遊させることで、「コンテンツという水物をパッケージングして全国に配信する」という難事業に伴ういろんなリスクを回避してきたわけだ。 マッハ新書では、この三角形を

    ■ - golden-luckyの日記
  • ■ - golden-luckyの日記

    note.mu 言いたいことは、すごくよくわかる。でも、残念ながら、「読まれるテキストとは、読み飛ばせるテキストである」というのが圧倒的に正しい。だから、「読まれるテキスト」を考えるなら、元記事のように、「読み飛ばせるテキストにするにはどうするか」っていうのをスタートにしたほうがいいとおもう。 読み飛ばせるテキスト、ぜんぜん悪いものじゃないよ。読み飛ばすような内容もないのが、悪いテキスト。ちなみに、内容がないけど読み飛ばせないテキストっていうのが最高ですね。 そもそも、段落をちゃんと構成しなきゃいけないのは「読み飛ばせる」ようにするためだ。そういう構成ができているテキストを読むっていうのは、情報を取り入れるための最速な手段だといえる。 「あ、これ、ちゃんと分かりたいし、ちゃんと読まないと絶対に分からないやつだ」という人は、読み飛ばしたあと、読みなおしてくれる。だから、そのときに困らないよう

    ■ - golden-luckyの日記
  • 1