ブックマーク / golden-lucky.hatenablog.com (1)

  • PDFから「使える」テキストを取り出す(第4回) - golden-luckyの日記

    昨日までで、PDFからテキストを取り出すにあたり、グリフから文字を手に入れるところまでを説明しました。 いや当のことを言うと、まだ全然説明できてないんです。 でも、文字の話ばかりしていても先に進めないので、今日は(可能な場合には)PDFから文字を入手できるものとし、そこからテキストを再構築する話に進みます。 文字については改めて明後日にでも補足記事を書くかも(このシリーズはいちおう今日と明日で終わる予定)。 PDFオペレータを読むとグリフを置く場所がわかる 昨日に引き続き、次のようなテキストセクションで考えます。 グリフから文字の解決は済んでいるということにして、TJオペレータの引数は文字そのものに置き換えました。 BT /F1 12.4811 Tf 125.585 -462.55 Td [(#1)] TJ /F2 13.2657 Tf 19.932 0 Td [(代数的データ型とパター

    PDFから「使える」テキストを取り出す(第4回) - golden-luckyの日記
    koyancya
    koyancya 2019/12/04
    PDF の中身見るやつ、懐かしいな......
  • 1