タグ

2019年7月19日のブックマーク (1件)

  • イースト、 PDFからの構造化テキスト抽出に成功、岩波新書をEPUB化

    イースト株式会社(社:東京都渋谷区代々木、代表:熊野哲也)は、テキストPDFからの構造化テキストの取り出しに成功し、この技術を使った岩波新書EPUB化を開始しました。「EPUBpack(イーパブパック)」というクラウドストレージを使ったトータルサービスとして販売します。 抽出アプリは、PDFに目次頁、大見出し、小見出しなど若干のマークを付け、構造化されたマークダウン(簡易HTML)形式のテキストを出力します。その際、画像、表、グラフなどの図版はキャプション文字を組み込んだ画像ファイルが生成され、ルビ、窓見出し、頁単位の縦組み/横組み混在なども正しく抽出されます。 このマークダウンファイルを独自のCMS(コンテンツ管理クラウド)に入れ、電書協ガイドに沿った正確なEPUBを制作、「EPUB 3.2」にも対応します。CMSなので書籍の改訂が容易で、コンテンツの履歴管理にはGitを使用しています

    イースト、 PDFからの構造化テキスト抽出に成功、岩波新書をEPUB化