タグ

2019年7月19日のブックマーク (2件)

  • イースト、 PDFからの構造化テキスト抽出に成功、岩波新書をEPUB化

    イースト株式会社(社:東京都渋谷区代々木、代表:熊野哲也)は、テキストPDFからの構造化テキストの取り出しに成功し、この技術を使った岩波新書EPUB化を開始しました。「EPUBpack(イーパブパック)」というクラウドストレージを使ったトータルサービスとして販売します。 抽出アプリは、PDFに目次頁、大見出し、小見出しなど若干のマークを付け、構造化されたマークダウン(簡易HTML)形式のテキストを出力します。その際、画像、表、グラフなどの図版はキャプション文字を組み込んだ画像ファイルが生成され、ルビ、窓見出し、頁単位の縦組み/横組み混在なども正しく抽出されます。 このマークダウンファイルを独自のCMS(コンテンツ管理クラウド)に入れ、電書協ガイドに沿った正確なEPUBを制作、「EPUB 3.2」にも対応します。CMSなので書籍の改訂が容易で、コンテンツの履歴管理にはGitを使用しています

    イースト、 PDFからの構造化テキスト抽出に成功、岩波新書をEPUB化
    masah3
    masah3 2019/07/19
    すばらしい。重版されず事実上の絶版になっている岩波本がオンラインで読めるようになる(サービス開始時期はまだ不明のようですが): イースト、 PDFからの構造化テキスト抽出に成功、岩波新書をEPUB化
  • Open Syllabus

    Mapping the college curriculum across 20.9 million syllabi.Open Syllabus is a massive non-profit archive of the main activity of higher education: teaching. It provides top-down views of the curriculum across thousands of schools to support curricular innovation, lifelong learning, and student success. Open Syllabus works to expand the boundaries of open education. Most of its tools are free to us

    Open Syllabus
    masah3
    masah3 2019/07/19
    世界中の大学のシラバスを集めて分析するOpen Syllabus Explorerというサイトがある。集めたシラバスは600万以上。教科書のランキングをみたり、その関係を調べたりできる。錚々たる教科書の1位はおなじみElements of Style。プラ