タグ

ブックマーク / shuyo.hatenablog.com (1)

  • Project Gutenberg のテキストデータから本文を抽出する - 木曜不足

    Project Gutenberg は小説や詩、論文、教養書、演説原稿などなどなど、著作権切れあるいは著作権のないテキストの一大データベース。主にはやはり英語だが、他の諸言語のデータもそこそこある。 このテキストはまるっと自由に使えるので、文章解析などをやるには宝の山。 だけど、肝心のテキストの前後にヘッダやフッタや、とにかく様々な情報がくっついているのが、かなり難。 ある程度書式を決めといてくれれば良かったのに*1、誰もが自由気まま勝手に制作していて、めっちゃフリーダムでアナーキーなことになっている。 区切りのフォーマットがそもそもファイルによってバラバラだし。 そんな区切りもあればいい方で、なんの区切りもなく「誰がスキャンしました」だの「間違ってるかもしれないからチェックしてね!」だの書いてあったり、最悪の場合、それが文と空行1つしかあいてないという。 しかたなくそのまま解析したりな

    Project Gutenberg のテキストデータから本文を抽出する - 木曜不足
  • 1