kotobukuのブックマーク - はてなブックマーク

kotobuku id:kotobuku

ブックマーク / shuyo.hatenablog.com (1)

Project Gutenberg のテキストデータから本文を抽出する - 木曜不足
Project Gutenberg は小説や詩、論文、教養書、演説原稿などなどなど、著作権切れあるいは著作権のないテキストの一大データベース。主にはやはり英語だが、他の諸言語のデータもそこそこある。このテキストはまるっと自由に使えるので、文章解析などをやるには宝の山。だけど、肝心のテキストの前後にヘッダやフッタや、とにかく様々な情報がくっついているのが、かなり難。ある程度書式を決めといてくれれば良かったのに*1、誰もが自由気まま勝手に制作していて、めっちゃフリーダムでアナーキーなことになっている。区切りのフォーマットがそもそもファイルによってバラバラだし。そんな区切りもあればいい方で、なんの区切りもなく「誰がスキャンしました」だの「間違ってるかもしれないからチェックしてね！」だの書いてあったり、最悪の場合、それが本文と空行１つしかあいてないという。しかたなくそのまま解析したりな
kotobuku 2008/11/24
*あとで読む

sss

sss英語学習法
リンク
1

お知らせ

もっと読む

公式Twitter

@HatenaBookmark
リリース、障害情報などのサービスのお知らせ
@hatebu
最新の人気エントリーの配信

キーボードショートカット一覧

j次のブックマーク

k前のブックマーク

lあとで読む

eコメント一覧を開く

oページを開く

設定を変更しましたx