今回のおはなしは、いいかげんみんなでよってたかって文書のテキスト・ファイル化をしましょうよというお話です。 書籍のテキスト化を進めているプロジェクトには、もはや誰にもおなじみの感があるプロジェクト・グーテンベルクや青空文庫などがあります。一方で、文書の画像を中心に公開しているのは、グーグル・ブック検索やインターネット・アーカイヴなどたくさんあります。日本語のものならさしずめ国会図書館の近代デジタル・ライブラリーでしょう。 しかし、これらのプロジェクトにはわたしたちにとってはざんねんなところがあります。 テキスト中心のプロジェクト プロジェクト・グーテンベルクのProof Readersの作業は、非常に分散されているのが特徴ですが、そのため自分の興味ある文書のテキスト化に必ず関われるかというと、ほぼそういうことはありません。これは、かなりやる気をそがれる部分です。もちろん、作業が分散されてい