タグ

2017年3月2日のブックマーク (1件)

  • 青空文庫から.txtファイルの未来へ:パブリックドメインと電子テキストの20年

    民間のボランティアによって運営されているインターネット上のテキストアーカイブたる青空文庫注1)は,1997年7月7日の開設から早くも20年近くがたとうとしているが,今ではおよそ1万4,000点の電子テキストを収める国内有数のWebサイトにまで発展している(図1)。 稿では,その青空文庫が取り扱っている電子テキストに焦点を当て,フォーマットやツールあるいはビューアーなどの実作業にまつわる点から,JIS漢字コードをめぐる諸問題やファイルの変換や活用に至るまでを,青空文庫に長く携わってきた立場から解説してみたい。 現在,青空文庫で作業する際のよりどころとしているのは,テキストファイル(拡張子.txt),いわゆるプレーンテキストである。どのボランティアもまずはこのファイル形式で書籍を電子化し,そのあとでXHTMLファイルを自動作成して,両ファイルを公開するという手順が踏まれ,Web上で簡易閲覧す