タグ

2018年9月9日のブックマーク (3件)

  • 外字注記辞書編纂プロジェクトの紹介

    2007年5月18日 作成開始 2007年7月7日 公開 2007年11月7日 修正 2011年7月25日 最終修正 青空文庫外字注記辞書編集グループ 青空文庫で私たちがやろうとしていることは、テキストの〈交換〉だ。一台の孤立したマシンの画面上に、何万字もの漢字が表示できたり、プリントアウトできたとしても、そのファイルを不特定多数の人の手許で正しく表示できないのなら、少なくとも私たちが目指す〈交換〉の観点からすれば意味がない。 青空文庫は、依拠する漢字コードの包摂規準は、〈交換〉を一義とする以上、受け入れるしかないという前提に立っている。 包摂されるのか別字として取り扱われるのかを素早く判断することは不可能だ。 青空文庫と外字からの抜粋 外字注記辞書編纂プロジェクトの夜明け 上記でも述べられているように入力や校正作業で困ることの一つに、入力された文字と底の文字の違いをどう判断するかという

    kinohiko
    kinohiko 2018/09/09
    青空文庫のテキスト作成時の外字注記のための辞書。(青空文庫はJIS第1・第2水準の範囲で漢字を表示するが、それ以外の字は注記をしている)
  • 青空文庫の応援ページ

    このWebページについて 「青空文庫の応援ページ」では、結城浩が青空文庫の作業者(工作員)向けのツールを約20年間に渡って公開していました。 公開していたツールは以下の通りです。 相違点チェッカー 文字コード取得ツール 旧字体置換可能チェッカー「校閲君」 文字チェッカー 誤認文字リスト 現在は青空文庫にツールを移管しています。 これまでの履歴 2021年4月12日、ツールの公開を停止し、青空文庫に移管しました。 2002年4月16日、「文字チェッカー」をバージョンアップしました。 2001年12月16日、「文字チェッカー」をバージョンアップしました。 2001年12月15日、「校閲君」に長さチェック機能を入れました。 2001年2月25日、「相違点チェッカー」を公開しました。 2001年2月11日、「文字コード取得ツール」のスクリプトをバージョンアップしました。 2001年2月5日、「文字

  • 青空文庫から.txtファイルの未来へ:パブリックドメインと電子テキストの20年

    民間のボランティアによって運営されているインターネット上のテキストアーカイブたる青空文庫注1)は,1997年7月7日の開設から早くも20年近くがたとうとしているが,今ではおよそ1万4,000点の電子テキストを収める国内有数のWebサイトにまで発展している(図1)。 稿では,その青空文庫が取り扱っている電子テキストに焦点を当て,フォーマットやツールあるいはビューアーなどの実作業にまつわる点から,JIS漢字コードをめぐる諸問題やファイルの変換や活用に至るまでを,青空文庫に長く携わってきた立場から解説してみたい。 現在,青空文庫で作業する際のよりどころとしているのは,テキストファイル(拡張子.txt),いわゆるプレーンテキストである。どのボランティアもまずはこのファイル形式で書籍を電子化し,そのあとでXHTMLファイルを自動作成して,両ファイルを公開するという手順が踏まれ,Web上で簡易閲覧す