以前、資治通鑑を読むのを助けるために、漢文の検索システムを作ったと書いた。そのことについて述べたい。 現在、台湾や中国本土のウェブサイトを見ると所謂中国古典の原文がかなりアップロードされている。例えば、資治通鑑・卷046は、下記のURLで原文が入手できる。 http://zh.wikisource.org/zh-hant/資治通鑑/卷046 しかし、こういった文に対して検索するときに困った問題がいくつかある。 問題1:正字体(旧漢字)、異字体 これらのサイトの文字は、全て所謂旧漢字で書かれているため(例:學・学、體・体)検索のための入力文字を全て新漢字から旧漢字に事前に変換しておく必要がある。これがだいたい300文字ある。正しく変換するには、まずどの文字が旧漢字かを知らないといけないし、その旧漢字を正しく知っていないといけない。その旧漢字に類似の問題で、異字体というのもある。たとえば『隣・