タグ

ブックマーク / kanji-database.sourceforge.net (3)

  • 検索での異体字処理

    漢字の検索において、異体字・誤字などを考慮するには、以下の3種類の処理を行う必要があります。 (1) 異体字・誤字・通仮字の「マーク付け」 テキスト入力時に異体字や誤字の情報をXMLなどによってマーク付けします。そして検索用インデックスの作成時にマークで示される代替テキストの方をインデックス用のテキストとして置き換えます。 (2) 検索対象テキスト・検索キーの「フィルタリング」 テキスト中の異体字に対し、検索用インデックス作成時および検索キー入力時に、より一般的な漢字に置換したり、異体字選択子などの除去を行います。 (3) 検索時の「複数候補での検索」 異体字とは言えないものの、よく混同される漢字について、複数の候補で検索をします(「云う」と「言う」など)。 異体字フィルタ(Apache Lucene) 以下は、Apache Lucene にて転置インデックスを作成する際に、異体字をフィル

    mhrs
    mhrs 2009/03/14
    “漢字の検索において、異体字・誤字などを考慮するには、以下の3種類の処理を行う必要があります。”
  • 異体字データベース

    異体字データベースは、各種文献に記載されている異体字・関連字情報を収集・整理したものです。データの一部は、情報処理学会 試行標準 IPSJ-TS 0008:2007 「大規模漢字集合の異体字構造」に記載されている異体字情報を整理、バグフィックスしたものです。 全ての異体字関係は、「トリプル」形式で表現されます。これは、「漢字A」、「関係」、「漢字B」の3項目をカンマで区切って表現するものです。関係に対してコメント情報がある場合は、さらに4項目目に記述しています。また、「関係1」,"<rev>",「関係2」のトリプルにより、逆関係も定義します。 ファイル名    注記 UCS 互換漢字 compat-variants.txt

    mhrs
    mhrs 2008/12/30
    「JIS X 0213に記載されている異体字」など種々の異體字關係データ。「U+XXXXX」(5桁)形式のUnicodeで符號化されてゐる。ライセンス等はhttp://kanji-database.sourceforge.net/を參照。レポジトリの落し方は http://sourceforge.net/cvs/?group_id=26261
  • 漢字データベースプロジェクト

    概要 『漢字データベースプロジェクト』は、Unicode / UCS (Universal Multiple-Octet Coded Character Sets) によって符号化された漢字(CJK統合漢字)の情報交換・検索照合・分析に役立つ様々なデータベースを整備することを目的に、2003年度に日学術振興会科学研究費補助金・研究成果公開促進費(データベース)の援助を受けて開始しました。 各種漢字データファイルは、GitHubにて管理されており、GitHubサーバから取得することができます。 ライセンスについて プロジェクトのデータは、GPLライセンスおよびMITライセンスにて配布しています。 GPLライセンスによる配布 IDSデータ(ids.txt) 説文解字注(六書音均表等を含む)データ 宋廣韻データ 學生字典データ MITライセンスによる配布 上記以外のすべてのデータ(以下を含

  • 1