タグ

漢字に関するotani0083のブックマーク (6)

  • 漢字の調べ方 (レファレンス事例・ツール紹介(12)):アジア情報室通報 16巻4号 | アジア諸国の情報をさがす | 国立国会図書館

    漢字の総数は5万字ともそれ以上とも言われます[1]が、日常的に使われているのは、その一部でしかありません。当課では、資料や書画などで知らない漢字を見かけた利用者の方から、読み、意味等についてお問合せを受けることもあります。稿では、2つの質問を例として、パソコン上・ウェブ上で利用できるツールを中心に、漢字の調べ方をご紹介します。 *【 】内は当館請求記号、ウェブサイトの最終アクセス日は2018年11月27日です。 1. 部首や総画数が不確かな漢字 質問①「右図の漢字の読みと意味を調べたい。総画数は20画だと思うが、『大漢和辞典』の総画索引を引いても見つからない。」 漢字を調べる際は漢和辞典の音訓・総画・部首索引を引くのが一般的な方法ですが、特に総画数が不確かな漢字は簡単には見つからないことがあります。『大漢和辞典』【KF4-E18】の総画索引の20画の項を見ても、確かにそれらしい漢字は見当

  • 漢字データベースプロジェクト

    概要 『漢字データベースプロジェクト』は、Unicode / UCS (Universal Multiple-Octet Coded Character Sets) によって符号化された漢字(CJK統合漢字)の情報交換・検索照合・分析に役立つ様々なデータベースを整備することを目的に、2003年度に日学術振興会科学研究費補助金・研究成果公開促進費(データベース)の援助を受けて開始しました。 各種漢字データファイルは、GitHubにて管理されており、GitHubサーバから取得することができます。 ライセンスについて プロジェクトのデータは、GPLライセンスおよびMITライセンスにて配布しています。 GPLライセンスによる配布 IDSデータ(ids.txt) 説文解字注(六書音均表等を含む)データ 宋廣韻データ 學生字典データ MITライセンスによる配布 上記以外のすべてのデータ(以下を含

  • Unicodeの異体字操作に便利なツール「異体字セレクタセレクタ」 - digitalnagasakiのブログ

    今回は、Unicodeで異体字を扱う際の便利ツール、「異体字セレクタセレクタ」のご紹介です。 みなさま、パソコンやスマホ・携帯などで文字入力をする時、最近は特に文字がUnicodeかどうかなど、気にすることもなくなってきていることが多いのではないかと思います。漢字だけでもそろそろ8万字種を超えようとしているような状況で、日常の利用で不便を感じる人はかなり少ないだろうと想像しております。 しかし一方で、Unicodeでは同じ文字だとして「包摂」扱いにされた字形の相違にこだわりを持っておられる方も依然としていらっしゃることと思います。最近は、そのような「文字としては同じだけど字形が違場合」にもきちんとテクストデータレベルで区別できるようにする仕組みが広まってきています。すでにWindowsでもMacでも使えるようです。Unicode Consortiumが提供するこの仕組みは、IVS(Ideo

    Unicodeの異体字操作に便利なツール「異体字セレクタセレクタ」 - digitalnagasakiのブログ
    otani0083
    otani0083 2017/01/18
    学部時代にこれがあったらとてもよかった。
  • 検索での異体字処理

    漢字の検索において、異体字・誤字などを考慮するには、以下の3種類の処理を行う必要があります。 (1) 異体字・誤字・通仮字の「マーク付け」 テキスト入力時に異体字や誤字の情報をXMLなどによってマーク付けします。そして検索用インデックスの作成時にマークで示される代替テキストの方をインデックス用のテキストとして置き換えます。 (2) 検索対象テキスト・検索キーの「フィルタリング」 テキスト中の異体字に対し、検索用インデックス作成時および検索キー入力時に、より一般的な漢字に置換したり、異体字選択子などの除去を行います。 (3) 検索時の「複数候補での検索」 異体字とは言えないものの、よく混同される漢字について、複数の候補で検索をします(「云う」と「言う」など)。 異体字フィルタ(Apache Lucene) 以下は、Apache Lucene にて転置インデックスを作成する際に、異体字をフィル

  • 漢字1文字が最大8バイト、Unicodeの「IVS」とは?

    「漢字1文字は2バイト」という常識が、大きく変わろうとしている。現在改正中の「常用漢字表」に対応するためには、Unicodeの4バイト文字を使用する必要があるが、それだけでは済まない恐れがある。今後、戸籍や住民基台帳で使われている文字がUnicodeに追加されると、漢字1文字が最大8バイトになるかもしれない。文字コードに詳しい京都大学人文科学研究所附属東アジア人文情報学研究センターの安岡孝一准教授が、問題の核心を解説する。(日経コンピュータ) 先日公開した『新常用漢字表が迫るUnicode移行、「シフトJIS」では対応不可能』の読者から、「今後のシステムでは漢字1文字を最大4バイトで処理すればいいのか」という質問を頂いた。実は、UTF-8あるいはUTF-16で漢字を表す場合、最新のUnicodeにおけるIVS(Ideographic Variation Sequence)を考慮すると、漢

    漢字1文字が最大8バイト、Unicodeの「IVS」とは?
  • 新旧字体表 - CyberLibrarian

    新旧字体の表です。 2010年に改定された常用漢字表および人名用漢字に収録されている漢字に対し、「角川新字源」における旧字体の収録状況を確認したものです。ただし、旧字体が「角川新字源」に収録されていても、包摂規準に当てはまる等の理由でJISでは新字体と同じコードに包摂されていると見なせるものは除きました。 一部の文字はUnicodeの数値文字参照で記述しているため、OSやブラウザのバージョンなどの環境によっては、文字化けする可能性があります。 常用漢字表 常用漢字表に収録されている漢字の新旧字体371組です。 常用漢字表に旧字体が収録されているもの364組(新字「弁」に対して旧字「辨」「瓣」「辯」が存在しているため、新字362字、旧字364字) これらには、「角川新字源」では旧字扱いになっていないものも含まれています。 常用漢字表に旧字体が収録されていないが「角川新字源」では旧字が収録され

  • 1