タグ

ブックマーク / shinya131-note.hatenablog.jp (1)

  • あるUnicodeの文字列が中国語かどうかを判定したい - 機略戦記

    このエントリを書いた人間はUnicodeや中国語について素人です。 このエントリに載っている情報は誤っている可能性があります。 結論 厳密では無いが、Unicode Han Database(Unihan)を参照して広東語または北京語の発音を持ちかつ音読みまたは訓読みの発音を持たない文字が含まれているかどうかで判定できそうだ。 概要 最初に試みた方法: 「/[ぁ-ん]/にマッチする文字列を取り出すことでひらがなのみが取り出せるように、中国語のみを正規表現で取り出せないか」。 Unicode上で漢字は、中国語・日語・朝鮮語で使われている漢字をひとまとめにしたCJK統合漢字という概念で扱われているので無理だった。 https://ja.wikipedia.org/wiki/CJK%E7%B5%B1%E5%90%88%E6%BC%A2%E5%AD%97 Unihanには、ある漢字の読みの情報が

    あるUnicodeの文字列が中国語かどうかを判定したい - 機略戦記
  • 1