UTF-8 の文字コードから何語(どこの言語圏)の文字が使われているのか知りたい("U+XXXX" のコードポイント対応表)UTF-8Unicodeコードポイント言語判定スパム記事対策 것 = Hangul など、文字列から language を detect したい 文字列内で使われている文字の種類(ハングル文字、アラビア文字、タイ文字、etc)を、スパム検知などの成分、つまり機械学習の特徴の1つとして使いたい。 言語の検知はできなくても、少なくとも文字列内で使われている文字がハングル文字・ひらがな・カタカナ・etc なのかを取得できないか。 TL;DR(ユニコード文字データベース、文字コード割り当て表) Unicode には、各言語の文字(キャラクター)のブロックごとに名前が付いるので、ブロック名を取得する。 Unicode Character Database のブロック対応表: h