タグ

unicodeとphpに関するgayouのブックマーク (2)

  • UTF-8 の文字コードから何語(どこの言語圏)の文字が使われているのか知りたい("U+XXXX" のコードポイント対応表) - Qiita

    UTF-8 の文字コードから何語(どこの言語圏)の文字が使われているのか知りたい("U+XXXX" のコードポイント対応表)UTF-8Unicodeコードポイント言語判定スパム記事対策 것 = Hangul など、文字列から language を detect したい 文字列内で使われている文字の種類(ハングル文字、アラビア文字、タイ文字、etc)を、スパム検知などの成分、つまり機械学習の特徴の1つとして使いたい。 言語の検知はできなくても、少なくとも文字列内で使われている文字がハングル文字・ひらがな・カタカナ・etc なのかを取得できないか。 TL;DR(ユニコード文字データベース、文字コード割り当て表) Unicode には、各言語の文字(キャラクター)のブロックごとに名前が付いるので、ブロック名を取得する。 Unicode Character Database のブロック対応表: h

    UTF-8 の文字コードから何語(どこの言語圏)の文字が使われているのか知りたい("U+XXXX" のコードポイント対応表) - Qiita
  • Joomla! 3.4まではUTF-8の4バイト文字を悪用して重複するログイン名が登録できた

    以前の記事CMS四天王のバリデーション状況を調査したところ意外な結果になったで報告したように、Joomla!はログイン名の制限が非常にゆるやかになっています。であれば、🍣とか、💩などを含むログイン名が登録できるのだろうかという疑問が生じました。 とはいえ、以前、Joomla!の「ゼロデイコード実行脆弱性」はPHPの既知の脆弱性が原因で報告したように、少なくともJoomla! 3.4.5までは、MySQLの設定上 UTF-8 の4バイト文字は登録できず、それ以降の文字が全て切り詰められるという問題がありました。 このため、「admin🍣」というログイン名を登録しようとすると、🍣の切り詰めが起こって、adminユーザを二重に登録できなるのではないでしょうか? 試してみる Joomla! 3.4.8の環境を用意して管理者ユーザーを「admin」としておきます。下記のように、default

    Joomla! 3.4まではUTF-8の4バイト文字を悪用して重複するログイン名が登録できた
  • 1