[B! Unicode] mziyut112のブックマーク

mziyut112 id:mziyut112

Unicodeに関するmziyut112のブックマーク (2)

君たちは正規表現におけるインド数字の罠にハマったことはあるかい？(١٢٣٤٥٦٧٨٩) - Qiita
import re re.match(r'\d{4}-\d{2}', '٢٠٢٢-٠٦') Pythonで書いてはいますが、内容を補足します。「'٢٠٢٢-٠٦'」という文字列が、数字4文字+ハイフン+数字2文字にマッチするかどうか、という正規表現を書いています。一見するとどう見ても数字4桁ではないので、正規表現にマッチしないように見えますよね？？？？実は正規表現にマッチします！！！というのが今回の記事の内容になります。そもそも正規表現における数字の扱いとは今回はPythonの正規表現のライブラリを利用しているので、公式のリファレンスを見てみましょう。該当の部分には以下のような記述があります。 \d Unicode (str) パターンでは: 任意の Unicode 10 進数字 (Unicode 文字カテゴリ [Nd]) にマッチします。これは [0-9] とその他多数の数字を
mziyut112 2022/06/25
Qiita

Unicode

RegExp

正規表現
リンク
Unicodeの異体字セレクターを使ったステガノグラフィ：秘密の文字列をテキストにこっそり隠し込む方法 - Qiita
Unicodeの異体字セレクター(variation selectors)を使い、ユニコード文字列内に隠し情報を埋め込む方法です。異体字セレクターとは異体字セレクターは、文字の字体を詳細に指定するモディファイアのようなもの異体字セレクターは16種類のコードポイントがある(FE00~FE0F) 仕組みの概要隠したい文字列(hidden)を文字単位にバラす (例: js → j, s) 文字ごとに16進数に変換する (例: j → 6A) その16進数をひと桁ずつ異体字セレクターのコードポイントにマッピングする (例: 6→FE06, A → FE0A) 異体字セレクターの配列をひとつの文字列にまとめなおす最後にそれを埋め込み先の文字列(body)に混ぜ込んで隠す。よくあるユニコードステガノグラフィーとの違いゼロ幅文字を使ったステガノグラフィー次のようなゼロ幅空白文字を用いたス
mziyut112 2022/06/07
Unicode

Qiita

文字コード

JavaScript
リンク
1