タグ

Qiitaとregexに関するni66lingのブックマーク (2)

  • 君たちは正規表現におけるインド数字の罠にハマったことはあるかい?(١٢٣٤٥٦٧٨٩) - Qiita

    import re re.match(r'\d{4}-\d{2}', '٢٠٢٢-٠٦') Pythonで書いてはいますが、内容を補足します。「'٢٠٢٢-٠٦'」という文字列が、数字4文字+ハイフン+数字2文字にマッチするかどうか、という正規表現を書いています。 一見するとどう見ても数字4桁ではないので、正規表現にマッチしないように見えますよね???? 実は正規表現にマッチします!!!というのが今回の記事の内容になります。 そもそも正規表現における数字の扱いとは 今回はPythonの正規表現のライブラリを利用しているので、公式のリファレンスを見てみましょう。 該当の部分には以下のような記述があります。 \d Unicode (str) パターンでは: 任意の Unicode 10 進数字 (Unicode 文字カテゴリ [Nd]) にマッチします。これは [0-9] とその他多数の数字を

    君たちは正規表現におけるインド数字の罠にハマったことはあるかい?(١٢٣٤٥٦٧٨٩) - Qiita
  • pythonで絵文字を駆逐する - Qiita

    データ分析の前処理とかMysqlデータベースとかに入れるときに3時間くらい戦ったので記録を残しておきます。 邪魔な奴らのご紹介 🤗 ⭕ 🤓 🤔 🤘 🦁 ⭐ 🆗 🆖 🈲 🤐 🤗 🤖 🤑 🆙 ⏩ 当に邪魔です。消えてください!🤔 最後のこいつとかなんなんですか!! 消す方法1正規表現をつかう まず最初以下のGithubを参考にして正規表現で試しました。 大体の奴らは消えたのですが、🤔 こいつとか🤓 こいつとか複数生き残ってました。 消す方法2 emojiを使う

    pythonで絵文字を駆逐する - Qiita
  • 1