[B! 正規表現] t_moriのブックマーク

RubyKaigi 2023での発表の「2進数の足し算を計算する正規表現」の解説

RubyKaigi 2023で「Make Regexp#match much faster」という発表をします、@makenowjust です。この発表では、ReDoS対策のためにRuby 3.2で導入された、正規表現マッチング (Regexp#match) のメモ化による最適化について解説します。さて、発表の中に次のようなスライドがあります。このスライドはRubyの正規表現がいかに強力かを説明するためのもので、例として「2進数の足し算を計算する正規表現」を示しています。また、このツイートで使っている正規表現も、実はこの正規表現です。今回の記事では、この「2進数の足し算を計算する正規表現」の解説をしていきたいと思います。「2進数の足し算を計算する正規表現」コピペがしやすいように、スライドの画像ではなくテキストのコードで上の正規表現を出しておきます。 RE = /(?<s>[

t_mori 2023/05/11

正規表現

リンク

正規表現の先読み・後読み

正規表現の「先読み（lookahead）」「後読み（lookbehind）」について紹介します。正規表現の「位置へのマッチ」正規表現は、文字列のパターンマッチに使われます。たとえば [0-9]{4} は数字4つが並ぶ文字列にマッチする表現です。多くの正規表現は「文字列」にマッチしますが、「文字列」ではなく「位置」にマッチする表現があります。これは、アンカーと呼ばれます。また、長さ0の文字列にマッチすると考えて、ゼロ幅アサーションとも呼ばれます。アンカーの例として、^（先頭）$（末尾）\b（単語の境界）などがあります。この例では、cat にはマッチします。一方、category や concat は cat を含みますが前後が単語の境界になっていないためマッチしません。先読み先読み（lookahead）は、位置にマッチする記法の一種です。位置の指定に正規表現を使います。(?=

t_mori 2022/08/23

正規表現

リンク

正規表現の脆弱性 (ReDoS) を JavaScript で学ぶ

先日、このようなツイートを書いたところ、かなりの反響がありました。 JavaScript の正規表現の脆弱性の例でいうと、例えば /\s+$/ は脆弱性があると言える console.time(); /\s+$/.test(" ".repeat(65536) + "a"); console.timeEnd(); 結構時間がかかるのがわかる。でも /\s+$/ を見て「これは危険だな」と理解出来る人はそんなにいない。JavaScript に限らないけれど。 — Takuo Kihira (@tkihira) February 17, 2022 これは一般に ReDoS (Regular expression Denial of Service) と呼ばれる脆弱性です。正確に理解するのが難しい脆弱性なので、少し解説してみたいと思います。結論長い記事になるので、最初に「とりあえずこれだけ知っ

t_mori 2022/02/18

正規表現

リンク

PHPでは正規表現コンパイル結果のキャッシュが暗黙に行われている - hnwの日記

筆者がPHPをさわり始めたころ、「PerlのコレはPHPではどうやるんだろう？」と思うことが頻繁にありました。一部の疑問については解説を見つけたり自分でソースコードを読んだりして解決したものの、考えるのをやめてしまったものもあります。その一つが正規表現コンパイル結果の保存に関するもので、最近まで完全に忘れていました。正規表現のコンパイルというのは与えられた正規表現を解釈して実行しやすいデータ構造に変換する作業のことを指します。具体的にはDFA（決定性有限オートマトン）を構成するか、正規表現エンジン内部で用いられるVM命令列に変換するかといった処理になります。これらは複雑な処理ですので、性能の観点で言えば同じ正規表現に対するコンパイル処理はできるだけ繰り返したくありません。 Perlの場合、/foobar/ のようなスタティックな正規表現のコンパイルは1回しか行われません。一方で、正規表現

t_mori 2016/10/30

リンク

Unicodeプロパティを使ったPerl正規表現 - Hatena Developer Blog

こんにちは、Webアプリケーションエンジニアのid:nanto_viです。 Webアプリケーションを作っていると、「全角文字と半角文字を統一したい」「ユーザーの入力から漢字を抜き出したい」といったテキスト処理を行う場面にたびたび遭遇します。はてなではWebアプリケーションのサーバー側プログラミング言語としてPerlを多く使っていますが、PerlならこのようなときにUnicodeプロパティを用いた正規表現パターンで柔軟な処理が可能です。 Unicodeプロパティ現在、ほとんどのプラットフォームで採用されている文字集合がUnicodeです。Unicodeでは文字だけでなくその文字の様々な特性(プロパティ)も定められており、テキスト処理の基礎情報として活用できます。 Perl正規表現でのUnicodeプロパティの利用 Perlの正規表現では、\p{Property_Name=Value}のよう

t_mori 2016/05/31

正規表現

リンク

正規表現で素数判定 - NO!と言えるようになりたい

追記：ハッキリ言ってこの正規表現はネタなので，実際に素数判定を行いたい場合は，もっと別な賢いアルゴリズムを使ったほうが良いです正規表現で素数が判定できるという記事を見たので試してみた． http://www.noulakaz.net/weblog/2007/03/18/a-regular-expression-to-check-for-prime-numbers/ この記事によると /^1?$|^(11+?)\1+$/ という正規表現を使うと，素数判定が出来るらしい．ある整数 n が素数かどうか判定したい場合は，"1" * nという文字列がこの正規表現にマッチするかどうかを調べればよく，マッチすれば非素数，マッチしなければ素数となる．ただし，"1" * n は，例えば，n が 4 ならば "1111" と 1 が 4 回連続して続く文字列となる． Rubyで書いた素数判定プログラムはこん

t_mori 2010/07/22

リンク

Amazon.co.jp: 正規表現クックブック: Jan Goyvaerts (著), Steven Levithan (著), 長尾高弘 (翻訳): 本

t_mori 2010/04/22

リンク

「正規表現処理の実装」でシンプルなものから高機能なものまで出来るだけ沢山紹介してください。…

「正規表現処理の実装」でシンプルなものから高機能なものまで出来るだけ沢山紹介してください。言語は問いません(C/C++,Java,PHP,Ruby,Python,Perlなど)。とくに一番シンプルなものが見たいです。

t_mori 2010/01/19

正規表現

リンク

regexp - ^$でなくて\A\zを使おう : 404 Blog Not Found

2009年03月09日00:30 カテゴリLightweight LanguagesTips regexp - ^$でなくて\A\zを使おうまずは回答から。正規表現で「制御文字以外」のチェック - ockeghem(徳丸浩)の日記文字エンコーディングの妥当姓制御文字(\x00〜\x1f, \x7f)のチェック文字列長のチェックこのうち後ろ二つを正規表現として書くにはどうすればいいかを考えていました。こういう時には、「全文字がOKならOK」と考えるのではなく、「一文字でもNGならNG」と考えると楽になります。それは「スペースと非制御文字以外」なのですから、/[^ \S]/が求めていた正規表現で、=~ではなく!~が使うべき演算子ということになります。全角スペースもOKにしたければ、/[^ \x{3000}\S]/。[追記参照] [Run via Codepad] #!perl -

$regexp - ^$でなくて\A\zを使おう : 404 Blog Not Found$

t_mori 2009/03/10

リンク

正規表現に見切りをつけるとき

Perl, Rubyなど手軽に使えるプログラミング言語に慣れてくると、あらゆるテキストデータの処理に正規表現(regular expression)を使ってしまいがちです。けれど実は、正規表現の処理能力を超えるフォーマットというのが存在します。その典型的な例が、XMLやJSONのように、入れ子になったデータフォーマットです。

t_mori 2009/01/29

リンク

正規表現の機能の覚書き

はじめに「はじめての正規表現」がホッテントリ入りしていますが、導入としては、何に使うのかがわかりやすくて良いのではないかと思います。あれを見て、基本機能をまとめてみたくなったので、正規表現の基本的な機能について書いてみます。（正規表現が初めてという人は「はじめての正規表現」を先に見たほうがいいと思います。）例では「検索」か「置換」をするものとして話を進めていきます。（「はじめての正規表現」が実例を中心にしたのに対して、こちらは機能を中心に書きます）正規表現は、プログラミング言語やその他のツールなど、それぞれで微妙な違い（方言）があるので、その点には注意が必要です。（表記法が違ったり、ここに紹介する機能がサポートされていなかったり、逆に紹介していない機能をサポートしていたりする場合があります）メタ文字とリテラル文字正規表現には、メタ文字とリテラル文字というものがあります。メ

t_mori 2008/09/23

リンク

http://higashizm.sakura.ne.jp/reg/

t_mori 2008/09/22

正規表現

リンク

正規表現の問題集1（基本編）

CodeZine編集部では、現場で活躍するデベロッパーをスターにするためのカンファレンス「Developers Summit」や、エンジニアの生きざまをブーストするためのイベント「Developers Boost」など、さまざまなカンファレンスを企画・運営しています。

t_mori 2008/09/05

リンク

404 Blog Not Found: get($one) if $you =~ /regexp user/;# 書評 - 入門正規表現

2008年03月07日00:00 カテゴリ書評/画評/品評Lightweight Languages get($one) if $you =~ /regexp user/;# 書評 - 入門正規表現技術評論社書籍編集部池本さんより献本御礼。入門正規表現岩谷宏初出2008.03.05;販売開始まで掲載 404 Blog Not Found:書評x3 - SQL 本三大対決言語内言語としてこれだけ使われるようになったSQL。そうするともう一つの言語内言語、正規表現が気になる。しかしこちらの方はSQLと違って、現在のところ「フクロウ本」の一人勝ちのように思える。誰か書かない? キタコレ！それも想定の範囲内の出版社と、想定の範囲外の著者の組み合わせで。本書「入門正規表現」は、タイトルどおりの本。正規表現に関しては今まで「フクロウ本」こと「詳細正規表現」がほぼ唯一の選択肢だったが、原著も訳

t_mori 2008/03/08

リンク

正規表現メモ

\x{} \pは後続する名前が表すクラス(プロパティ、スクリプト、ブロック)に属する文字にマッチし、 \Pは後続する名前のクラスに属さない文字にマッチします。クラスの名前が一文字のときはブレースを省略できます。クラス名の前に^を置くことにより否定形の指定を行うことも可能です。 Perl 5.8 での変更点 Perl5.8以降(5.6でも使えたようですが)では \pや\Pで始まるプロパティ指定に標準Unicode属性を使うこともできます。詳しくは perlunicode perlunicode - Perl における Unicode サポートを参照してください。日本語による説明が Unicodestandard にもあります。 Perl 5.8以降ではユーザーが任意のプロパティを作成することができます (IsまたはInを必ず前置)。詳しくは perlunicode perluni

t_mori 2007/05/24

リンク

【インフォシーク】Infoseek ：楽天が運営するポータルサイト

日頃より楽天のサービスをご利用いただきましてありがとうございます。サービスをご利用いただいておりますところ大変申し訳ございませんが、現在、緊急メンテナンスを行わせていただいております。お客様には、緊急のメンテナンスにより、ご迷惑をおかけしており、誠に申し訳ございません。メンテナンスが終了次第、サービスを復旧いたしますので、今しばらくお待ちいただけますよう、お願い申し上げます。

t_mori 2007/01/26

リンク

はてなブックマーク

タグ

関連タグで絞り込む (9)

正規表現に関するt_moriのブックマーク (16)

お知らせ

今週のはてなブックマーク数ランキング（2024年7月第2週）

はてなブックマーク透明性レポート（2024年 2月-2024年4月）

今週のはてなブックマーク数ランキング（2024年7月第1週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス