[B! regexp] clavierのブックマーク

正規表現エンジンを作ろう一覧

CodeZine編集部では、現場で活躍するデベロッパーをスターにするためのカンファレンス「Developers Summit」や、エンジニアの生きざまをブーストするためのイベント「Developers Boost」など、さまざまなカンファレンスを企画・運営しています。

clavier 2019/12/22

リンク

はじめに Goの正規表現は遅いと言われていることが以前から疑問だったので調査してみました。こちらの記事やこちらの記事を拝見する限り ① 現実的なユースケース(例えばURLのパースなど)ではGo言語の正規表現は使うべきではなく、stringsパッケージの標準の関数を利用した方がパフォーマンスとしては良い。 ② Go言語で正規表現を利用するために必要な"正規表現オブジェクト"を並行にアクセスするにはパフォーマンスが問題になるので注意が必要。とあります。その理由は、それぞれ以下に集約できるようです。 ① Go言語標準の正規表現ライブラリは、正規表現と検査文字列の長さに対して常に$O(n^2)$のオーダーで計算量が増加する安定したアルゴリズムを採用している。 ② "正規表現オブジェクト"を用いたマッチング処理には排他制御が行われている。調べてみる Go言語のpkg/regexpの公式ドキュメ

clavier 2019/08/26

リンク

golang で regexp パッケージを使うときに気をつけること - at kaneshin

golang の Regexp は初期化の Compile コストがそこそこありますが、実は正規表現のパターンと対象となる文字列によって、初期化コストが無視できる（パターンと文字列に支配される）くらい遅くなります。よく言われる regexp の初期化コスト問題が無視できると言われても、正直、全く嬉しくないですね。ただ、コーディング中に regexp パッケージを使わなければいけない場面は出てくるため、なるべくコストの掛からない実装を心がけています。 Compile/MustCompile 初期化コストはなくすため、グローバルに保持するようにします。定義 var re = regexp.MustCompile("[a-z]{3}") func main() { fmt.Println(re.FindAllString("foobarbazqux", -1)) // => [foo bar

clavier 2016/10/22

リンク

パフォーマンスを意識して正規表現を書く - Shin x Blog

正規表現を書く際、どのようなパターンにマッチさせるか、どこをキャプチャするかという視点で記述することはあっても、パフォーマンスを考えて記述するというのはある程度知っている人でなければ忘れがちな視点です。このエントリでは、バックトラックをメインに正規表現がパフォーマンスに及ぼす挙動について見ていきます。対象の正規表現エンジンここでは、従来型 NFA を対象としています。具体的には、PHP の preg_ 関数で利用している PCRE や mb_ereg 関数が利用している鬼車です。Perl や Ruby、Python、Java、.NET でも従来型 NFA を採用しているので、似た挙動となるでしょう。「従来型 NFA」や「バックトラック」などの用語については、「詳説正規表現第3版」のものを用いています。バックトラックによるマッチ探査正規表現エンジンでは、指定された文字列が、パ

clavier 2016/08/25

リンク

正規表現ジェネレーターコマンド『rgxg』を使ってみる | 俺的備忘録〜なんかいろいろ〜

諸事情あって正規表現について調べていたところ、どうやら正規表現を作成してくれる『rgxg』というコマンドがあるようだ。早速、インストールして使ってみよう。なお、検証したOSはUbuntu 14.04 LTSを用いている。 1.インストールまずはインストールから。以下のコマンドでインストール出来る。 sudo apt-get install rgxg これでインストールが出来た。 2.実行さて、それでは実際にコマンドを実行してみよう。詳細な使い方については、manで見てもらうとして、ここではいくつかの例を抜粋して紹介する。このrgxgコマンドでは、基本的には以下のようにサブコマンドを指定して正規表現を生成する。 rgxg [alternation,cidr,escape,range] 正規表現にしたい内容 blacknon@BS-PUB-UBUNTU-01:~$ rgxg Us

clavier 2016/02/20

リンク

PerlのRegexp::TrieをRubyに移植した - Islands in the byte stream

GitHub - gfx/ruby-regexp_trie: Optimized Regexp builder with Trie (a Ruby port of Perl's Regexp::Trie) # Gemfile gem 'regexp_trie' これははてなキーワードやWikipediaのリンクのように、ある程度の量のテキストに対して大量のキーワードをマッチさせるときに、最適化した正規表現を生成するライブラリです。はてなキーワード*1をとあるブログエントリ*2にマッチさせるための簡単なベンチマークもあります。 example/benchmark.rb 結果: $ bundle exec example/benchmark.rb (snip) user system total real Regexp raw 4.270000 0.030000 4.300000 ( 4.3

clavier 2016/01/22

リンク

漢字にマッチする JavaScript の正規表現パターン: Days on the Moon

たまに漢字にマッチする正規表現パターンを書きたいときがあります。Perl の正規表現だと Unicode のスクリプト名を使って \p{Han} で漢字にマッチさせられるのですが、JavaScript ではそうはいきません。JavaScript の正規表現には以下のふたつの問題があります。 Unicode スクリプト名の指定 (\p{...}) に対応していない。そもそも Unicode の符号位置に対してマッチさせられない (UTF-16 における符号単位に対するマッチになる)。 BMP 外の文字にマッチさせたいときは、サロゲートペアの符号単位を記述する必要がある。これに関しては ECMAScript 2015 で導入された /u フラグで解決する見込み。とはいえ、解決不能な問題というわけでもないので、Perl の \p{Han} を JavaScript に移植してみましょう。\

clavier 2016/01/01

リンク

正規表現：悪い表現、いい表現、最良の表現 | POSTD

わずかな文字がいかにしてパフォーマンスに大きな違いを生めるかというお話正規表現は、私たち開発者がことあるごとに駆使する呪文のようなものですが、私たちはそれをどんな時も巧みに使いこなしていると言えるでしょうか。正規表現は繊細で精密な言語です。入念な慎重さで記述してやれば、ボウリングで一瞬にして完璧なストライクを取るような強力なテキストとなり得ます。しかし、正規表現が精密さに欠ける状態で投げ出されると、さながら酔っ払いがよろよろとつまずきながらテキストの上を歩くがごとく、そのボールはぎこちなくボウリングのレーンを転がり、ピンを1つか2つ倒すだけで終わってしまうのです。これら2つの正規表現の違いは何なのか。何がいい表現と悪い表現を分けるのか。正規表現に素晴らしい力を与えるメカニズムを、この投稿で明かしてみようと思います。効果的な表現とそうでない表現との大きな違いをきっと分かってもらえるはず

clavier 2015/07/30

リンク

PHPの正規表現こう書くといいよ

if(preg_match('/^(?!(?:(?:\x22?\x5C[\x00-\x7E]\x22?)|(?:\x22?[^\x5C\x22]\x22?)){255,})(?!(?:(?: \x22?\x5C[\x00-\x7E]\x22?)|(?:\x22?[^\x5C\x22]\x22?)){65,}@)(?:(?:[\x21\x23-\x27\x2A\x2B\x2D\x2 F-\x39\x3D\x3F\x5E-\x7E]+)|(?:\x22(?:[\x01-\x08\x0B\x0C\x0E-\x1F\x21\x23-\x5B\x5D-\x7F]|(?:\x5C [\x00-\x7F]))*\x22))(?:\.(?:(?:[\x21\x23-\x27\x2A\x2B\x2D\x2F-\x39\x3D\x3F\x5E-\x7E]+)|(?:\x22( ?:[\x01-\x08\x0B

clavier 2015/06/26

php
regexp

リンク

「正規表現とg, iフラグ」　～マンガでプログラミング用語解説

CodeZine編集部では、現場で活躍するデベロッパーをスターにするためのカンファレンス「Developers Summit」や、エンジニアの生きざまをブーストするためのイベント「Developers Boost」など、さまざまなカンファレンスを企画・運営しています。

clavier 2015/03/11

regexp

リンク

正規表現リテラルは本当に必要なのか？

PyConJP2014発表資料。・正規表現リテラルは、**あれば便利だけどなくても困らない**（ライブラリでカバーできる）ことを説明する。・Pythonの正規表現が抱える問題点とその解決案を紹介する。

clavier 2015/03/06

リンク

「正規表現と繰り返し」　～マンガでプログラミング用語解説

CodeZine編集部では、現場で活躍するデベロッパーをスターにするためのカンファレンス「Developers Summit」や、エンジニアの生きざまをブーストするためのイベント「Developers Boost」など、さまざまなカンファレンスを企画・運営しています。

clavier 2015/01/14

regexp

リンク

正規表現を解析して可視化してくれるサイトが凄すぎる件

ある正規表現に対して、特定の文字列がマッチするかどうかをチェックするツールやサイトは沢山ありますが、正規表現そのものが何を意味しているのか、どんな文字列を期待しているのかを解析・解読・説明してくれるツールやサイトってなかなか見ない気がします。他人の書いた正規表現を見て、「ん？」ってなったことはありませんか？例えばこれ。 1 ^[a-zA-Z0-9-_.]@([a-zA-Z0-9_-]+\.)+[a-zA-Z]{2,4}$ これくらいなら分かりますが、複雑になってくるとつらい… いつかはマスターしたいけど…今は楽したい。そう思ってググってみると…ありました！それがこちら。 Regexper http://www.regexper.com/ 正規表現を入力して Display をクリックすると、その正規表現が表す内容を図にして表示してくれます。例えば先程の正規表現は、当記事の一番上の

clavier 2014/10/19

リンク

複雑な正規表現を分かりやすくするライブラリ『VerbalExpressions』 - Qiita

Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article?

clavier 2014/10/01

regexp

リンク

正規表現ばかりに頼ってはいけない - id:anatooのブログ

文字列のパースをする必要がある時、どんな文字列にでも何でもかんでも正規表現で処理しようとするエンジニアをたまに見かける。正規表現は確かに文字列を扱うための強力な手段だが、万能ではない。正規表現の性質上、そもそもパースできない文法があるからだ。従ってそういうケースの時には正規表現ではなく別の方法を使ったほうが良い。正規表現を無理やり使っても、バグを埋め込んだり、メンテナンスが難しかったり、正しく文字列をパース出来なかったりで良いことはあまりない。正規表現がパースできない文字列正規表現が苦手とする文法で一番よく言われるのは、再帰的な構文を含む文法である。例えば、括弧つきの数式なんかがそうで、1+1 でも (1+1) でも ( (1+1) ) でも ( ( (1+1) ) ) でも ( ( ( ( 1+1) ) ) ) でも、という風にいくらでも入れ子にできる。正規表現では、こういった文字

clavier 2014/09/30

リンク

Atom Flight Manual

AI & MLLearn about artificial intelligence and machine learning across the GitHub ecosystem and the wider industry. Generative AILearn how to build with generative AI. GitHub CopilotChange how you work with GitHub Copilot. LLMsEverything developers need to know about LLMs. Machine learningMachine learning tips, tricks, and best practices. How AI code generation worksExplore the capabilities and be

clavier 2014/07/06

リンク

JavaScript の正規表現についてまとめてみた

JavaScript において、文字列を正規表現にマッチさせるためのメソッドは、以下の4つがあります。 1. RegExp.test() 2. RegExp.exec() 3. String.match() 4. String.search() RegExpオブジェクトのメソッド(引数がStringオブジェクト)と、Stringオブジェクトのメソッド(引数がRegExpオブジェクト)があり、しかもすべてのメソッドで微妙に動作が違うので、非常に紛らわしい… ということで、これらがどう違うのか、どう使い分ければいいかをまとめてみました。 ## RegExp.test() とString.search() まずはパターンにマッチするかどうかだけをチェックしたい時。あるパターンが文字列に存在するかどうかだけを知りたいときは、RegExp.test() または String.search() を使

clavier 2014/06/25

リンク

Rubyの正規表現まわりで最近知ったことのメモ - Qiita

Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article?

clavier 2014/05/27

Ruby
regexp

リンク

Rubular: a Ruby regular expression editor and tester

Rubular is a Ruby-based regular expression editor. It's a handy way to test regular expressions as you write them. To start, enter a regular expression and a test string. Or you can try an example.