[B! Programming][regular_expression] pipeheadのブックマーク

pipehead id:pipehead

Programmingとregular_expressionに関するpipeheadのブックマーク (26)

複雑な正規表現を分かりやすくするライブラリ『VerbalExpressions』 - Qiita
Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article?
pipehead 2014/09/30
programming

regular_expression
リンク
正規表現ばかりに頼ってはいけない - id:anatooのブログ
文字列のパースをする必要がある時、どんな文字列にでも何でもかんでも正規表現で処理しようとするエンジニアをたまに見かける。正規表現は確かに文字列を扱うための強力な手段だが、万能ではない。正規表現の性質上、そもそもパースできない文法があるからだ。従ってそういうケースの時には正規表現ではなく別の方法を使ったほうが良い。正規表現を無理やり使っても、バグを埋め込んだり、メンテナンスが難しかったり、正しく文字列をパース出来なかったりで良いことはあまりない。正規表現がパースできない文字列正規表現が苦手とする文法で一番よく言われるのは、再帰的な構文を含む文法である。例えば、括弧つきの数式なんかがそうで、1+1 でも (1+1) でも ( (1+1) ) でも ( ( (1+1) ) ) でも ( ( ( ( 1+1) ) ) ) でも、という風にいくらでも入れ子にできる。正規表現では、こういった文字
pipehead 2014/09/27
> 正規表現が苦手とする文法で一番よく言われるのは、再帰的な構文を含む文法である。

programming

regular_expression
リンク
Perlの正規表現で条件分岐する方法
Perlの正規表現で条件分岐する方法を紹介します。１．Perlの正規表現で条件分岐するたとえば文字列の先頭に「"」が存在する場合、文字列の末尾に「"」が必須であるパターンと、「"」がないパターン、 "foo" と foo の両方にマッチさせたい場合の正規表現は次のようになります。 ^(")?(?(1)\w+"|\w+)$ サンプルコード #!/usr/bin/perl use strict; use warnings; my $str = '"aaa"'; if ( $str =~ /^(")?(?(1)\w+"|\w+)$/ ) { print "match"; } else { print "not match"; } 解説です。まず、 ^(")? で、先頭にダブルクォーテーション「"」が1文字（または0文字）存在することを判定します。次に、 (?(1) で、グループ（ここでは1
pipehead 2014/09/19
> "foo" と foo の両方にマッチさせたい場合の正規表現は次のようになります。 ^(")?(?(1)\w+"|\w+)$

programming

perl

regular_expression
リンク
JavaScript の正規表現についてまとめてみた
JavaScript において、文字列を正規表現にマッチさせるためのメソッドは、以下の4つがあります。 1. RegExp.test() 2. RegExp.exec() 3. String.match() 4. String.search() RegExpオブジェクトのメソッド(引数がStringオブジェクト)と、Stringオブジェクトのメソッド(引数がRegExpオブジェクト)があり、しかもすべてのメソッドで微妙に動作が違うので、非常に紛らわしい… ということで、これらがどう違うのか、どう使い分ければいいかをまとめてみました。 ## RegExp.test() とString.search() まずはパターンにマッチするかどうかだけをチェックしたい時。あるパターンが文字列に存在するかどうかだけを知りたいときは、RegExp.test() または String.search() を使
pipehead 2014/06/24
RegExp.test(), RegExp.exec(), String.match(), String.search()

programming

javascript

regular_expression
リンク
正規表現によるバリデーションでは ^ と $ ではなく \A と \z を使おう
正規表現によるバリデーション等で、完全一致を示す目的で ^ と $ を用いる方法が一般的ですが、正しくは \A と \z を用いる必要があります。Rubyの場合 ^ と $ を使って完全一致のバリデーションを行うと脆弱性が入りやすいワナとなります。PerlやPHPの場合は、Ruby程ではありませんが不具合が生じるので \A と \z を使うようにしましょう。はじめに大垣さんのブログエントリ「PHPer向け、Ruby/Railsの落とし穴」には、Rubyの落とし穴として、完全一致検索の指定として、正規表現の ^ と $ を指定する例が、Ruby on Rails Security Guideからの引用として紹介されています。以下の正規表現は、XSS対策として、httpスキームあるいはhttpsスキームのURLのみを許可する正規表現のつもりです。 /^https?:\/\/[^\n]+$/
pipehead 2014/03/04
> 正規表現のメタ文字 ^ と $ は「行」の先頭・末尾を指します。文字列の先頭と末尾を指定する場合は、\A と \z を使用します。

programming

regular_expression
リンク
http://bynatures.net/wordpress/3317/
pipehead 2013/09/17
programming

regular_expression
リンク
置換時に式を評価する / [perl][正規表現] | 戯術者の日記
/e で。割とよく使われてるはずだからサンプルだけ C/C++ ソースの #ifdef を削る。 @define = qw/__DEBUG __WRITELOG/; # define を指定する # $src にソースを丸ごとつっこむ # #if-#endif $src =~ s|^#if\s+(\w+)(.*?)^(#else(.*?))?^#endif|($1)?$2:$4|emsg; # #ifdef-#endif $src =~ s|^#ifdef\s+(\w+)(.*?)^(#else(.*?))?^#endif|(grep {$_ eq $1 } @define)?$2:$4|emsg; # #ifndef-#endif $src =~ s|^#ifndef\s+(\w+)(.*?)^(#else(.*?))?^#endif|(grep {$_ eq $1 } @define)
pipehead 2013/05/02
programming

perl

regular_expression
リンク
全ての形容動詞と、その位置を見つける - Qiita
こういうの無いかなあと思って調べたらそのままあったのでメモ。もし、パターンにマッチするものについて、マッチしたテキスト以上の情報を得たいと考えたとき、文字列ではなく MatchObject のインスタンスを返す finditer() が便利です。以下に例を示すように、なにかの文章の全ての副詞と、その位置を調べたいと考えたとき、下記のように finditer() を使います。 : >>> text = "He was carefully disguised but captured quickly by police." >>> for m in re.finditer(r"\w+ly", text): ... print '%02d-%02d: %s' % (m.start(), m.end(), m.group(0)) 07-16: carefully 40-47: quickly
pipehead 2013/02/25
re.finditer()

programming

python

regular_expression
リンク
lispmode.lの解析、その３ - 会者定離で(ダイアリーから)以降
/lisp/lispmode.lのcalc-lisp-indent関数でインデントを計算してるのは間違いないようです。で、早速コードを解析。なんですけど、先頭でイキナリ詰まるｗ； (defun calc-lisp-indent (opoint) (protect-match-data . . .) せんせぇ〜(T△T)、protect-match-data関数ってなんですか？ info-modokiさんが、protect-match-date関数なんて知らないって言うんだもん＞A＜で、困った時のgoogleせんせぇ〜。 http://xyzzy.s53.xrea.com/wiki/index.php?%BC%C1%CC%E4%C8%A2%2F131 (setq string "abc123cdef");=>"abc123cdef" (setq replacement "\\1 in
pipehead 2010/02/22
indent の動作について, protect-match-data

programming

lisp

regular_expression

xyzzy
リンク
JavaScript正規表現メモ。 (JavaScriptでよく使う書き方。) - こせきの技術日記
タイトル変えました。旧タイトル「JavaScriptでよく使う書き方」。よく使うけど毎回忘れる。正規表現にマッチするかどうか。 RegExp#testを使う。 /abc/.test("abcdefg") // => true String#searchはマッチした位置を返す。マッチしない場合は-1。先頭にマッチすると0でfalseなので注意。真偽値が欲しい場合はString#searchを使わない。 "abcdefg".search(/xxx/) // => -1 "abcdefg".search(/def/) // => 3 "abcdefg".search(/abc/) == false // => true 正規表現の部分マッチを得る。部分マッチを得るには、RegExp#execかString#matchを使う。execとmatchの速度は大して変わらない。正規表現のベンチマー
pipehead 2009/05/30
programming

javascript

regular_expression
リンク
[JavaScript]String.matchとRegExp.execと後方参照 - chalcedony_htnの日記
Adobeのサポートデータベース関係のぐりもんを書いたり添削してもらったりした結果、新たに覚えたことがあるので、せっかくだからメモっておきます。以下だらだらと続くけど、実はMozilla Developer Center見れば全部書いてあるので、そっち見たほうがいいと思います。 match - MDC exec - MDC String.matchとRegExp.exec String.matchとRegExp.execは、どちらも正規表現を使って文字列のマッチングを行うメソッド。検索を行って、マッチした文字列を得たいときに使う。マッチするかどうか（と、マッチした位置）だけを調べたいときは、余分な処理をしないString.searchまたはRegExp.testを使ったほうが速い。 String.match(RegExp)とRegExp.exec(String)は、正規表現にgオプショ
pipehead 2009/03/15
programming

javascript

regular_expression
リンク
正規表現のベンチマーク(String.match と RegExp.exec のざっくりとした違い) - latest log
2009-01-12追記タイトル修正しました。 2009-01-14追記 String.indexOf と RegExp.test のスコアが逆に書かれてていたのを修正しました。 String.match ばかりで、RegExp.exec を使ったことがありませんでした。ちょっと気になったので色々とベンチマークを取ってみました。 TEST TIMES IE6 Fx3.0 Fx3.1 (JIT) Safari3 Chrome1 (JIT) A. match(/\s*/) vs match(/ */) "aaaaaaaaaaaa".match(/\s*aa\s*/) 1000000 7203 1714 327 2375 2128 "aaaaaaaaaaaa".match(/ *aa */) 1000000 7156 1638 297 2328 2148 B. RegExp.exec vs
pipehead 2009/01/12
programming

javascript

regular_expression

profiling
リンク
inforno :: Python:re.ScannerでS式パーサ
Rubyの StringScanner は個人的にかなり好きなモジュールで、Rubyでちょっとしたパーサなどを書くときに重宝しています。一方、Pythonにはexperimentalながら re.Scanner というクラスがあります( >= 2.4 )。experimentalなのでマニュアルにはのっていませんが。この re.Scanner はかなりシンプルなんですが典型的な StringScanner の使い方の範疇では、こちらのほうがキレイに書けるような気がします。 re.Scanner の使い方使い方は非常に簡単で (regex, action) のリストを渡してScannerオブジェクトを作成 action は(scanner, string_matched) => stringな関数、Noneを返せば結果は無視される。 scanメソッドでスキャン。結果が配列で返ってくると
pipehead 2008/08/08
programming

python

regular_expression
リンク
perl - 文字参照を(en|de)codeする : 404 Blog Not Found
2008年05月11日21:00 カテゴリLightweight LanguagesTips perl - 文字参照を(en|de)codeするすでに正解が書かれていますが、 [を] Unicode の16進数の実体参照を正規表現などで元に戻す pack と Encode::decode を使うと良いみたい。はてなブックマーク - miyagawaのブックマーク / 2008年05月11日それ HTML::Entities::decode / regexp でも chr(hex($1)) のほうがわかりやすくないかな繰り返しておくだけの価値はあるので。 HTML::Entitiesを使うまず、HTML::Entitiesのdecode_entities()を使うという方法があります。これがベストプラクティスかな。 #!/usr/local/bin/perl use strict;
pipehead 2008/05/11
HTML::Entities の decode_entities() と正規表現

programming

perl

regular_expression
リンク
.matchよりも.searchのほうが速い - 素人がプログラミングを勉強していたブログ
var start=new Date().getTime(); for(var i=0;i<10000;i++){ 'foo'.search(/foo/) } var end=new Date().getTime(); end-start の平均結果：28 var start=new Date().getTime(); for(var i=0;i<10000;i++){ 'foo'.match(/foo/) } var end=new Date().getTime(); end-start の平均実行結果：53 ということで、.matchじゃなくていい場合（location.hrefとSITEINFOの個々のurlを調べてマッチするit emを探すときとか）は、.searchを使うことにした。
pipehead 2008/05/05
programming

javascript

regular_expression

profiling
リンク
qr演算子 - 正規表現のリファレンスを作成する - Perl入門ゼミ
Perl › 演算子 › here 「qr演算子」で正規表現のリファレンスを作成することができます。qr演算子を使うと、正規表現をリファレンスとして変数に保存できます。正規表現のオプションも含めて保存できます。正規表現が、コンパイルされるので、繰り返しパターンマッチを行う場合、高速に動作します。 # 正規表現のリファレンス my $regex = qr/\d+/sm; パターンマッチを行うときは//の中に入れることもできますし、そのまま使用することもできます。//の中にいれたほうが少し見やすと思います。 # //の中で使用 if ($str =~ /$regex/) { ... } # そのまま使用 if ($str =~ $regex) { ... } リファレンスって何? リファレンスについては以下の記事で詳しく解説しています。リファレンスの使い方をマスターしようサンプル正規表現
pipehead 2008/04/19
programming

perl

regular_expression
リンク
はてなグループの終了日を2020年1月31日(金)に決定しました - はてなの告知
はてなグループの終了日を2020年1月31日(金)に決定しました以下のエントリの通り、今年末を目処にはてなグループを終了予定である旨をお知らせしておりました。 2019年末を目処に、はてなグループの提供を終了する予定です - はてなグループ日記このたび、正式に終了日を決定いたしましたので、以下の通りご確認ください。終了日: 2020年1月31日(金) エクスポート希望申請期限:2020年1月31日(金) 終了日以降は、はてなグループの閲覧および投稿は行えません。日記のエクスポートが必要な方は以下の記事にしたがって手続きをしてください。はてなグループに投稿された日記データのエクスポートについて - はてなグループ日記ご利用のみなさまにはご迷惑をおかけいたしますが、どうぞよろしくお願いいたします。 2020-06-25 追記はてなグループ日記のエクスポートデータは2020年2月28
pipehead 2008/02/13
programming

javascript

regular_expression
リンク
正規表現の拡張構文のうち簡単なもの - 旧燈明日記
とりあえず、サンプルです。以下はすべてマッチします。 $bbb = '東京都庁'; $ccc = 'とうきょう都庁'; print "Match1", "\n" if ($bbb =~ /東京(?=都庁)/); # 東京の後に都庁が続いている東京にマッチ print "Match2", "\n" if ($bbb =~ /東京(?!議会)/); # 東京の後に議会が続いていない東京にマッチ print "Match3", "\n" if ($bbb =~ /(?<=東京)都庁/); # 東京の後に都庁が続いている都庁にマッチ print "Match4", "\n" if ($ccc =~ /(?<!東京)都庁/); # 東京でないの後に都庁が続いている都庁にマッチちなみに、拡張構文の「東京(?=都庁)」と普通構文の「東京(都庁)」は同じ結果になりますが、すべての拡張構文には後方参照があり
pipehead 2008/01/14
programming

perl

regular_expression
リンク
[メモ]正規表現モジュール re のscanner機能
Pythonのドキュメントには書かれていないが、正規表現モジュール(re)にはscannerという機能がある。一旦作成した正規表現オブジェクトで、長い文章中をスキャンしていくような感じで、全てのマッチする部分を検出していく機能だ。便利なんだが、使いたい時に毎回使い方を忘れているのでこの際ここにメモしておこう。 >>> a="aaabbbcccdddaaa111fffsss" >>> import re >>> pat = re.compile(r"aaa(...)") >>> dir(pat) ['__copy__', '__deepcopy__', 'findall', 'finditer', 'match', 'scanner', 'search', 'split', 'sub', 'subn'] >>> scanner = pat.scanner(a) >>> dir(scann
pipehead 2007/11/06
programming

python

regular_expression
リンク
[メモ]Pythonによる英字の半角全角変換
↓これもっと簡潔できれいな書き方はないものだろうか。 from itertools import izip #半角英字->全角英字変換 HAN_CHARS = map(chr, range(ord('A'), ord('Z')+1) + range(ord('a'), ord('z')+1)) ZEN_CHARS = map(lambda x: unichr(0xff00 + x),range(0x21, 0x21+ord('Z')-ord('A')+1) + range(0x41, 0x41+ord('Z')-ord('A')+1)) def han2zen(word): """ Unicodeで与えられた文字列の半角英字を全角英字に変換する。 """ for c, cc in izip(HAN_CHARS, ZEN_CHARS): word = word.replace(c, cc)
pipehead 2007/08/16
programming

python

regular_expression
リンク
1 2 次のページ