[B! regexp] takaesuのブックマーク

PHP: Unicode 文字プロパティ - Manual

Unicode 文字プロパティ PHP 5.1.0 以降、UTF-8 モードを設定した場合に、一般的な文字タイプにマッチする新たなエスケープシーケンスが 3 つ追加されました。 \p{xx} xx プロパティを持つ文字 \P{xx} xx プロパティを持たない文字 \X 拡張 Unicode シーケンスここで xx で表されているプロパティ名は、Unicode で一般カテゴリプロパティ (general category properties) として規定されているものになります。すべての文字は、いずれかひとつのプロパティを持ちます。プロパティは、2 文字の略語で表されます。Perl と同じく、開き波カッコとプロパティ名との間にハット文字を記述することで否定を指定できます。たとえば、\p{^Lu} は \P{Lu} と同じです。 \p もしくは \P の後に、一文字だけを記

takaesu 2016/10/18

リンク

PerlのRegexp::TrieをRubyに移植した - Islands in the byte stream

GitHub - gfx/ruby-regexp_trie: Optimized Regexp builder with Trie (a Ruby port of Perl's Regexp::Trie) # Gemfile gem 'regexp_trie' これははてなキーワードやWikipediaのリンクのように、ある程度の量のテキストに対して大量のキーワードをマッチさせるときに、最適化した正規表現を生成するライブラリです。はてなキーワード*1をとあるブログエントリ*2にマッチさせるための簡単なベンチマークもあります。 example/benchmark.rb 結果: $ bundle exec example/benchmark.rb (snip) user system total real Regexp raw 4.270000 0.030000 4.300000 ( 4.3

takaesu 2016/10/10

リンク

初心者歓迎！手と目で覚える正規表現入門・その３「空白文字を自由自在に操ろう」 - Qiita

はじめにみなさんこんにちは！この記事は「手と目で覚える正規表現入門」の第3回です。この連載記事は「知識ゼロからでも理解できる」「実践的なサンプルを提供する」「自分の手と目で動きを確認できる」をモットーにした、正規表現の入門記事です。今回は行頭や行末といった「位置」を表す正規表現や、タブ文字や改行文字といった目に見えない空白文字を操作する方法を説明します。対象となる読者本記事は正規表現の予備知識が全くない「正規表現初心者」を対象としています。ただし連載記事なので、読者のみなさんは過去の記事で紹介した知識をすべて理解できている、という前提で進めます。まだ第1回、第2回の記事を読んでない人は、先にそちらを読んでからこの記事に戻ってきてください。初心者歓迎！手と目で覚える正規表現入門・その１「さまざまな形式の電話番号を検索しよう」 - Qiita 初心者歓迎！手と目で覚える正規表

takaesu 2016/02/16

リンク

初心者歓迎！手と目で覚える正規表現入門・その２「微妙な違いを許容しつつ置換しよう」 - Qiita

はじめにみなさんこんにちは！この記事は「手と目で覚える正規表現入門」の第2回です。この連載記事は「知識ゼロからでも理解できる」「実践的なサンプルを提供する」「自分の手と目で動きを確認できる」をモットーにした、正規表現の入門記事です。今回は正規表現を使って、テキストの微妙な違いを許容しながら検索する方法と、そこからさらに文字列置換を実行する方法を説明します。対象となる読者本記事は正規表現の予備知識が全くない「正規表現初心者」を対象としています。ただし連載記事なので、読者のみなさんは過去の記事で紹介した知識をすべて理解できている、という前提で進めます。まだ第1回の記事を読んでない人は、先にそちらを読んでからこの記事に戻ってきてください。初心者歓迎！手と目で覚える正規表現入門・その１「さまざまな形式の電話番号を検索しよう」 - Qiita 第1回目と同様、今回もRubularを

takaesu 2016/02/09

リンク

初心者歓迎！手と目で覚える正規表現入門・その１「さまざまな形式の電話番号を検索しよう」 - Qiita

はじめに Qiitaをご覧になっているエンジニアのみなさん、正規表現は使いこなせてますか？正規表現が使えるととっても便利ですよね！あれ？そちらの方、「ぼく、正規表現ようわからへん・・・」って小さくなってませんか？？大丈夫です！そんなあなたのために、この記事を書きました。知識ゼロからでも正規表現を学べるようにやさしく説明しているので、とりあえずこの記事を最後まで読んでみてください。今は \d{2,5}[-(]\d{1,4}[-)]\d{4} が謎の呪文にしか見えなくても、最後まで読めばきっと意味がわかるようになっているはずです！対象となる読者本記事は正規表現の予備知識が全くない「正規表現初心者」を対象としています。正規表現は便利だってよく聞くけど、意味不明な呪文にしか見えなくてなんか怖い正規表現を勉強しようと何度か頑張ったけど、結局よくわからなくて実務で活用できていないと

takaesu 2016/02/09

リンク

エンジニアは空を飛ぶ: Ruby 正規表現入門ドリル

Rubyの正規表現の入門編です。これを読めばリファレンスにあまり当たらなくても思い描いている正規表現を大体書けるようにというのと、他の人が書いた正規表現を読めるようになることを目的に書きました。そのため正規表現の論理構造とあまり関係ないものは割愛しました。Rubyのバージョンは得に断りがない限り1.8.7を使用しています。1.9から鬼車が採用されており、グループの扱いに機能拡張があります。そちらについても最後の方で触れています。習うより慣れろということで最後に練習問題を用意しています。目次基本リテラル正規表現記号(メタ文字) グループ後方参照文字クラスバックトラック Regexpオブジェクト、MatchDataオブジェクトグループ(2) 日本語の取扱い練習問題基本 Regexpインスタンスの生成 >> Regexp.new("a") //はRegexpのインスタンス。

takaesu 2015/01/22

リンク

Vimで使える正規表現 - Archiva

Make a note of it: Web tech, montaineering, and so on. Note: この記事は、3年以上前に書かれています。Webの進化は速い！情報の正確性は自己責任で判断してください。 Vimの正規表現をまとめてみました。Vimの正規表現は——基本的にコマンドモードで使うためか——やたらエスケープが多かったりして、ちょいと独特です。また、拡張正規表現も使えないので、Perlのノリで書くとやきもきしますね。以下、検索に関わりそうなオプション設定。 :set wrapscan