[B! 正規表現] cvyanのブックマーク

正規表現をいまのうちに覚えておきたい人のためのリソース集

HTML5で正規表現がサポートされる、といったことをきっかけに、正規表現はプログラマだけでなくWebクリエイター全体のスキルとして求められていくものになっていくのではないでしょうか（参考：あまり知られていないけれど、HTML5では正規表現が使えるようになる）。ここではそうした正規表現の初学者や、一度挫折したけど再入門したい人、そしてより高度な内容をマスターしたいすべての人のためのリソース集を作りました。初学者向けには「はじめての正規表現」「はじめての正規表現」は、文字通り正規表現という言葉は知っていても中味はよく分からない、という初学者の方にぴったりのコンテンツ。紙芝居形式のプレゼンテーションで楽しく正規表現について把握できます。はじめての正規表現初学者の方には、次の2つの記事も手っ取り早く読めて概要を把握できますので紹介しておきます。使うほどに良さが分かる正規表現（1/2）

cvyan 2009/09/30

正規表現

リンク

新はてなブックマークでも使われてるComplement Naive Bayesを解説するよ - 射撃しつつ前転改

新はてブ正式リリース記念ということで。もうリリースから何週間も経っちゃったけど。新はてなブックマークではブックマークエントリをカテゴリへと自動で分類しているが、このカテゴリ分類に使われているアルゴリズムはComplement Naive Bayesらしい。今日はこのアルゴリズムについて紹介してみる。 Complement Naive Bayesは2003年のICMLでJ. Rennieらが提案した手法である。ICMLというのは、機械学習に関する（たぶん）最難関の学会で、採択率はここ数年は30%を切っている。2003は119/371で、32.1%の採択率だったようだ。 Complement Naive Bayesの位置づけは実装が簡単学習時間が短い性能もそこそこよいという感じで、2003年段階にあっても、絶対的な性能ではSVMに負けていた。しかし、学習が早いというのは実アプリケーシ

cvyan 2008/12/22

リンク

http://www.rider-n.sakura.ne.jp/regexp/regexp.php

cvyan 2008/08/26

リンク

Rubular: a Ruby regular expression editor and tester

Rubular is a Ruby-based regular expression editor. It's a handy way to test regular expressions as you write them. To start, enter a regular expression and a test string. Or you can try an example.

cvyan 2008/08/26

リンク

phpspotの人は正規表現について語らないほうがいいのでは | 秋元@サイボウズラボ・プログラマー・ブログ

「実用的なPHP用の正規表現ｘ８」というphpspot開発日誌という記事で、 8 Practical PHP Regular Expressions – Web devlopment blogという、今日del.icio.us/popularに出ていた記事の紹介がされている。このサイトの記事はいつもそうだけど、はてなブックマークでも人気で、既に50名を越えるユーザにブックマークされているようだ。 1 メールアドレスチェック $string = "first.last@domain.co.uk"; if (preg_match( '/^[^0-9][a-zA-Z0-9_]+([.][a-zA-Z0-9_]+)*[@][a-zA-Z0-9_]+([.][a-zA-Z0-9_]+)*[.][a-zA-Z]{2,4}$/', $string)) { echo "example 3 successf

cvyan 2007/10/22

リンク

実用的なPHP用の正規表現ｘ８:phpspot開発日誌

記事の訂正です。 (phpspotの人は正規表現について語らないほうがいいのでは)というエントリの指摘を受け、本記事を修正します。問題は、簡単な目視のチェックのみで動作確認を行わなかった点が問題ですね。掲載した正規表現では厳密なチェックは行えない、一部の正規表現で正しく動作しないという問題点がありました。また、「メールアドレスの正規表現」の記事修正も行っています。メールアドレスの正規表現はきちんと書くと長くなってしまったりするので、注意文とメールが届くかどうかのチェックを促すよう記載しました。それでも、まだ問題があるよ、という方はお手数ですが、こちらまでご連絡ください。 (追記) 正しい正規表現は、秋元さんのブログにも掲載されていますが、次のエントリを参考にするのがよいでしょう PHPでメールアドレスかどうか調べる方法 PHPでメールアドレスを確認する「正しい方法」(Linux

cvyan 2007/10/17

リンク

ウノウラボ Unoh Labs: 正規表現の勉強法

bokkoです。テキストの整形処理を行う上で正規表現は非常に重要です。正規表現なしでテキストの整形処理をするくらいなら自分で正規表現ライブラリを書いてやるという人がいるのかどうかは知りませんが、実際、相当大規模なWebソフトウェアのプロジェクトならそっちの方が早いかもしれません。なんだか自分で書いてて何が言いたいのかわからないような文章になってしまいましたが、私が言いたいのは正規表現はそれくらい強力で、習得して使う価値があるということです。ただ、正規表現にはじめて触れる場合、非常にとっつきにくく思う方もいると思います。私も最初、意味のわからない文字の羅列に圧倒されたような気がします。このように最初の段階でとっつきづらく思ってしまうのは大抵慣れの問題なので、とりあえず、正規表現を使ったプログラムでも書いてみるのが一番の近道です。何かしらのテキストを整形するというのがいい題材ですが、私が

cvyan 2007/09/14

リンク

re: PHP でメールアドレスかどうか調べる方法

はてブでotsuneさんやkazuhookuさんがPHPクオリティについて勘違いしていたので、一言申し上げたところ、参考にされた方がいたようで、もうちょっと補足します。いくつか実装での「正しいメールアドレス」を調べてみました。 phpspot function is_mail($text) { if (preg_match('/^[a-zA-Z0-9_\.\-]+?@[A-Za-z0-9_\.\-]+$/',$text)) { return TRUE; } else { return FALSE; } } PEAR::Mail_RFC822 function isValidInetAddress($data, $strict = false) { $regex = $strict ? '/^([.0-9a-z_+-]+)@(([0-9a-z-]+¥.)+[0-9a-z]{2,})$/i'

cvyan 2007/06/02

リンク

正規表現サンプル集

今日の正規表現Tips (2008/10/05) \d 0〜9の数字を表す正規表現です。 \D 数字以外を表す正規表現です。正規表現では小文字が大文字になると反対の意味を持ちます。ツール正規表現チェッカー正規表現Tips集 Tips その１ Tips その２テキスト編集で役立つ『正規表現のサンプル集』を詳しい説明つきで紹介。正規表現を使ってテキスト検索＆置換して仕事の効率アップを図ろう。 ≪ メニュー ≫ １．正規表現とはなにか？２．正規表現を使う準備３．正規表現サンプル集【検索編】４．正規表現サンプル集【置換編】５．正規表現のお勉強と本の紹介６．エディタの強調表示でテキストに色づけ７．プログラムで正規表現を使う８．正規表現サンプルリクエスト

cvyan 2007/02/23

リンク

二度目の公開！電話番号の正規表現 : にぽたん研究所

※ 二度目の公開というタイトルにしましたが、三度目は予定していません。 2 年ぐらい前に、本邦初公開！電話番号の正規表現というネタで、Regexp::Assem ble という CPAN モジュールを紹介したことがありました。あのモジュールを使うことによって、日本で初めて、電話番号を正規表現で表わすという試みをしてみたのですが、該当エントリに書いた通り、 Number::Phone::JP の正規表現が今日現在でも正しいのかどうか等、未検証部分が異常に多いので、自己責任でお使いくださいｗというものでした。その後、Number::Phone::JP モジュール自体も、更新が面倒臭そうなものなせいか、全然更新されていなかったのですが、何やら今日更新版が出ている模様。どうも作り直したっぽいかんじ。で、早速ですが、最新版の正規表現テーブルを用いて、最新版の電話番号にマッチする正規表現を作っ

cvyan 2007/02/18

リンク

技術メモ帳 - 単語抽出するちょっとしたテクニック

shell のちょっとしたテクニック - odz buffer odzさんのところで単語の出現頻度を調べるためのワンライナーが紹介されている。単語抽出についてはいくつかやり方があるので紹介する。特に egrep -o は非常に実用的。もちろん、この話はリンク先において主題ではない。俺のただの自己満足。 tr -cs で単語抽出 $ tr -cs 'a-zA-Z' '\n' < ./.zshrc 上記コマンドで、a-zA-Zのみで構成される文字列を抽出できる。 -c オプションで、'a-zA-Z' の補集合(以外)を '\n' に変換し、 -s オプションで、最後の引数で指定される要素の重複を除去している。すなわち '\n' の連続を除去している。 grep -o で単語抽出 grepには、( -o、--only-matching ) オプションというのがある。これは、指定された正

cvyan 2007/02/01

リンク

【インフォシーク】Infoseek ：楽天が運営するポータルサイト

日頃より楽天のサービスをご利用いただきましてありがとうございます。サービスをご利用いただいておりますところ大変申し訳ございませんが、現在、緊急メンテナンスを行わせていただいております。お客様には、緊急のメンテナンスにより、ご迷惑をおかけしており、誠に申し訳ございません。メンテナンスが終了次第、サービスを復旧いたしますので、今しばらくお待ちいただけますよう、お願い申し上げます。

cvyan 2007/01/27

正規表現

リンク

正規表現の確認

正規表現を入力すると即座に一致判定を行います。パターンや入力を変えながらあれこれ試行錯誤したい時などに使用してください。正規表現エンジンは JDK 1.6 (Sun Microsystems Inc. Java VM 10.0-b23) を使用しています。Perl や JavaScript など他の言語の正規表現とは細かいクセが違う可能性があるので注意して下さい。Java 正規表現の詳しい仕様は Pattern クラスの API リファレンスに記載されています。

cvyan 2007/01/20

リンク

「すべての漢字を取り出す正規表現」をPHPで試す、を正しく行う:phpspot開発日誌

Information Flow and Stock: [PHP] mb_ereg()じゃない、preg_match_all()に/uをつけるんだ！なので、できる限りpreg系の関数を使いたいわけですが、検索対象や検索パターンに日本語が含まれているときは、日本語処理に対応したereg系の関数であるmb_ereg系の関数が使われることが多いようです。以前、「すべての漢字を取り出す正規表現」をPHPで試す、を正しく行う方法。以前はmb_eregによる方法を示しましたが、次の方法の方がうまく動作するようです。 preg_match_all('/[一-龠]+|[ぁ-ん]+|[ァ-ヴー]+|[a-zA-Z0-9]+|[ａ-ｚＡ-Ｚ０-９]+/u', $strToSplit, $aMatches); print_r($aMatches); // マッチ結果が全出力確かに、なぜか取れない漢字があ

cvyan 2006/12/12

リンク

すべての漢字を取り出す正規表現 - totonのブログ

http://www.unixuser.org/~euske/doc/python/sample.py.html # 日本語トークンを切り出すための正規表現。 JP_TOKEN = re.compile(u"[一-龠]+|[ぁ-ん]+|[ァ-ヴ]+|[a-zA-Z0-9]+") http://www.ascii.co.jp/pb/ascii/archive/aftercare/1999.html ［亜-煕］はJIS漢字を検出するときに使う正規表現になります。本文中で触れている「一太郎 Lite2」の正規表現はUnicode仕様なので，すべての漢字を検出するには，[一-龠]を使用してください（龠は音読みで「ヤク」，訓読みで「ふえ」，Unicodeでは「9FA0」にあたります）。追記 ※「すべての漢字を取り出す正規表現」については、id:toton:20051105 に記事を追加しました。

cvyan 2005/11/05

いずれお世話になるハズ。

リンク

はてなブックマーク

タグ

関連タグで絞り込む (12)

正規表現に関するcvyanのブックマーク (15)

お知らせ

今週のはてなブックマーク数ランキング（2024年7月第3週）

今週のはてなブックマーク数ランキング（2024年7月第2週）

はてなブックマーク透明性レポート（2024年 2月-2024年4月）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス