タグ

regexに関するtyosuke2011のブックマーク (3)

  • Unicodeで「漢字」の正規表現 – ものかの

    改訂:2017/07/22 Unicode 10.0に合わせて書き直し。正規表現を簡易にしようとしてやりすぎていたのを修正。 改訂:2023/03/21 U+30000以降を追加。InDesignの正規表現を追記。 正規表現で漢字の範囲指定をする場合、Unicodeではどうするかが悩ましいところです。 Unicodeの漢字の範囲として [一-龠] にしている例を見かけます。しかしこれは旧規格JIS X 0208の漢字が含まれる範囲をUnicodeの中から切り出しているだけです。互換漢字ブロックをまるごと取りこぼしているので、WindowsのシフトJIS(CP932)の拡張漢字に当たるものが含まれていません。現規格JIS X 0213の第3・第4水準漢字も考慮されていません。簡易な範囲指定だとしても、新常用漢字の「𠮟」が含まれておらず、今から見るとあまりに時代遅れです。 Unicodeのす

    Unicodeで「漢字」の正規表現 – ものかの
  • 正規表現まとめサイト

    Smashing Magazine - WE SMASH YOU WITH THE INFORMATION THAT WILL MAKE YOUR LIFE EASIER, REALLY. 文字列を処理するにあたって正規表現は欠かせない機能といえる。任意の文字列やテキストファイル、HTML/XMLから特定のキーワードを検索したり取り出し、置換をおこなうにあたって、正規表現が使えると使えないのとでは、プログラミングの手間やツールの活用度合いが変わってくる。 正規表現は便利で強力な機能だが、その独特の表記方法はプログラマ初心者には敷居の高いものでもある。Glen Stansberry氏による正規表現に関するチュートリアルや資料、ツールなどのまとめがSmashing MagazineにEssential Guide To Regular Expressions: Tools and Tutori

  • 第20章 Rubyの未来

    そして次々世代の開発版がruby 2、コードネームRite、である。 この名前はLとRの区別がつけられない日人へのオマージュらしい。 一言で2.0はどこが変わるかと言うと、コアほとんど全部だ。スレッド、評価 器、パーサ、これが全部変わる。もっとも、コードがカケラも出てきていない のであくまでここに書くのは全て「予定」である。あまり期待しすぎると失望 するかもしれない。そういうわけで、軽く期待、ということにしておこう。 記述言語 まず使う言語。間違いなくCだろう。Ruby英語メーリングリスト ruby-talkでのまつもとさんの発言によると I hate C++. だそうなので、C++を使うというのはまずありえない。いくら全面作り直しと 言ってもオブジェクトシステムはほぼそのまま残ると考えられるので、そのあ たりでの手間が増えないようする必要もある。ただしCはCでも今度はANSI Cに

  • 1