タグ

@ITと正規表現に関するtakasian_prideのブックマーク (2)

  • 正規表現を使って文字列から部分文字列を取り除くには?[C#、VB] - @IT

    「TIPS:正規表現を使って部分文字列を取得するには?」では、Regexクラス(System.Text.RegularExpressions名前空間)のMatchメソッドを使用した部分文字列の取り出しについて解説したが、これと並び比較的よく必要となる文字列処理に、部分文字列の削除がある。 Regexクラスには正規表現のパターンにマッチした部分文字列を削除するというメソッドは用意されていないが、マッチした部分を別の文字列に置き換えるReplaceメソッドが用意されている。このため、置き換える文字列として空の文字列を指定することにより、パターンにマッチした部分文字列を取り除くことができる。 パターンにマッチした文字列を別の文字列に置き換えるReplaceメソッド ここではHTML内のタグ部分を取り除き、テキストのみを残したい場合を例に取って解説しよう。HTMLのタグ部分は正規表現を使って簡易的

  • 正規表現を使って部分文字列を取得するには?[C#、VB]

    連載目次 稿では、ある文字列内から特定のパターンにマッチする部分文字列を抜き出す処理について、正規表現を使った場合の基的な手順をまとめる。 ここでは例として、HTMLから、 <a href="URL" ……>テキスト</a> のような形式のアンカー要素に対して、URL部分とテキスト部分を取り出す場合を考えてみよう。 このようなアンカー要素にマッチする正規表現は次のようになる。 <a href="(?<url>.*?)".*?>(?<text>.*?)</a> 2個所ある「(」と「)」で囲まれた部分は「グループ化」を行っており、それぞれに対して「?<url>」「?<text>」により、「url」と「text」というグループ名を付けている。 ちなみに「.*?>」の部分で使用している「?」は最短一致を指定するもので、「.*?>」は、「>」以外の任意の文字の並び+「>」、を表すことになる(「.

  • 1