連載目次 本稿では、ある文字列内から特定のパターンにマッチする部分文字列を抜き出す処理について、正規表現を使った場合の基本的な手順をまとめる。 ここでは例として、HTMLから、 <a href="URL" ……>テキスト</a> のような形式のアンカー要素に対して、URL部分とテキスト部分を取り出す場合を考えてみよう。 このようなアンカー要素にマッチする正規表現は次のようになる。 <a href="(?<url>.*?)".*?>(?<text>.*?)</a> 2個所ある「(」と「)」で囲まれた部分は「グループ化」を行っており、それぞれに対して「?<url>」「?<text>」により、「url」と「text」というグループ名を付けている。 ちなみに「.*?>」の部分で使用している「?」は最短一致を指定するもので、「.*?>」は、「>」以外の任意の文字の並び+「>」、を表すことになる(「.