タグ

正規表現とstrip_tagsに関するlamichのブックマーク (1)

  • HTMLタグを取り除く - にししの Perl/CGI Tips ふぁくとりー

    上記の正規表現 <.*?> で、タグを表現しています。 最初に「 < 」が、最後に「 > 」がありますね。その中に「.*?」とあります。 「.*」は任意の文字列に一致します。どんな文字にも一致するわけです。その後に「?」があるので、そのうちの「最小の長さのもの」に一致します。 総合すると、「 < 」~「 > 」で囲まれた任意の文字列のうち最も短いものに一致するわけです。 それを削除しているわけです。 ※「?」がないと、ソース先頭の「 < 」とソース末尾の「 > 」に一致してしまい、ソース全部がまるごと削除されてしまいます。ですから、「?」は絶対必要です。 最後の「g」は、一致するものが複数個ある場合、それら全てに対して置換を行わせる指示です。これがないと、最初の1つのタグだけしか消せません。

  • 1