発端 ページのタイトルタグを取る必要があったので、正規表現で書こうかと思ったけど諦めた。理由はtitleタグには改行とかコメントアウトされている可能性があるから。 <title> タイトルだよー </title> --------------------------------------------- <!-- <title>偽タイトル</title> --> <title>こっちが本物のタイトル</title> 解決策 Python標準ライブラリ内にHTMLパーサのないかなと思って探したらHTMLParserというライブラリが見つかった。これを使いページのタイトルを取得してみた。 下記と同じ物HTMLParserを使ったページタイトルの取得 · GitHub from HTMLParser import HTMLParser import urllib2 class GetTitle(