Pythonでウェブページから本文抽出がしたくて、ググったら弊社の中谷のWebページの本文抽出 (nakatani @ cybozu labs)をPythonに移植したもの(yono/python-extractcontent)が見つかったのでとりあえずそれを使ってみたんだけど、Google Ad Sectionがついていて100%の成功率のはずのこのブログを対象にして本文抽出に失敗して空文字列を返してくるので、あれれおかしいなー、と思ったら。 https://github.com/yono/python-extractcontent/blob/master/extractcontent.py#L80 いや、正規表現の途中で改行するんだったらVERBOSEオプションが必要ですよ。(?isx)するなりre.compileでre.VERBOSEつけるなり、もしくは文字列分割して改行が入らなくす