タグ

ブックマーク / nishiohirokazu.hatenadiary.org (1)

  • Pythonで本文抽出 - 西尾泰和のはてなダイアリー

    Pythonでウェブページから文抽出がしたくて、ググったら弊社の中谷のWebページの文抽出 (nakatani @ cybozu labs)をPythonに移植したもの(yono/python-extractcontent)が見つかったのでとりあえずそれを使ってみたんだけど、Google Ad Sectionがついていて100%の成功率のはずのこのブログを対象にして文抽出に失敗して空文字列を返してくるので、あれれおかしいなー、と思ったら。 https://github.com/yono/python-extractcontent/blob/master/extractcontent.py#L80 いや、正規表現の途中で改行するんだったらVERBOSEオプションが必要ですよ。(?isx)するなりre.compileでre.VERBOSEつけるなり、もしくは文字列分割して改行が入らなくす

    Pythonで本文抽出 - 西尾泰和のはてなダイアリー
    petitviolet
    petitviolet 2015/10/09
    forkしたやつにstar付いたのなんでかと思ったら紹介してもらってた
  • 1