petitvioletのブックマーク - はてなブックマーク

petitviolet id:petitviolet

ブックマーク / nishiohirokazu.hatenadiary.org (1)

Pythonで本文抽出 - 西尾泰和のはてなダイアリー
Pythonでウェブページから本文抽出がしたくて、ググったら弊社の中谷のWebページの本文抽出 (nakatani @ cybozu labs)をPythonに移植したもの(yono/python-extractcontent)が見つかったのでとりあえずそれを使ってみたんだけど、Google Ad Sectionがついていて100%の成功率のはずのこのブログを対象にして本文抽出に失敗して空文字列を返してくるので、あれれおかしいなー、と思ったら。 https://github.com/yono/python-extractcontent/blob/master/extractcontent.py#L80 いや、正規表現の途中で改行するんだったらVERBOSEオプションが必要ですよ。(?isx)するなりre.compileでre.VERBOSEつけるなり、もしくは文字列分割して改行が入らなくす
petitviolet 2015/10/09
forkしたやつにstar付いたのなんでかと思ったら紹介してもらってた

Python
リンク
1

お知らせ

もっと読む

公式Twitter

@HatenaBookmark
リリース、障害情報などのサービスのお知らせ
@hatebu
最新の人気エントリーの配信

キーボードショートカット一覧

j次のブックマーク

k前のブックマーク

lあとで読む

eコメント一覧を開く

oページを開く

設定を変更しましたx