タグ

2008年5月3日のブックマーク (2件)

  • 記録: extbody -- PythonによるBlog&News本文領域抽出ツール

    Pythonで、BlogやニュースのWEBページから、文領域のHTMLを抽出するツール extbody -- Blog&News文領域抽出ツール を作りましたので公開します。 いつものごとくα版です。(そろそろいいかげんに、ひとつひとつきっちりと作ったほうがいいよね。) 以前から、他のアプリの一部として使っていたものを分離してモジュールにまとめたものです。 * 正解率8割程度。(2ch抜粋系blogにはめっぽう弱いです。) * 日英対応。 です。 中身は試行錯誤が複雑にからまった呪文のようなソースになっておりますことをご了承ください。 最初はPython標準のHTMLパーサーや、有名なBeautifulSoupを使ってましたが、時折解析できないHTMLがありましたので、結局自筆の正規表現で解析しています。 おおざっぱにtableタグとdivタグぐらいの対応が少なくとも合っているソースで

  • 常山日記

    WindowsXPで環境構築は 開発環境を構築するには でOK! AMD Athlon 64 X2 + 2GBとHP mini 1000 + 2GBの環境で構築しましたが、 AMD Athlon 64 X2の環境でエミュレータの起動時間がかかりますがHP mini 1000ではさらに時間がかかります。 簡単に動作確認ができる Hello World などの作成 をやってみるといいかもしれません。 Django 2011/02/11 Django Programming: The Big Nerd Ranch Guide (Big Nerd Ranch Guides) Google App Engine 2010/12/01 Professional Google App Engine Programming with Java Python 2010/04/24 Pythonスタートブック

    常山日記