タグ

関連タグで絞り込む (0)

  • 関連タグはありません

タグの絞り込みを解除

PythonとHTMLとlibraryに関するk_37toのブックマーク (2)

  • extbody -- Blog&News本文領域抽出ツール

    ダウンロード等 extbody-0.1.1.tar.gz(右クリックで保存) ライセンスは、Apacheライセンスv2.0なので自己責任でご利用ください。 (上記ファイルはMercurialリポジトリのcloneにもなっています。) 動作に必要な環境 Python2.5 feedparser chardet また、内部でppkfを使用しております。(extbodyに内蔵しております。) インストール feedparserと、chardetをインストールしておきます。 以上が準備できれば、extbodyも以下のコマンドでインストールできます。 % python setup.py install 使用法 ayu@~% python Python 2.5.1 (r251:54863, Jun 17 2007, 08:50:55) [GCC 4.0.1 (Apple Computer,

  • lxmlを使ってあるURLから画像のURL一覧を取得する | スパムとか

    ある人が、lxmlで検索をすると自分が上位だと言っているので邪魔をしてみよう。きっとある人のURLは汚いから勝てるに違いない? ネタは、あるサイトのイメージURL一覧を取得すること。あんまり、lxml自体は関係ないけど、lxmlは汚いHTMLのパースが非常に優秀なので、いろいろなところに対して試してみてください。 簡単にインストールするには コマンドラインからeasy_installを使ってください。非常に簡単です。 easy_install lxml easy_installを入れていない場合には easy_installが嫌いだったら、このへんからダウンロードしてインストールしてください。 実際の使い方サンプル いざ、使い方。任意のURLからイメージの一覧を作成する適当なコード import re import urllib2 from lxml impo

  • 1