タグ

関連タグで絞り込む (0)

  • 関連タグはありません

タグの絞り込みを解除

スクレイピングに関するtentyu3のブックマーク (2)

  • 第3回 スクレイピングにチャレンジ!

    これまで,Pythonによる初めてのコーディングと,RDB(リレーショナル・データベース)をオブジェクトとして扱うデータベース・プログラミングについて簡単に紹介しました。今回は,Pythonを使ってWebの情報を自動取得するスクレイピング・プログラム(WebサイトのHTMLを抽出・解析して情報を取得)の作成にチャレンジしてみましょう。 ところで前回までは,WindowsからLinux(Ubuntu)にリモートログインして開発をおこなっていました。今回からは一歩踏み込んで,クライアントにMacを採用して格的な開発の環境を用意してみることにします。 Macを利用する意義 開発環境をMacにするメリットは以下の通りです。 Mac OS XはUNIXであり,UNIX/Linux環境はスクリプト言語の開発に適している 最新のPythonがはじめからインストールされている EmacsやVimなど強力

    第3回 スクレイピングにチャレンジ!
  • sh1.2 pyblosxom : pythonでスクレイピング

    HTML::Selector::XPath をリリース: blog.bulknews.net 川o・-・)<2nd life - rubyスクレイピングツールキット scrAPI を見て、pythonでもElementTreeを使ったらできるんじゃないかなと思ったけども、 ちゃんとしたXMLじゃないとparse時にエラーになってしまう。じゃあ、ElementTreeに 渡す前にHTMLをXHTMLに変換したらいいのかと思って標準ライブラリを探すも、どうや ら標準でそういうことをするライブラリはないらしい。googleさんにお尋ねしてみた所 下記のエントリを発見。 PythonHTML ファイルから情報を取り出すには - 傀儡師の館 - 楽天ブログ(Blog) まさに同じような悩みで色々探していらっしゃって、ここでBeautifulSoupを知りまし た。結構昔からあったモジュール

  • 1