[B! スクレイピング] kumahosiのブックマーク

kumahosi id:kumahosi

スクレイピングに関するkumahosiのブックマーク (2)

スクレイピングで作る“まとめサイト”
どんなサイトでも、マッシュアップすることができる。APIが公開されていなくてもいい。新たなまとめサイトを構築し、情報付加価値を高めるための手法を解説しよう。さまざまなコンテンツを組み合わせて、好みに合ったページ（サービス）を作り上げる「マッシュアップ」。これの最たるものは、コンテンツ提供者が公開する「WebAPI」の組み合わせで実現するものだ。しかし、利用する仕様を整備して、効果的なデータだけをメータデータ配信するWebAPIは、まだそれほど普及していない。つまりマッシュアップというキーワードから流行っている兆しはあっても、対象として使うことができるものは、意外と少ない。思い出してほしい。このような状況を打開するのが、HTMLコンテンツを抜き出して加工する「スクレイピング（scraping）」という手法だ。このオンライン・ムックPlus「まとめサイト2.0」では、例として「ITme
kumahosi 2007/12/03
スクレイピング
リンク
sh1.2 pyblosxom : pythonでスクレイピング
HTML::Selector::XPath をリリース: blog.bulknews.net 川o・-・）＜2nd life - ruby のスクレイピングツールキット scrAPI を見て、pythonでもElementTreeを使ったらできるんじゃないかなと思ったけども、ちゃんとしたXMLじゃないとparse時にエラーになってしまう。じゃあ、ElementTreeに渡す前にHTMLをXHTMLに変換したらいいのかと思って標準ライブラリを探すも、どうやら標準でそういうことをするライブラリはないらしい。googleさんにお尋ねしてみた所下記のエントリを発見。 Python で HTML ファイルから情報を取り出すには - 傀儡師の館 - 楽天ブログ（Blog）まさに同じような悩みで色々探していらっしゃって、ここでBeautifulSoupを知りました。結構昔からあったモジュール
kumahosi 2007/10/25
python

html

スクレイピング

program
リンク
1

お知らせ

もっと読む

公式Twitter

@HatenaBookmark
リリース、障害情報などのサービスのお知らせ
@hatebu
最新の人気エントリーの配信

キーボードショートカット一覧

j次のブックマーク

k前のブックマーク

lあとで読む

eコメント一覧を開く

oページを開く

設定を変更しましたx