タグ

関連タグで絞り込む (2)

タグの絞り込みを解除

Mashupとapiに関するwebcrawlのブックマーク (9)

  • Webを進化させるスクレイピングのセオリー

    WebAPIだけに頼る必要はない。HTML構造を解析し、さらに情報集約や付加情報を加えたまとめサイトを作る。この特集は、Webをさらに使いやすくするためのガイドだ。 第1回目では、マッシュアップできないならば、スクレイピングすればよいと説明した。それでは、具体的に、どのようにスクレイピングすればよいのか。今回は、スクレイピングの考え方と技法を説明していこう。 CSSの普及で、容易になったスクレイピング 実際に、ほかのサイトにあるHTMLスクレイピングする場合、次の処理の流れとなる。 1)サーバからHTMLデータを取得する これは単純に、HTTP通信してHTMLデータを取得する操作である。例えばPerlであれば、LWP(libwww-perl)を利用すればよいだろう。もっと簡単に、UNIXに付属のwgetコマンドやfetchコマンドを使ってもよいはずだ。 2)HTMLから取り出したいデータ

    Webを進化させるスクレイピングのセオリー
  • RSS自動解析で分かる集合知

    RSSが公開されていれば、その内容から今何が話題になっているのかを把握することができる。このスクリプトが“まとめサイト”を作るピースの1つだ。 前回までは、スクレイピングの基礎を説明した。今回からは、実際にどのようにスクレイピングのプログラムを作っていけばよいのか、実践的な解説行っていこう。 今回の目的は、「RSSで配信されているブログ投稿を、コメント数が多いもの順に並べて表示する」という処理のスクリプト作成だ。 このようなスクリプトを作っておけば、数ある記事の中から、「盛り上がっている記事(炎上しているかもしれない)」を容易に把握することができる。そして、このスクリプトを以降の記事で紹介する自動化設定に組み合わせることで、“まとめサイト”を作り上げていくのだ。 PerlによるWebコンテンツの取得 スクレイピングするためには、まず、相手のWebサーバに接続してコンテンツを取得しなければな

    RSS自動解析で分かる集合知
  • スクレイピングで作る“まとめサイト”

    どんなサイトでも、マッシュアップすることができる。APIが公開されていなくてもいい。新たなまとめサイトを構築し、情報付加価値を高めるための手法を解説しよう。 さまざまなコンテンツを組み合わせて、好みに合ったページ(サービス)を作り上げる「マッシュアップ」。これの最たるものは、コンテンツ提供者が公開する「WebAPI」の組み合わせで実現するものだ。 しかし、利用する仕様を整備して、効果的なデータだけをメータデータ配信するWebAPIは、まだそれほど普及していない。つまりマッシュアップというキーワードから流行っている兆しはあっても、対象として使うことができるものは、意外と少ない。思い出してほしい。 このような状況を打開するのが、HTMLコンテンツを抜き出して加工する「スクレイピングscraping)」という手法だ。 このオンライン・ムックPlus「まとめサイト2.0」では、例として「ITme

    スクレイピングで作る“まとめサイト”
  • not found

    盾集域名停放是全球优质行业导航备案网站领导者 为中小企业提供数字化、快速化、轻量化、精准化的网站链接服务 dns1.dopa.com,dns2.dopa.com 版权所有 站内容未经书面许可,禁止一切形式的转载 © CopyRight 2023 盾集域名停放click.com.cn    浙ICP备20018420号-2 杭州盾集网络有限公司

  • not found

    盾集域名停放是全球优质行业导航备案网站领导者 为中小企业提供数字化、快速化、轻量化、精准化的网站链接服务 dns1.dopa.com,dns2.dopa.com 版权所有 站内容未经书面许可,禁止一切形式的转载 © CopyRight 2023 盾集域名停放click.com.cn    浙ICP备20018420号-2 杭州盾集网络有限公司

  • not found

    盾集域名停放是全球优质行业导航备案网站领导者 为中小企业提供数字化、快速化、轻量化、精准化的网站链接服务 dns1.dopa.com,dns2.dopa.com 版权所有 站内容未经书面许可,禁止一切形式的转载 © CopyRight 2023 盾集域名停放click.com.cn    浙ICP备20018420号-2 杭州盾集网络有限公司

  • not found

    盾集域名停放是全球优质行业导航备案网站领导者 为中小企业提供数字化、快速化、轻量化、精准化的网站链接服务 dns1.dopa.com,dns2.dopa.com 版权所有 站内容未经书面许可,禁止一切形式的转载 © CopyRight 2023 盾集域名停放click.com.cn    浙ICP备20018420号-2 杭州盾集网络有限公司

  • not found

    盾集域名停放是全球优质行业导航备案网站领导者 为中小企业提供数字化、快速化、轻量化、精准化的网站链接服务 dns1.dopa.com,dns2.dopa.com 版权所有 站内容未经书面许可,禁止一切形式的转载 © CopyRight 2023 盾集域名停放click.com.cn    浙ICP备20018420号-2 杭州盾集网络有限公司

  • not found

    盾集域名停放是全球优质行业导航备案网站领导者 为中小企业提供数字化、快速化、轻量化、精准化的网站链接服务 dns1.dopa.com,dns2.dopa.com 版权所有 站内容未经书面许可,禁止一切形式的转载 © CopyRight 2023 盾集域名停放click.com.cn    浙ICP备20018420号-2 杭州盾集网络有限公司

  • 1