タグ

xmlとwebに関するadamrockerのブックマーク (3)

  • 進化する“Webスクレイピング”技術の世界 ― @IT

    2007/02/20 WebサービスAPIRSSフィードを使って複数サイトのサービスや情報をマッシュアップ――。これはWeb2.0が包含するいくつかの概念のうち、最も重要なものの1つだ。Amazon.comやGoogleYahoo!楽天といった大手Webサイトは、RESTやSOAPを用いたAPIを公開しており、さまざまなサービス提供者や個人がAPIを通して各種サービスを利用している。その一方、世の中のWebサイトの大多数はWeb1.0的なHTMLCGIフォームしか提供していないのが現実だ。こうした背景からWeb1.0サイトから構造化されたデータを引っ張り出す“Webスクレイピング技術が急速に発展してきているようだ。 HTMLをXML化し、XPathで関連データだけを抽出 例えば価格情報サイトでは製品名から価格が簡単に調べられるが、Webサーバから提供されるのは、製品名や価格にレ

    adamrocker
    adamrocker 2007/02/21
    HTMLから構造化されたXMLを作り出すスクレイピングが注目されている。そのRubyフレームワークscRUBYt!がリリースされた。MechanizeとHPricotを利用しているようです。
  • Metalinkを活用した手間知らずのダウンロード | OSDN Magazine

    人気の高いソフトウェアをインターネット経由で入手しようとすると、時に非常に手間取ることがあるが、それはミラーサイトやBitTorrentを利用した場合でも同様である。例えば先月FedoraプロジェクトがFedora Core 6をリリースしたが、その際には多数のミラーサイトが用意されていたにもかかわらず膨大なアクセス数をさばききれず、またシーダの不足が原因となってトレントが停滞するという事態が生じていた。ところがMetalinkを利用できた私は、自分は熟睡しながら自動作業でFC6のISOをまとめてダウンロードさせるという贅沢に浸ることができたのである。 Metalinkとはオープン標準の1つだが、その目的はダウンロード作業を簡単化、高速化、高信頼化させることにあり、やや大げさに言えば、個々のユーザが確保した通信帯域を最後の1ビットまで利用し尽くすことを目指している。ところで、Metalin

    Metalinkを活用した手間知らずのダウンロード | OSDN Magazine
  • AmazonのXML Webサービス(REST)はXSLを書くだけでもかなり使える

    This shop will be powered by Are you the store owner? Log in here

  • 1