タグ

webスクレイピングに関するde-styleのブックマーク (7)

  • ニコニコ動画(β)がサービス終了、真相を担当者に聞く

    (株)ニワンゴは、YouTube等の動画にコメントを付け、共有することができるウェブサービス、“ニコニコ動画(β)”のサービスを終了すると発表した。 同サービスは、20~22日夜に大規模なDDoS攻撃受けて、一時停止をしていた。加えて、ほぼ同時期にYouTubeがアクセスの一部を遮断していることが判明。それがβサービス終了の原因になったという。ドワンゴは1週間後をめどに同サービスの正式版を提供するとアナウンスしている。 この数日間で実際どういう経由があたったのか? (株)ドワンゴの広報担当者に電話取材した。 質問内容 Q YouTube側からアナウンスはあったか? A 特にない。こちらでアクセスが遮断されているのに気づいた。 Q YouTubeの動画をAPIで呼び出す際の約款上、何か問題はなかったか? A それはなかったと認識している。 Q YouTubeにコンタクトをとるか? A コンタ

  • 最速インターフェース研究会 :: 「ニコニコ動画はYouTubeにとって脅威になったのでアクセス拒否された」みたいな論調に話を持って行きたがる人たちについて

    割とどうでもいいとは思ってるんだけど書いておくことにする。ここら辺読んで思ったこと。 http://shi3z.cocolog-nifty.com/blog/2007/02/youtubeweb20_0171.html http://blog.livedoor.jp/lalha/archives/50154713.html http://mindclip.blog55.fc2.com/blog-entry-121.html 通常の利用頻度でAPI使ってて他は大丈夫なのに自分だけアクセス拒否された!ってことなら、敵視されてるんじゃないか とかそういう陰謀論が起こるのも理解できるんだけど。 「アクセス拒否=敵視されている」みたいな発想が短絡的だと思う。利用方法に問題があって異常なアクセスがあれば、普通にアクセス拒否すると思うんだけど。敵視してるとかそういうのとは全く関係なしに。 YouTube

  • MOONGIFT: � スクレイピングIDE「Web-Harvest」:オープンソースを毎日紹介

    Webサイトを自動操作するのによく使われるのがスクレイピングと呼ばれる技術だ。HTMLを解析し、その中から希望の値を取り出して処理するものだ。 大抵、スクリプト言語と正規表現を使って行われると思うが、これを発展させIDEレベルに仕上げたのがこのソフトウェアだ。 今回紹介するオープンソース・ソフトウェアはWeb-Harvest、Webスクレイピング統合開発環境だ。 Web-HarvestはJavaで作られたソフトウェアで、スクレイピングに関する情報をXMLベースで記述していく。そのXMLファイルを設定ファイルとして、データを入れ、返却されたHTMLXPathを使って解析していくというものになる。 便利な関数が様々に定義されており、例えばHTML-to-XMLを使って解析しやすいフォーマットに変換する事ができる。そしてループやIF文を使って処理分けしていく。 サンプルが幾つもあるが、例えばG

    MOONGIFT: � スクレイピングIDE「Web-Harvest」:オープンソースを毎日紹介
  • Yahoo! Pipes の Page Fetch モジュールでスクレイピングし放題 - てっく煮ブログ

    pipesこのブログでも何度か Yahoo! Pipes の話題は取り上げてきましたが、先日実装された「Page Fetch」モジュールは素敵すぎます。ほんとに。今まで、Yahoo! Pipes といえば、XML・CSVYahoo が提供してるサービスのデータを加工することしかできませんでした。それが、「Page Fetch」モジュールの登場により、任意の Web ページを加工できるようになったのです。Yahoo! Pipes の使い道といえば、次の2つだと思います。1. RSSリーダーで読むための XML 作り複数の RSS を結合したり、見た目を整えたりして、自分専用の RSS を作る。 (例)サイトの最新被ブックマークを livedoor Reader で読むための Pipes2. Web サービスとの連携JSONP に対応してるので、JavaScript と組み合わせてサーバ

  • スクレイピングはもっと簡単にならなければいけない - bits and bytes

    スクレイピングをやったことがあるひとならばわかると思うけど、スクレイピングはとてもつまらない作業だ。 HTMLの中から抜き出したい部分を見つけて、その周辺にある特徴的な部分に着目して正規表現を書いたりして抜き出す。あるいはHTMLからDOMを生成して特定のクラスがついているエレメントを抜き出したりする。HTMLをXHTMLに整形、変換してXPathで抜き出す方法もある。どの方法もやることは単純で簡単なことだけれど、極めてめんどくさい。 そういうものだと思って数年間過ごしてきたけれど、去年の夏に出てきた Dapper: The Data Mapper は、そんな退屈な常識をモダーンなajaxでもって吹き飛ばした。もしDapperがどんなのなのか知らなかったら、ちょっと長くてはじめ退屈なんだけど デモムービー を見てみてください。 Dapperが教えてくれたことは、スクレイピングなんて、欲し

  • Spidering Hacks

    毎日欠かさずチェックしているウェブページがありますか?ウェブ上のデータを二次利用したくありませんか?ウェブサービスを駆使してみたくないですか?そう思ったことがあるのなら、このを読むべきです。書は、ウェブを横断して情報を自動収集するプログラム、スパイダを自由自在に操り、目的の情報を取り出す方法を詳しく解説しています。また、各Hackを積極的に日語化し、訳書版独自のHackや日語処理の注意点(付録)を収録するなど、至れり尽くせりの内容です。スパイダ通のテクニックが満載! 関連ファイル サンプルコード 正誤表 ここで紹介する正誤表には、書籍発行後に気づいた誤植や更新された情報を掲載しています。以下のリストに記載の年月は、正誤表を作成し、増刷書籍を印刷した月です。お手持ちの書籍では、すでに修正が施されている場合がありますので、書籍最終ページの奥付でお手持ちの書籍の刷版、刷り年月日をご確認の

    Spidering Hacks
  • 進化する“Webスクレイピング”技術の世界 ― @IT

    2007/02/20 WebサービスAPIRSSフィードを使って複数サイトのサービスや情報をマッシュアップ――。これはWeb2.0が包含するいくつかの概念のうち、最も重要なものの1つだ。Amazon.comやGoogleYahoo!楽天といった大手Webサイトは、RESTやSOAPを用いたAPIを公開しており、さまざまなサービス提供者や個人がAPIを通して各種サービスを利用している。その一方、世の中のWebサイトの大多数はWeb1.0的なHTMLCGIフォームしか提供していないのが現実だ。こうした背景からWeb1.0サイトから構造化されたデータを引っ張り出す“Webスクレイピング技術が急速に発展してきているようだ。 HTMLをXML化し、XPathで関連データだけを抽出 例えば価格情報サイトでは製品名から価格が簡単に調べられるが、Webサーバから提供されるのは、製品名や価格にレ

  • 1