タグ

Mashupに関するwebcrawlのブックマーク (28)

  • Webを進化させるスクレイピングのセオリー

    WebAPIだけに頼る必要はない。HTML構造を解析し、さらに情報集約や付加情報を加えたまとめサイトを作る。この特集は、Webをさらに使いやすくするためのガイドだ。 第1回目では、マッシュアップできないならば、スクレイピングすればよいと説明した。それでは、具体的に、どのようにスクレイピングすればよいのか。今回は、スクレイピングの考え方と技法を説明していこう。 CSSの普及で、容易になったスクレイピング 実際に、ほかのサイトにあるHTMLスクレイピングする場合、次の処理の流れとなる。 1)サーバからHTMLデータを取得する これは単純に、HTTP通信してHTMLデータを取得する操作である。例えばPerlであれば、LWP(libwww-perl)を利用すればよいだろう。もっと簡単に、UNIXに付属のwgetコマンドやfetchコマンドを使ってもよいはずだ。 2)HTMLから取り出したいデータ

    Webを進化させるスクレイピングのセオリー
  • RSS自動解析で分かる集合知

    RSSが公開されていれば、その内容から今何が話題になっているのかを把握することができる。このスクリプトが“まとめサイト”を作るピースの1つだ。 前回までは、スクレイピングの基礎を説明した。今回からは、実際にどのようにスクレイピングのプログラムを作っていけばよいのか、実践的な解説行っていこう。 今回の目的は、「RSSで配信されているブログ投稿を、コメント数が多いもの順に並べて表示する」という処理のスクリプト作成だ。 このようなスクリプトを作っておけば、数ある記事の中から、「盛り上がっている記事(炎上しているかもしれない)」を容易に把握することができる。そして、このスクリプトを以降の記事で紹介する自動化設定に組み合わせることで、“まとめサイト”を作り上げていくのだ。 PerlによるWebコンテンツの取得 スクレイピングするためには、まず、相手のWebサーバに接続してコンテンツを取得しなければな

    RSS自動解析で分かる集合知
  • スクレイピングで作る“まとめサイト”

    どんなサイトでも、マッシュアップすることができる。APIが公開されていなくてもいい。新たなまとめサイトを構築し、情報付加価値を高めるための手法を解説しよう。 さまざまなコンテンツを組み合わせて、好みに合ったページ(サービス)を作り上げる「マッシュアップ」。これの最たるものは、コンテンツ提供者が公開する「WebAPI」の組み合わせで実現するものだ。 しかし、利用する仕様を整備して、効果的なデータだけをメータデータ配信するWebAPIは、まだそれほど普及していない。つまりマッシュアップというキーワードから流行っている兆しはあっても、対象として使うことができるものは、意外と少ない。思い出してほしい。 このような状況を打開するのが、HTMLコンテンツを抜き出して加工する「スクレイピングscraping)」という手法だ。 このオンライン・ムックPlus「まとめサイト2.0」では、例として「ITme

    スクレイピングで作る“まとめサイト”
  • テーマは「マッシュアップ」- 日本IBM「Scholar Challenge 2007」を開催 | エンタープライズ | マイコミジャーナル

    IBMは、世界に通用するIT技術者の育成を目的とした、学生向けの技術コンテスト「Scholar Challenge 2007」を開催する。 IBMでは、人材の育成を目的として、大学などの教育機関を支援するプログラム「IBMアカデミック・イニシアティブ」を2001年から世界規模で展開している。Scholar Challengeはその活動の一環として開催しているコンテスト。今回で3回目の開催となる。 今回のテーマは、複数のWebサイトのコンテンツを組み合わせて新しいサービスを生み出す技術「マッシュアップ」。マッシュアップのアイデアを競う「アイデア・コンテスト」と、実際に作成したマッシュアップ・サイトのデザインを競う「マッシュアップ・デザイン・コンテスト」の2つの企画が用意されており、「アイデアの斬新性」、「有用性」、「実現性」、「技術性」の4項目を中心に審査が進められる。なお、マッシュアッ

  • 今年はマッシュアップ――日本IBM、Scholar Challenge 2007の開催を発表

    高度なIT技術力を持つ人材育成を目的としたScholar Challenge 2007が開催される。今年のテーマはマッシュアップだ。 日アイ・ビー・エム(日IBM)は10月15日、Web上に公開されているAPIなどを組み合わせて新しいサービスを作るマッシュアップをテーマに、大学生/大学院生/専門学校生を対象としたコンテスト「Scholar Challenge 2007」を開催すると発表した。専用Webサイトから応募できる。申し込み期間は10月15日から11月27日まで。 IBMは、高度な技術力を持つ人材育成を目的に、大学などの教育機関を支援する「IBMアカデミック・イニシアティブ」を2001年から展開している。この一環として、日IBMは、日のイノベーションの原動力として活躍する学生の育成を目的に、さまざまイベントを開催してきた。 Scholar Challenge 2007は、日

    今年はマッシュアップ――日本IBM、Scholar Challenge 2007の開催を発表
  • not found

    盾集域名停放是全球优质行业导航备案网站领导者 为中小企业提供数字化、快速化、轻量化、精准化的网站链接服务 dns1.dopa.com,dns2.dopa.com 版权所有 站内容未经书面许可,禁止一切形式的转载 © CopyRight 2023 盾集域名停放click.com.cn    浙ICP备20018420号-2 杭州盾集网络有限公司

  • not found

    盾集域名停放是全球优质行业导航备案网站领导者 为中小企业提供数字化、快速化、轻量化、精准化的网站链接服务 dns1.dopa.com,dns2.dopa.com 版权所有 站内容未经书面许可,禁止一切形式的转载 © CopyRight 2023 盾集域名停放click.com.cn    浙ICP备20018420号-2 杭州盾集网络有限公司

  • not found

    Puzzle Tiny Clash One day zombies suddenly appear and now you need to keep them off your lawn (and brain!). PLAY NOW Air Warriors Take control of a warplane and jump on the battlefield of 1945 Air Force - Airplane Shooting Games in this thrilling combat flight action game. PLAY NOW Puzzle Bubble vs Blocks Bricks vs Balls Breaker is the most addictive Bricks Breaker game. PLAY NOW

  • not found

    盾集域名停放是全球优质行业导航备案网站领导者 为中小企业提供数字化、快速化、轻量化、精准化的网站链接服务 dns1.dopa.com,dns2.dopa.com 版权所有 站内容未经书面许可,禁止一切形式的转载 © CopyRight 2023 盾集域名停放click.com.cn    浙ICP备20018420号-2 杭州盾集网络有限公司

  • not found

    盾集域名停放是全球优质行业导航备案网站领导者 为中小企业提供数字化、快速化、轻量化、精准化的网站链接服务 dns1.dopa.com,dns2.dopa.com 版权所有 站内容未经书面许可,禁止一切形式的转载 © CopyRight 2023 盾集域名停放click.com.cn    浙ICP备20018420号-2 杭州盾集网络有限公司

  • not found

    盾集域名停放是全球优质行业导航备案网站领导者 为中小企业提供数字化、快速化、轻量化、精准化的网站链接服务 dns1.dopa.com,dns2.dopa.com 版权所有 站内容未经书面许可,禁止一切形式的转载 © CopyRight 2023 盾集域名停放click.com.cn    浙ICP备20018420号-2 杭州盾集网络有限公司

  • not found

    盾集域名停放是全球优质行业导航备案网站领导者 为中小企业提供数字化、快速化、轻量化、精准化的网站链接服务 dns1.dopa.com,dns2.dopa.com 版权所有 站内容未经书面许可,禁止一切形式的转载 © CopyRight 2023 盾集域名停放click.com.cn    浙ICP备20018420号-2 杭州盾集网络有限公司

  • not found

    盾集域名停放是全球优质行业导航备案网站领导者 为中小企业提供数字化、快速化、轻量化、精准化的网站链接服务 dns1.dopa.com,dns2.dopa.com 版权所有 站内容未经书面许可,禁止一切形式的转载 © CopyRight 2023 盾集域名停放click.com.cn    浙ICP备20018420号-2 杭州盾集网络有限公司

  • Google、簡単にマッシュアップできるエディタ「Google Mashup Editor」発表:CodeZine

    Googleは31日、簡単にマッシュアップを作成できるエディタ「Google Mashup Editor」を発表した。現在のところ限られた開発者のみに公開されている。 Google Mashup EditorはGWT(Google Web Toolkit)を使って構築されており、それ自身がAjaxで動作するWebベースのエディタになっているという。HTMLJavaScriptCSS、XMLを記述することができ、デバッグ機能も備えている。 マッシュアップの適用はタグを埋め込む形で行う。ブラウザごとの挙動の差異は全てGWTが吸収するため、開発者は特に意識する必要はない。サーバ構成要素はGoogle側が提供するので、開発者はWebブラウザでアクセスするだけでマッシュアップを作成できるようになる。 また、作成したマッシュアップアプリケーションはiGoogleのガジェット等に配置できるという

  • 今をメモする「Timelog」: 第一回「Timelog API」コンテスト 結果発表!!!

    2007年5月24日(木)~6月30日(土)の期間中、TimelogAPIを使ったサービスやアプリケーションを利用者のみなさんから募集したAPIコンテストを開催しました! より多くの人にTimelog APIを利用してもらうこと、Timelogのアイデアや新しい使い方によって楽しいサービスや便利なアプリケーションが生み出されることを期待した今回のコンテストでは、応募者それぞれの個性が光る作品が続々エントリーされました! 応募作品について、Timelogの利用者からの投票と5名の特別審査員・Timelogスタッフによる厳正な審査を行った結果、以下の6名の受賞を決定いたしました! それでは、第一回Timelog APIコンテストの結果を発表しましょう!! 【優勝】あのとき(賞金5万円) 受賞者:sohei 受賞作品:あのとき 関連URL:http://anokoro.xrea.jp/anot

  • Googleカレンダーをテレビ番組表に:ITpro

    最後は,Googleのカレンダー・サービスを使ってマッシュアップ・サイトを作ります。テレビ番組サイトが配信しているRSSデータを取得して,Ruby on Railsでカレンダーのフォーマットに変換します。それをGoogleカレンダーに取り込んで,オリジナルの番組表を作ってみましょう。 ここまで,さまざまなWebサービスを利用してきました。これらはすべて,自作サーバーで稼働するRuby on Railsのプログラムが,Webサービスから取得したデータをブラウザに表示するという仕組みでした。例えばPart3では,Google MapsのWebサービスから取得した地図情報をブラウザに表示しました。 Part4では逆に,Googleのサイトが,自作サイトのWebAPIデータを取得して,ブラウザに表示するという仕組みを体験してみます。 「Googleカレンダー」(写真1)は,「iCalendar」と

    Googleカレンダーをテレビ番組表に:ITpro
  • not found

    盾集域名停放是全球优质行业导航备案网站领导者 为中小企业提供数字化、快速化、轻量化、精准化的网站链接服务 dns1.dopa.com,dns2.dopa.com 版权所有 站内容未经书面许可,禁止一切形式的转载 © CopyRight 2023 盾集域名停放click.com.cn    浙ICP备20018420号-2 杭州盾集网络有限公司

  • not found

    盾集域名停放是全球优质行业导航备案网站领导者 为中小企业提供数字化、快速化、轻量化、精准化的网站链接服务 dns1.dopa.com,dns2.dopa.com 版权所有 站内容未经书面许可,禁止一切形式的转载 © CopyRight 2023 盾集域名停放click.com.cn    浙ICP备20018420号-2 杭州盾集网络有限公司

  • サン・マイクロシステムズ

    のオラクル・コミュニティが一堂に会するプレミア・イベントにぜひご参加ください。新しいスキルを身に付け、業界エキスパートと交流し、複雑なビジネス課題を解決するためのソリューションを発見しましょう。

  • not found

    盾集域名停放是全球优质行业导航备案网站领导者 为中小企业提供数字化、快速化、轻量化、精准化的网站链接服务 dns1.dopa.com,dns2.dopa.com 版权所有 站内容未经书面许可,禁止一切形式的转载 © CopyRight 2023 盾集域名停放click.com.cn    浙ICP备20018420号-2 杭州盾集网络有限公司