タグ

関連タグで絞り込む (1)

タグの絞り込みを解除

スクレイピングに関するyamashiro0110のブックマーク (3)

  • オープンソースのWebクローラー10選 | Octoparse

    Webクローラーの特徴を組み合わせたものです。このサービスでは、誰もが自由にコードをカスタマイズし、Webクローラーとはインターネット上に公開されているテキスト・画像・動画などの情報を自動で収集し、データベースに保管するプログラムのことです。さまざまなウWebクローラーがビッグデータのブームで重要な役割を果たし、人々がデータを簡単にスクレイピングできるようにしています。 さまざまなWebクローラーの中には、オープンソースのWebクローラーフレームワークがたくさんあります。オープンソースのWebクローラーを使用すると、ユーザーはソースコードまたはフレームワークに基づいてプログラミングでき、スクレイピング支援のリソースも提供され、データ抽出が簡単になります。この記事では、おすすめのオープンソースWebクローラーを10選紹介します。 オープンソースのWebクローラーとは オープンソースのWebク

    オープンソースのWebクローラー10選 | Octoparse
  • WebサイトをスクレイピングするWebクローラー20選 - Qiita

    元記事:https://www.octoparse.jp/blog/top-20-web-crawling-tools-for-extracting-web-data/ 今では、Webクローリング(Webスクレイピングとも呼ばれる)は多くの分野で広く適用されています。これは、任意のWebサイトから取得されたデータを簡単にアクセスできるようにデータベースに保管することを目的としています。Webクローラーツールは、クローリングプロセスを簡単、自動化にし、Webデータリソースを誰でも簡単に利用できるようにするため、 広く知られています。Webクローラツールを使用すると、コピペをしなくなり、データ収集が自動化になります。さらに、Webクローラー使うと、コードを書く必要がなく、ネット上の情報を速くスクレイピングでき、構造化データに変換できます。 以前、Webクローラーに関する基礎知識について紹介しま

    WebサイトをスクレイピングするWebクローラー20選 - Qiita
  • 進化する“Webスクレイピング”技術の世界 ― @IT

    2007/02/20 WebサービスAPIRSSフィードを使って複数サイトのサービスや情報をマッシュアップ――。これはWeb2.0が包含するいくつかの概念のうち、最も重要なものの1つだ。Amazon.comやGoogleYahoo!楽天といった大手Webサイトは、RESTやSOAPを用いたAPIを公開しており、さまざまなサービス提供者や個人がAPIを通して各種サービスを利用している。その一方、世の中のWebサイトの大多数はWeb1.0的なHTMLCGIフォームしか提供していないのが現実だ。こうした背景からWeb1.0サイトから構造化されたデータを引っ張り出す“Webスクレイピング技術が急速に発展してきているようだ。 HTMLをXML化し、XPathで関連データだけを抽出 例えば価格情報サイトでは製品名から価格が簡単に調べられるが、Webサーバから提供されるのは、製品名や価格にレ

  • 1