[B! crawler] kana321のブックマーク

kana321 id:kana321

crawlerに関するkana321のブックマーク (20)

クローラー／スクレイピングのカレンダー | Advent Calendar 2014 - Qiita
クローラー／スクレイピングに関する話題ならなんでも誰でも OK な Advent Calendar です。 Webからどうやって情報を集めるか、いろいろな方法を共有しましょう。例: 言語別のクローラー／スクレイピング方法ノンプログラムで使えるサービスやっぱりExcel最高！！情報収集に関する注意点（著作権法、岡崎図書館事件）
kana321 2014/12/29
あとで読む

スクレイピング

scraping

web

Advent Calendar 2014

crawler

Advent Calendar

calendar

2014

AdventCalendar
リンク
Excel VBA+IEでのスクレイピング - プログラマでありたい
書くと宣言しながら、すっぽかしていたクローラー／スクレイピング Advent Calendar 2014の11日目です。ExcelのVBAで、IEの操作が出来ます。またその中の機能にDOM操作があります。この二つがあれば、Excelだけでスクレイピングできますよという話です。何を隠そう、私が初めてスクレイピングに手を染めたのはこのExcel VBA スクレイピングでした。毎月定期的に所定のデータを観測するという仕事があって、面倒くさくて仕方がない私は記録用のExcelを魔改造して勝手に取得するようにしました。1時間くらい掛かってた作業も、ボタンポチになったので随分楽になったと記憶しています。（結局、ボタンを押すのも面倒くさくなって、毎日サーバサイドで動かすようにしましたが）スクレイピングの手始めにピッタリのExcel VBA スクレイピングです。環境の用意が簡単なので、ノンプログラマーでも
kana321 2014/12/29
excel

crawler

VBA

プログラミング

スクレイピング

programming

Windows

scraping

あとで読む

IE
リンク
Pythonでクローリング・スクレイピングに使えるライブラリいろいろ - orangain flavor
2016-12-09追記「Pythonクローリング&スクレイピング」という本を書きました！ Pythonクローリング&スクレイピング -データ収集・解析のための実践開発ガイド- 作者: 加藤耕太出版社/メーカー: 技術評論社発売日: 2016/12/16メディア: 大型本この商品を含むブログを見るこれはクローラー／スクレイピング Advent Calendar 2014の7日目の記事です。 Pythonでクローリング・スクレイピングするにあたって、いろいろなライブラリがあるので一覧でまとめてみます。以下の4つのカテゴリにわけて紹介します。 Webページを取得する Webページからデータを抜き出す Webページの自動操作総合的なフレームワークなんでこれが載ってないの？この説明はおかしい！などありましたらお気軽にお知らせください。なお、この記事はいろいろなライブラリを紹介することを目
kana321 2014/12/08
crawler

HTML

web

クローラ

スクレイピング

あとで読む

ライブラリ

Programming

Python

()
リンク
Webスクレイピングの法律周りの話をしよう！ - Qiita
[2020/09/09追記] 本記事の内容は著作権法改正より前に記載されたものです。最新の情報をご確認下さい。 * 著作権法の一部を改正する法律（平成30年法律第30号）について | 文化庁 * 令和2年通常国会著作権法改正について | 文化庁上記に関連して、次の記事を記載致しました。 * 【2020年度版】個人用クローラーの開発手順とその注意点 - Qiita 4日目になるまでに残り1時間なので、急ぎで書きます。後、私は法律の専門家ではないので記事の正確性は保証できません。自己責任でお願いします。はじめに Webスクレイピングの技術的な情報は多いのですが、法律に関する情報は数少ないです。その為、技術的にできる事でも遠慮してしまい、インターネット上のデータを利用する事を避けてしまう人もいます。特にLibraHack事件以降、その傾向が強いです。これは「モノのインターネット（
kana321 2014/12/04
Webスクレイピングの法律周りの話をしよう！

著作権

crawler

あとで読む

license

scraping

web

ホットエントリ

facebook
リンク
The Web Robots Pages
Web Robots (also known as Web Wanderers, Crawlers, or Spiders), are programs that traverse the Web automatically. Search engines such as Google use them to index the web content, spammers use them to scan for em ail addresses, and they have many other uses. On this site you can learn more about web robots. About /robots.txt explains what /robots.txt is, and how to use it. The FAQ answers many frequ
kana321 2014/11/18
*web制作

Google

robots.txt

web

seo

crawler

*seo

robot

security

network
リンク
Pythonでつくる検索エンジン(Webクローラ, Mecab, MongoDB, Flask) - c-bata web
検索エンジン自作入門 ~手を動かしながら見渡す検索の舞台裏作者:山田浩之,末永匡発売日: 2014/09/25メディア: 単行本（ソフトカバー） (この記事で紹介しているのはTF-IDFとかの計算もない簡素なものです。) はじめに Webサービスのプログラミングに必要なことのだいたいは、スクレイピングに学んだ - Line 1: Error: Invalid Blog('by Esehara' ) この前↑の記事をみかけました。クローリングやスクレイピングは、色々と応用が効きそうなのでしっかり勉強したい。 PythonではScrapyという有名なクローリング・スクレイピング用のライブラリがありますが、今回は勉強としてScrapyを使わずに実装してみる。流れとしては以下のとおり Webクローラの構築 Mecabで日本語の形態素解析検索エンジンの構築データをMongo DBに格納 Fl
kana321 2014/11/13
python

crawler

flask

検索エンジン

IT

mecab

スクレイピング

あとで読む

web

mongodb
リンク
話題のクローラー・スクレイピング！PythonならScrapyが超優秀な件
Rubyによるクローラー開発技法読書会第2回(兵庫県)に参加しました Nov 1st, 2014 1:05 pm | Comments 11月1日 Rubyによるクローラー開発技法　読... [amazonjs asin="4797380357" locale="JP" tmpl="Small" title="Rubyによるクローラー開発技法巡回・解析機能の実装と21の運用例"] こういう会に参加すると、自分の知識の狭さを痛感してもっと勉強しなきゃなぁという気になります。また次回も参加させてもらいたいです。参加者の皆さん、色々ご教示いただき、ありがとうございました。読書会では本の内容から広がった話がとても面白かったです。個人的には、Rubyのクローラー本の中身を実際に使うということは少ない気がしましたが、他の人がどのようにスクレイピングをしているのかということを知ることができたのは
kana321 2014/11/05
ruby

クローラー

python

2014年

スクレイピング

言語｜Python

scrapy

scraping

crawler

あとで読む
リンク
クローラーとAWSが出会ったら？第3回Webスクレイピング勉強会@東京 - プログラマでありたい
2014/10/26に開催された第3回Webスクレイピング勉強会@東京に参加して、発表してきました。今回は、スクレイピングと少し離れてAWSを使ってクローリングするという話です。クローラー／スクレイピングとAWSは相性が良いというのは、昔から思っていたのでテーマとして扱うことは早めに決めていました。しかし、話の構成を、具体的なテクニックの話にするか、概念的な話にするか、少し悩みました。なるべき多くの人に伝わるように、概念的な話をしたつもりです。具体的な部分についてはRubyによるクローラー開発技法を読んで頂ければと思いますw 発表資料 Scraping withaws AWSを利用してスクレイピングの悩みを解決するチップス from Takuro Sasaki Scraping withaws AWSを利用してスクレイピングの悩みを解決するチップス資料の構成としては、クローリングする際の悩み
kana321 2014/10/28
ソーシャル

テクノロジー

slide

スクレイピング

AWS

crawler

scraping

web

あとで読む

slides
リンク
まだmechanizeで消耗してるの? WebDriverで銀行をスクレイピング（ProtractorとWebdriverIOを例に） - 詩と創作・思索のひろば
今日はスクレイピングの話をします。今回のターゲットは三菱東京UFJダイレクト。金融機関もウェブサービスを提供するようになり、金にまつわる情報を電子化しやすくなりましたが、かれらが API を提供しているわけではないので、私たちのほうで取得・加工をしてやる必要があります。今やウェブサイトであれば当然のように JavaScript を使っているわけなので、いわゆる mechanize、つまり HTML の解釈をおこない、リンクのクリックやフォームの送信をシンプルに実装するようなやり方でのスクレイピングはすでに無理筋だといえます。もちろん今日においてはブラウザオートメーションという方法がすでにありますので、これを利用してやれば、なんの憂いもなく実際に人間が使うようなブラウザをプログラマティックに操作することができます。現在は Selenium WebDriver がデファクトで、これが使用す
kana321 2014/10/01
web制作

selenium

phantomjs

スクレイピング

ライブラリ

javascript

webdriver

selenium

scraping

crawler
リンク
Webスクレイピングが捗るGoutteを使ってみる
<?php // first.php require_once './vendor/autoload.php'; $client = new Goutte\Client(); $crawler = $client->request('GET', 'http://blog.asial.co.jp/'); // 抽出 $targetSelector = 'h2.lh1_2em'; // アシアルブログの見出しのセレクター $crawler->filter($target)->each(function ($node) { echo $node->text() . "\n"; }); ~/Sites/prac/goutte php first.php 外部コンテンツをiframeサイズで拡大縮小させたり、固定幅コンテンツをウィンドウサイズでピッタリ表示させる方法「Monaca for Hyb
kana321 2014/09/29
ホットエントリ

#テクノロジー

()

*あとで読む

スクレイピング

web

php

crawler

ライブラリ

scraping
リンク
PythonによるWebスクレイピング入門
2. 自己紹介 • 関根裕紀（せきねひろのり） • アライドアーキテクツ株式会社 • ソフトウェア・エンジニア • PyCon JP 2014 スタッフ • Twitter（@checkpoint ) 3. • 前職まで • RSSリーダー、SNS • WebMail • 写真共有サービス • 現在（アライドアーキテクツ） • モニプラFacebook、Social-IN • Webアプリケーション開発全般を担当経歴
kana321 2014/08/30
twitter

crawler

お役立ち

python

スクレイピング

slide

programming

web

development

scraping
リンク
Rubyで作るクローラー Ruby crawler
5. ✦ プロフィール ‣ Webシステムを得意とするSIerで勤務 ‣ 最近の仕事はAWS事業の推進・インフラチームのマネジメント ‣ Webスクレイピングして、データマイニングするのが趣味 ★ ソーシャル・ネットワーク ‣ blog: http://blog.takuros.net/ ‣ twitter: @dkfj ‣ Facebook: takuro.sasaki ‣ SlideShare: http://www.slideshare.net/takurosasaki/ ‣ http://www.justyo.co/TAKUROS/ @dkfj 自己紹介：　佐々木拓郎 7. 私とRuby ✦ 正直、初中級者レベル ‣ 2006年くらいから、個人的に使いはじめる ‣ 2009～10年くらいに業務でRuby On Railsなどを導入 ‣ 以降、自分のチームではRailsを標準に（で
kana321 2014/08/22
Rubyで作るクローラー Ruby crawler

ruby

ruby

crawler

テクノロジー

*Ruby

クローラー
リンク
プログラミング・レスで5分でサックリWebスクレイピング「kimonolabs」 - プログラマでありたい
「Rubyによるクローラー開発技法」で付録か何かで書こうか悩んだ末に書かなかったのが、kimonolabsの話です。kimonolabsは、クローラー／スクレイピングをオンラインで実行できるWebサービス（SaaS）です。クローラー本を書いておいて何ですが、９割の人は自分でクローラーを作らずに、この手のサービスを利用すれば事足りると思います。（書かなかった理由は、Ruby縛りサービスの継続性とスケジュールの問題です。主に最後） kimonolabsとは？ kimonolabsは、先述のとおりWebスクレイピングをしてくれるSaaSです。会員登録してChromeの拡張をいれれば、すぐに使えるようになります。一般的に、Webスクレイピングする場合は、次のような手順が必要です。対象ページのダウンロードダウンロードしたページから、特定の箇所を抜き出す抜き出したデータの保存対象ページのダウン
kana321 2014/08/14
スクレイピング

api

scraping

html

webサービス

ruby

crawler

web

programming

プログラミング
リンク
開発用プロキシ、「CocProxy」が便利 - プログラマでありたい
CocProxyというツールがあります。名前の通りプロキシサーバーなのですが、用途が開発用です。置換プロキシと言うらしいですが、これがとっても便利です。例えば、クローラーの開発や、HTML,CSS,JavaScriptの修正をする際に、このCocProxyを利用するとダウンロード待ちのイライラが解消され、効率アップ間違いなしです。ローカルのみで完結するのと、Webへのアクセスが必要とするのでは、スピードが数十〜数百倍違います。一回だけでみたら、数百ミリSecの差ですが累積で考えると大きいですよ。 CocProxyとは？ Ruby製のProxyServerです。かつ標準ライブラリで動くことを目標としているので、Rubyの環境があれば、ダウンロードして直ぐに使えます。また基本的には1ファイルで完結するので、導入も簡単です。Ruby1.9をベースにしていますが、Ruby 2.0でも特に問題なく動
kana321 2014/05/06
ruby

クローラー

proxy

.NET

スクレイピング

crawler

web

開発

development

http
リンク
1日最大20億ページのクローリングを安価に実現！『80legs』 | 100SHIKI
1日最大20億ページのクローリングを安価に実現！『80legs』 September 28th, 2009 Posted in 便利ツール（ウェブ） Write comment サービスの開発上、大量のウェブページのクローリングが必要な場合もある（お行儀良くやりましょうね）。通常、そうしたクローリングには別途マシンを割り当ててがしがし処理をまわすのだが、あまりに膨大な量のクローリングをする必要がある場合、いろいろとコストがかかってしまう。そこで「クローリングならうちに任せて！」と声を上げたのが80legsだ。なんと5万台のマシンを使い、最大20億ページ/日のクローリングが可能だという。しかもデータセンターやクラウドを使うよりぐっと安価ときている。なおかつ、使い方も簡単で、どんなクローリングをしたいかをフォームで申し込むだけらしい。クローリングという実にニッチなサービスではあるが、必
kana321 2014/03/15
なんと5万台のマシンを使い、最大20億ページ/日のクローリングが可能だという。しかもデータセンターやクラウドを使うよりぐっと安価ときている

100SHIKI

情報

ニュース

webサービス

ツール

便利

クラウド

crowling

crawler

webservice
リンク
あらためてRuby製のクローラー、"anemone"を調べてみた - プログラマでありたい
３年ほど前に、Ruby製のクローラー"anemone"を紹介しました。その当時から完成度が高く、Rubyでクローラーを使う場合はanemoneを利用してきました。最近、他に新しくて良いのがないか調べましたが、機能面の網羅性という意味でanemoneを超えるものは見つけられませんでした。そこで改めてanemoneのソースを読んでみたところ、クローラーが必要とする機能を必要最小限で実装され、やはり中々良い出来です。冬休みの宿題ではないですが、勉強の意味を兼ねてソースを追っていくことにします。 Anemoneが利用しているライブラリ一覧 anemoneが利用しているライブラリは、４種類に分類できます。 Ruby標準or一般的なライブラリデータ取得で利用しているライブラリデータ解析で利用しているライブラリデータ保存で利用しているライブラリこの分類別に構造をみるとわかりやすいので、順番に追っ
kana321 2014/01/06
ruby

ネットワーク

Ruby

ツール

scraping

プログラミング

anemone

クローラ

crawler

資料
リンク
Rubyとか使ってクローリングやスクレイピングするノウハウを公開してみる！ - 病みつきエンジニアブログ
今まで何度もスクレイピングとかクローリングをしてきたので、マエショリストの端くれとしてコツを公開すべきかなあ、と思い、公開します。今日の題材は、CNET Newsです。私はウェブ文書にタグ付けをするという研究をしているのですが、そのための教師データとしてクローリングをします。 photo by Sean MacEntee 要件定義 CNET Newsから全ニュースを保存し、その本文をデータベースに保存します。これは、次のようなフローに書き下すことができます。全URLを取得し、データベースに保存データベースにある全URLをダウンロードする保存した全ページを解析して、本文をデータベースに保存するという流れです。これらは独立していますから、それぞれどの言語で解析しても構いません。しかし後述しますが、「あとから追いやすくする」「適材適所」といったあたりを気をつけて、言語選択をするべきだと
kana321 2014/01/01
webサービス

news

ruby

スクレイピング

crawler

SQLite

プログラミング

データベース

scraping

クローリング
リンク
Webクローリング＆スクレイピングの最前線公開用
2. about me • 杉浦隆幸 • ネットエージェント株式会社代表取締役 • PacketBlackHole, OnePointWall, 防人, secroidの原開発者 • CTFチャレンジジャパン経済産業省主催のCTF(ハッキングの技術大会）優勝メンバー (Agent IV) • Winnyの暗号解読に初めに成功 • TVニュース番組での事件解説多数 • 第４回 IPA賞受賞 • 2010年に政府の情報保全検討委員 • など 2 3. Agenda • クローリング • 概要・リスク・レベル・対策・対策の対策 • スクレイピング • 環境・実例 • 応用例 • secroid • easy webscrap • zip de kure • P2P 公開用は一部情報を削減しています。 3
kana321 2013/06/23
Google

google

slideshare

japan

スクレイピング

web

クローラ

crawler

セキュリティ

security
リンク
クローラーとは／検索エンジンの仕組みをおさらい。クローラー対策とステータスコード | エンジニアのためのSEO入門
クローラー：HTTPプロトコルでコンテンツを取得するあなたの運営しているサーバーを含めた世界中のWebサーバーと通信し、そのサーバー内のコンテンツを取得していきます。通信手段はHTTP/HTTPSプロトコルなので、HTTP/HTTPSで取得できるものは、なんでも持っていきます（テキストファイル、CSSファイル、JavaScriptファイル、画像、Flash、PDFなど）。インデクサ：取得したコンテンツを解析し保存する取得したコンテンツの内容を解析します。ここで取得したコンテンツのキーワードやテーマを分析して読み取り、分析結果とそのファイル自体をデータベースに保存（インデックス）します。クエリサーバー：ユーザからの検索クエリ（キーワード）の結果ページを返すユーザの検索キーワードに基づき、保存してあった解析結果を検索結果ページとして作成し、表示します。SEOの結果が反映される部分にな
kana321 2013/06/20
*seo

サーバー

seo

tips

検索エンジン

crawler

Web

ステータスコード

あとで読む

google
リンク
クローラーを作るためのフレームワーク·Anemone MOONGIFT
RSSフィードやWeb API、Mashupなどの単語が注目を集める中、Webクローラーを通じて外部のWebサイトにあるデータをかき集め、それを解析して別な形にするというのはよく見られるものになってきた。あるURLを指定し、そこからリンクされているURLを一覧表示できるそうした数々のシステムの中で、クローラーとなる基盤は大きな違いはない。Webサイトのデータを取得し、次のリンクを洗い出して取得していくようなものだ。そうした共通動作部分を切り出したフレームワークがAnemoneだ。今回紹介するオープンソース・ソフトウェアはAnemone、Webクローラを開発するためのフレームワークだ。 Anemoneは任意のWebサイトにアクセスし、その内容を解析するWebクローラーだ。例えばあるURLに付けられているリンクを一覧で取得するようなことも簡単にできる。外部サイトなのかどうかも区別できるの
kana321 2012/09/09
ruby

crawler

ruby

webサービス

framework

programming

プログラミング

クローラー

オープンソース

Web
リンク
1