[B! crawler] yutaro54のブックマーク

クローラを生まれ変わらせるにあたっての思考 - かれ4

Advent Calendar 2015の13日目の記事です。今うちで動いているCrawlerは数年前に作られたもので、仕組みとしてはAzureのService Fabricの上でAWSのLambdaを動かしているのと似たアーキテクチャになっている。そろそろ生まれ変わりの頃かなと思う。生まれ変わるにあたって、これからのアーキテクチャをどうしようかと悩むわけだけど、そんな時には過去に遡っていくと次時代へのヒントが転がっていることがよくある。特に、過去に敗北した素晴らしいアーキテクチャが今の技術であれば一般時にも実現可能になっていたりする。昔話昔々世界にはInktomiという会社と AltaVistaという会社があった。 Inktomiという会社はソフトウェア開発会社で、2002年に米Yahoo!に買収されている。 AltaVistaは検索エンジンの会社だったが、2003年にO

yutaro54 2016/05/02

多分クローラーのアプリケーションアーキテクチャーについて書かれたやつ。

リンク

DynamoDBの導入とDynamic DynamoDBを用いたプロビジョニング量自動調整 - ZOZO TECH BLOG

こんにちはVASILYエンジニアの松本です。VASILYではクローラーの仕組みを大幅に見直した際にDynamoDBの導入を行いました。今回はその導入方法とDynamic DynamoDBを用いた運用方法について話したいと思います。 DynamoDBを導入した理由 iQONではクローラーで取得したデータをDynamoDBに保存しています。DynamoDBを導入した理由は以下の通りです。・ ECサイトごと、さらには商品ごとにクロールするデータの形式が異なるためスキーマレスである必要があったこと。・ DynamoDBはデータベース容量が増大した際も自動でスケールしてくれるのでメンテナンスコストがかからないこと。・平均レイテンシーは1桁台のミリ秒単位であること。 iQONでは1日約80万点のアイテムをクロールしているので、メンテナンスコストがかからず、ある程度のパフォーマンスが担保できるこ

yutaro54 2016/05/02

クローラーでdynamoを使うときの情報

crawler

リンク

AWSでクローラを動かす時のアーキテクチャを考える - Qiita

はじめに AWS上でクローラを動かしたいときがある。様々な選択肢があると思われるが、とりあえず思い付いたアーキテクチャ（構成）を書く。どの構成が良いとかは不明（もっと良いアーキテクチャあると思う）。良し悪しの基準の定義がめんどいからとりあえず書く。クローラについてここでは、クローラとは「webページからデータを取得し、それを構造化するプログラム」と定義するクロール対象について何かしらの「物」（洋服、食べ物、不動産、etc）を閲覧できるwebページ「物」の一覧ページと「物」それぞれの詳細ページ、という構成である「物」を検索する機能がある（場合がほとんど）クロールの処理についてクロールの処理は主に３つのフェーズがあると考えられる +------------------------------------------------------------+ | | | | |

yutaro54 2016/05/02

記事内に挙げられている例の２つ目、beanstalkを使ったものを採用したい。

crawler

リンク

はてなブックマーク

タグ

関連タグで絞り込む (1)

crawlerに関するyutaro54のブックマーク (3)

お知らせ

今週のはてなブックマーク数ランキング（2024年11月第1週）

月間はてなブックマーク数ランキング（2024年10月）

今週のはてなブックマーク数ランキング（2024年10月第4週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス