ネットビジネスのデータ分析といえば「Google Analytics(グーグル・アナリティクス)」が最も利用されていて有名ですが、よく考えてみればあれは自分のウェブサイトのデータしか分析できないわけです。しかし「世の中的にはどういうトレンドがあるんだろう」と俯瞰的に分析をしたい場合もあるわけです。 そんな時にデータソースとしてオススメしたいのが「Common Crawl(コモン・クロール)」です。世界中のオープンなインターネット上にあるウェブサーバーを手当たり次第にアクセスして、そのページデータ(つまりウェブサーバーが返すHTMLドキュメント)を保存しています。 なお、世界には13億のドメインが登録されていて、実際にDNSにてドメイン名とIPアドレスの紐付けがされているのは3億ドメインという状況です。Common Crawlは、私が実データをマイニングした印象では、その10%程度はアクセス
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く