まとめ Python + PyQueryでスクレイピングした 日本の人気サイト(アクセスが多い)の上位525件を取得してCSVに出力できた これで人気サイトのHTML/デザインの特徴を調査できる(かもしれない) 人気のサイトのHTMLとかデザインを分析したら何か面白い結果でないかなーと思って、とりあえず人気サイトのURLを取得するスクリプトを書いた。 Alexaで各国ごとのランキングが見られるので、そこから取得することにする。 Alexa the Web Informationは、1996年からWebサイトのアクセス数や利用状況などの統計を行い、誰でも閲覧できる状態で公開している老舗サービス。1999年からは米Amazonの子 会社。 refs. http://freesoft.tvbok.com/cat94/site10/alexa.html とりあえず書いたスクリプトはGitHubに置