#サンタクラウドの集計(その1)に引き続き、少しづつ進めています。 #サンタクラウドの入ったTweetの取得は検索APIを利用しているのですが、 時間が経つと古いTweetが検索できなくなってしまう可能性があります。 そこで、前回(#AWS77)はTweetのデータをtogetterから取得(スクレイピング)していたのですが、今回はスクレイピングではなく、前回のTweetデータに新規Tweetを追加する形にしました。 具体的には、検索から取得したTweetの集合から前回のTweet集合の差分を取り、その差分を前回のTweet集合に追加したものを、最新のTweet集合としています。 そして、その処理を1時間に1回実行しています。 最終的なスクリプトは下記のようになりました。 // 初期設定 require_once("/opt/aws/php/default/sdk.class.php");