twitter検索はpublic_timelineをスクレイピングする方法でポストを収集していました。 これはうまくいっていたのですが3月のはじめにAPIによるアクセスに続いて通常ページもキャッシュされるようになり、ポストの取得がとびとびになってしまいました。影響はかなり出てしまい、回収率は1/10程度に落ち込んでしまいました。 代替策 TwitterはData mining feedという600ほどのポストを一度でもらえるAPIを提供していてポストを多く集めたい人はそれを使うようにというアナウンスをしています。しかしこれもキャッシュが効いているようですからそれほど改善しないのではないかと思い試していません。 また、既に事実上日本語のみを検索対象にするサービスになっているので日本語ユーザーのポストだけもらえればいいかと思い、日本語ユーザー(7万人前後)をRSSで取得する方法を考えましたが、
![twitter検索のクロール方法について - 不可視点](https://cdn-ak-scissors.b.st-hatena.com/image/square/3787c9b02ab2291d6ecfd5b359d15f246a8e52e5/height=288;version=1;width=512/http%3A%2F%2Fcdn-ak.f.st-hatena.com%2Fimages%2Ffotolife%2Fc%2Fcode46%2F20090329%2F20090329200223.png)