タグ

2009年7月6日のブックマーク (2件)

  • twitter検索のクロール方法について - 不可視点

    twitter検索はpublic_timelineスクレイピングする方法でポストを収集していました。 これはうまくいっていたのですが3月のはじめにAPIによるアクセスに続いて通常ページもキャッシュされるようになり、ポストの取得がとびとびになってしまいました。影響はかなり出てしまい、回収率は1/10程度に落ち込んでしまいました。 代替策 TwitterはData mining feedという600ほどのポストを一度でもらえるAPIを提供していてポストを多く集めたい人はそれを使うようにというアナウンスをしています。しかしこれもキャッシュが効いているようですからそれほど改善しないのではないかと思い試していません。 また、既に事実上日語のみを検索対象にするサービスになっているので日語ユーザーのポストだけもらえればいいかと思い、日語ユーザー(7万人前後)をRSSで取得する方法を考えましたが、

    twitter検索のクロール方法について - 不可視点
  • twitter検索

    Twitter全文検索 &jsonってつけるとJSONで返します。 &rssってつけるとRSSで返します。 100件ずつ100ページまでです。 ※ヒット数が多すぎる語は検索しません。 Twitter検索 微妙にバグってて文が部分的に落ちてたりするんですがちゃんと調べてないです。何か分かったら教えてください。 2008年11月9日あたりから回収始めました。JSONとRSS(Atom)を吐きます。回数制限など考えるのも面倒。興味をもたれた方は常識的な範囲で使ってください。 2008年11月10日更新