@yuhkanのマイページ[B!]新着記事・評価 - はてなブックマーク

『@yuhkanのマイページ - Qiita』

ツイートを「大量に」収集する実験 - Qiita
3 users
qiita.com/yuhkan

2016/10なので、ざっくり1年半くらい前、「ツイートを長時間収集する実験」という記事で、お目汚しさせていただきました。その後、仕事の多忙と作業(隠語)の多忙等でこちらに経過を書くタイミングが無かったのですが、その後の経過についてざっくりと。 1年前からの経過 Pythonで作ったプログラムで、TwitterのPublic Streamからデータを収集し、MongoDBに格納する(そのあとのことは後から考える)のが目的。環境はDocker、Python3、MongoDB、Tweepy。最初の投稿で目標としていた、91(定数)の想定期間、2016/10/28～2017/01/15 の間のツイート取得は、おおむね順調に動作。総ツイート取得数279万件(RT等含む)。トラブル等で取得できなかった時間は、トータル5時間程度、総稼働時間に対する不稼働時間の割合は0.2%。トラブルとしては、
- テクノロジー
- 2018/09/13 16:42
- Twitter

ツイートを長期間収集する実験(プログラム準備編(1)) - Qiita
3 users
qiita.com/yuhkan

注意事項の追記(2022年5月時点) 最初に作成したときから既に7年とか経ちそうな割に、未だにLGTMとかされているため、念のために追記します。本稿記載のAPIは、現時点で既に存在しないAPI(2018/08に廃止)です。代替として、「/statuses/filter」を用いる手段がありましたが、こちらも2020年10月末の廃止が宣言されました。 API 2.0の「/2/tweets/search/stream」が使えるようですが、こちらについては調べていません。私自身は、「/search/tweets」を使って遡って取得する方向に逃げました。詳細はこちら。前回までとりあえず要求仕様(?)は決まった。 10月末までに、1月中旬までTwitterの特定ワードを含むツイートすべて取得するプログラムを作る手持ちの機材使うので、ひとまずクラウドは無し。Dockerとか組み合わせて実行環
- テクノロジー
- 2017/08/17 09:41
- Twitter

キーボードショートカット一覧

j次のブックマーク

k前のブックマーク

lあとで読む

eコメント一覧を開く

oページを開く

設定を変更しましたx