タグ

mysqlとtwitterに関するeibiisii_mikanのブックマーク (2)

  • yatsが回収したTwitter日本語圏 9月(1/2) - 不可視点

    久しぶりにTwitter語圏のダンプを公開したいと思います。 9/1-9/16の1.77億つぶやきのMySQLダンプです(load dataで取り込むタイプ) yatsの収集対象は 公開ユーザー状態でつぶやかれたもののうち 過去3週間以内につぶやいたユーザーからのもの、 累積200〜400つぶやきの日語ユーザーからのもの です。ベストエフォートです。 streaming apiで流れてくるつぶやきもだいたい記録しています。 スキーマ: CREATE TABLE `buffer_20100916` ( `id_autoinc` bigint(20) unsigned NOT NULL AUTO_INCREMENT, `id` bigint(20) unsigned NOT NULL, `user` varchar(20) NOT NULL, `content` text NOT NUL

    yatsが回収したTwitter日本語圏 9月(1/2) - 不可視点
  • mget

    yatsは検索結果のユーザーアイコンのURLは今までMySQLから取り出していた。 tritonnからSolrに変えてもそうしていたのは、ユーザーがアイコンを更新されたとき、Solrへの更新は出したくなかったから。 ただし、MySQLへのつぶやきの書き込みが増えるにつれてreadが怪しい感じになってきたのでredisのmgetでやることにした。 redisでなくtokyotyrantでも良かったのだがデータベースが切れる点が扱いやすいと思う。 今redisにはジャンル推定用の単語情報が入っていたが、 db=1として新たにtwitter user profileのための空間を切った。 9行目のdbというところで切り替えられる。 you@ubuntu:~/redis-1.2.4$ ./redis-cli info redis_version:1.2.4 arch_bits:32 multipl

  • 1