ブックマーク / a2c.hatenablog.com (2)

  • GoogleAppEngine Pythonでフルテキストサーチ TriGram - When it’s ready.

    1日で作ったのでエラーありまくりですが、一通り動いているのでURL公開 http://a2c-fts.appspot.com ngram(TriGram)でプチプチ切って、エントリーのKeyNameを転置IndexのListにAppendしてます。 元ネタは、search.twitter.comから httpが含まれる日語の検索結果を10分置きにJSONで取りに行ってます。 さすがに、15ツイート分をNgramでぶつ切りにしたものは(1000個以上あるので)、30秒以内に保存出来ないので TaskQueueで徐々にいれていますが、秒間5個までしか動かないので、10分以内でも保存出来てなかったりします。 Ver.1は、フルGAEでやろうとしていたのですが、さすがにTaskQueueが溢れそうになったので現在のバージョン2では redisを使って、転置インデックスを保存しています。 redi

    GoogleAppEngine Pythonでフルテキストサーチ TriGram - When it’s ready.
  • Ustreamの現在の放送状況をTwitterのサーチ結果から取得しチャンネル名を特定する - When it’s ready.

    Ustreamのサーチには、言語指定がない。どれくらい人気があるかは取れるが英語のチャンネルだらけ。 日の方が大勢みているチャンネルをMultiUstreamViewer(http://ustview.appspot.com/multi)で利用するためにスクリプトを書いてみた。 GAE上ではたぶん動かないと思う。必要なのは、feedparserモジュール Twitterのサーチを使って、TL上のUst短縮URLをひっかけてAtomをもらってくる。 http://search.twitter.com/search.atom?lang=ja&q=ustre Twitterサーチは言語指定が出来るので日語を指定しておく。 あとは、feedparserでdescription抽出して文中のUst短縮URLをゲットする。urllib2でustre.amに問い合せると家UstreamのFQDN

    Ustreamの現在の放送状況をTwitterのサーチ結果から取得しチャンネル名を特定する - When it’s ready.
  • 1