タグ

programingに関するmonnalisasmileのブックマーク (2)

  • b-Bit MinHashによる高速かつ省スペースな類似度判定 | SmartNews開発者ブログ

    ゴクロの浜です。ネットカフェでコードを書くのが好きです。 前回のエントリーでも触れられていますが、SmartNewsはホットな話題をユーザにお届けするために、常時、膨大な数のツイートおよびURLをクロールしています。こうして収集した記事に対し、様々な分析が施されますが、その中でも重要な処理の1つに、記事の類似度判定があります。内容の似通った記事をインデックスから発見し、グループ化する処理です。 毎秒、大量の新着記事が到着することから、この類似度判定は高速に実行する必要があります。また、インデックスを全てメモリに載せているので、類似度判定を実現する際の空間効率も要求されます。 今回は、SmartNewsが高速かつ省スペースな類似度判定のために使用しているb-Bit MinHashと呼ばれる手法を紹介します。2年前に、PFIの岡野原さんが非常に分かりやすい解説記事を書かれており、エントリー

  • WindowsでPython3.3科学計算用環境を整えてみ…ようとしたんですが - あんちべ!

    Python2.7から3.3に移行しました。 このタイミングで移行した理由は、Python3.xは文字コードがunicodeに統一されているとか高速化されていると言われてたので前々から移行したかったところに、SciPyなどの科学計算ライブラリが3.3でも動作するようになったと聞いたからです。 参考として以下を読みました。 2.x系と3.x系の違い Python 3.3 が間もなくリリースされるので新機能を確認しておく 確認したところ、大体のライブラリは動いてるけど、全てが上手くいくわけではないっぽいので、今の時点で移行する必要性があるかどうかはかなり微妙です。おすすめするつもりはありません。 インストール作業 家からPython3.3体をダウンロードしてインストールします。 Windows用科学計算ライブラリなどのバイナリファイルは下記から落としてきます。 Unofficial Win

    WindowsでPython3.3科学計算用環境を整えてみ…ようとしたんですが - あんちべ!
  • 1