タグ

ブックマーク / code46.hatenablog.com (5)

  • Netflixはどのように映画をジャンル分けしているか - 不可視点

    映像コンテンツのストリーミングといえばNetflix、現在4400万人のユーザー(有料会員)がいる成熟したサービスですが、現在もすごいペースで成長しています。 Netflix、第4四半期決算で大幅増益--加入者数は400万人増 - CNET Japan 利用できる地域は限られますが、日でもレコメンデーションのコンテストNetflix prizeの開催や、AWSをいち早く活用した企業として知られています。 Netflixは先に紹介したNetfix Prizeでレコメンデーションの性能向上に懸賞金をかけたほど、レコメンデーションがサービスの重要な位置を占めています。 視聴された映画の2/3はレコメンデーション経由らしいです。 Todd Yellin(Vice President of Product Innovation at Netflix)は、「映画をピッタリの人にピッタリのタイミングで

    Netflixはどのように映画をジャンル分けしているか - 不可視点
    makimoto
    makimoto 2014/01/28
  • Solrを使ったレシピ検索のプロトタイピング

    モーショノロジー#1で発表してきました http://atnd.org/events/23608 資料: http://www.slideshare.net/penguinana/solr-11287004 Solrを使ったレシピ検索のプロトタイピング View more presentations from genta kaneyama 他の発表の資料は順次以下から見れるようになるようです。 https://www.facebook.com/motionology クックパッドではchankoという仕組みを使って番で複数のバージョンを安全にデプロイできるようにしています。 これによって1つの場所を複数のチームが同時に改善したりできるようになりました。 chankoについては以下をお読みください。 Extensionの仕組みをMITライセンスで公開します

    Solrを使ったレシピ検索のプロトタイピング
    makimoto
    makimoto 2012/01/27
    アナ
  • twitter日本語ユーザーのソーシャルグラフダンプ - 不可視点

    twitter語ユーザー100万人分のフォローイングとプロフィールのダンプを作成しました。 レコメンデーションの実験や分析に使えるかもしれません。 プロフィール: 108万人分のスクリーンネームや自己紹介文 フォローイング: 103万人分のフォローイング先ID一覧です。 展開すると300万ノード 2.8億エッジになります。(※被フォローエッジを含みません) 以下のURLからダウンロードできます 今回はMongoDBをストレージにしました。ダンプの利用にはMongoDBのインストールが必要となります。 https://github.com/penguinco/yats-socialgraph-dump 使い方: $ git clone git://github.com/penguinco/yats-socialgraph-dump.git $ cd yats-socialgraph-du

    twitter日本語ユーザーのソーシャルグラフダンプ - 不可視点
    makimoto
    makimoto 2011/01/30
  • MeCabの辞書にはてなキーワードを追加しよう - 不可視点

    MeCabは形態素解析のためのソフトウェアです。日語を分かち書きするために使われるものとしては最も人気の高いものだと思われますが、チャットや掲示板に書き込まれるような崩した日語や、正しく書かれた日語でも新語を期待した通りに分かち書きしてくれないことがあります。これはMeCabの内部で使われている辞書が一般的な言葉を情報源としているわけではないことに関係があります。MeCabというか、より一般的な話ですが以下のような認識が一般的かと思われます。 というのも、一番広く使われているであろう自然言語処理技術形態素解析(単語分かち書き、と言ったほうがいいのかもしれない)であろうが、これは現在99%くらいの精度になっていて、すでに人間がやるより遙かに高精度で行えるのだが、これだけ高い精度が出せるのは新聞記事を相手にしたときだけであって、それは新聞記事をコーパスとして用いる機械学習により形態素解

    MeCabの辞書にはてなキーワードを追加しよう - 不可視点
    makimoto
    makimoto 2009/05/31
  • twitter検索のクロール方法について - 不可視点

    twitter検索はpublic_timelineスクレイピングする方法でポストを収集していました。 これはうまくいっていたのですが3月のはじめにAPIによるアクセスに続いて通常ページもキャッシュされるようになり、ポストの取得がとびとびになってしまいました。影響はかなり出てしまい、回収率は1/10程度に落ち込んでしまいました。 代替策 TwitterはData mining feedという600ほどのポストを一度でもらえるAPIを提供していてポストを多く集めたい人はそれを使うようにというアナウンスをしています。しかしこれもキャッシュが効いているようですからそれほど改善しないのではないかと思い試していません。 また、既に事実上日語のみを検索対象にするサービスになっているので日語ユーザーのポストだけもらえればいいかと思い、日語ユーザー(7万人前後)をRSSで取得する方法を考えましたが、

    twitter検索のクロール方法について - 不可視点
  • 1