yuisekiのブックマーク - はてなブックマーク

Netflixはどのように映画をジャンル分けしているか - 不可視点

映像コンテンツのストリーミングといえばNetflix、現在4400万人のユーザー（有料会員）がいる成熟したサービスですが、現在もすごいペースで成長しています。 Netflix、第4四半期決算で大幅増益--加入者数は400万人増 - CNET Japan 利用できる地域は限られますが、日本でもレコメンデーションのコンテストNetflix prizeの開催や、AWSをいち早く活用した企業として知られています。 Netflixは先に紹介したNetfix Prizeでレコメンデーションの性能向上に懸賞金をかけたほど、レコメンデーションがサービスの重要な位置を占めています。視聴された映画の2/3はレコメンデーション経由らしいです。 Todd Yellin(Vice President of Product Innovation at Netflix)は、「映画をピッタリの人にピッタリのタイミングで

yuiseki 2014/01/30

news

リンク

Solrを使ったレシピ検索のプロトタイピング

モーショノロジー#1で発表してきました http://atnd.org/events/23608 資料： http://www.slideshare.net/penguinana/solr-11287004 Solrを使ったレシピ検索のプロトタイピング View more presentations from genta kaneyama 他の発表の資料は順次以下から見れるようになるようです。 https://www.facebook.com/motionology クックパッドではchankoという仕組みを使って本番で複数のバージョンを安全にデプロイできるようにしています。これによって1つの場所を複数のチームが同時に改善したりできるようになりました。 chankoについては以下をお読みください。 Extensionの仕組みをMITライセンスで公開します

yuiseki 2012/01/28

検索

リンク

「Solr@Cookpad」- Solr勉強会で発表してきました - 不可視点

9月12日にECナビにて第6回Solr勉強会がありました。事例紹介に「Solr@cookpad」という発表で参加させて頂いた時の資料を公開しておきます。みなさんの発表が面白くてすごく勉強になりました。勉強会の様子はこちらに詳細に書かれています。 http://johtani.jugem.jp/?eid=26 スライド：Solr@cookpad Solr at cookpad View more presentations from penguinana 分かりにくいスライドかも…お気づきの点ありましたらコメント欄などでお知らせください。ところでまた、スライドでも少し紹介したtwitter検索(yats)ですが、15億docのセットを150msで7000万req/月で返していて、Solrのベンチマークにも役立っておったのですがAPIの規約にひっかかっている（第三者がオリジナルのAPIを

yuiseki 2011/09/14

あとで読む

リンク

twitter日本語ユーザーのソーシャルグラフダンプ - 不可視点

twitter日本語ユーザー100万人分のフォローイングとプロフィールのダンプを作成しました。レコメンデーションの実験や分析に使えるかもしれません。プロフィール： 108万人分のスクリーンネームや自己紹介文フォローイング： 103万人分のフォローイング先ID一覧です。展開すると300万ノード 2.8億エッジになります。（※被フォローエッジを含みません）以下のURLからダウンロードできます今回はMongo DBをストレージにしました。ダンプの利用にはMongo DBのインストールが必要となります。 https://github.com/penguinco/yats-socialgraph-dump 使い方： $ git clone git://github.com/penguinco/yats-socialgraph-dump.git $ cd yats-socialgraph-du

yuiseki 2011/01/30

news
dataset

リンク

yatsが回収したTwitter日本語圏 9月(1/2) - 不可視点

久しぶりにTwitter日本語圏のダンプを公開したいと思います。 9/1-9/16の1.77億つぶやきのMySQLダンプです(load dataで取り込むタイプ) yatsの収集対象は公開ユーザー状態でつぶやかれたもののうち過去3週間以内につぶやいたユーザーからのもの、累積200〜400つぶやきの日本語ユーザーからのものです。ベストエフォートです。 streaming apiで流れてくるつぶやきもだいたい記録しています。スキーマ： CREATE TABLE `buffer_20100916` ( `id_autoinc` bigint(20) unsigned NOT NULL AUTO_INCREMENT, `id` bigint(20) unsigned NOT NULL, `user` varchar(20) NOT NULL, `content` text NOT NUL

yuiseki 2010/09/19

リンク

Solr勉強会に行ってきました。 - 不可視点

7月21日にECナビにてSolr勉強会がありました。LTに「Solr@twitter検索」という発表で参加させて頂いた時の資料を公開しておきます。すごく勉強になりました。当日名刺をもってなかったり、遅刻してきたりいろいろご迷惑おかけしてしまって申し訳なかったです…！でもこりずに次も誘ってくださいw 当日の勉強会の様子： id:zegenvsさんの日記 id:Kishiさんの日記スライド：Solr@twitter検索(.ppt) Solr@twitter検索View more presentations from penguinana. 分かりにくいスライドですが「考え方が根本的に間違っている！」「これはこうすべきだし！」「これを使うべき。」「ここはどうなってるの？」などお気づきの点ありましたらコメント欄などでお知らせください。もう少しSolrいじってみてまたブログに書いたりしてみようと

yuiseki 2009/07/24

リンク

MeCabの辞書にはてなキーワードを追加しよう - 不可視点

MeCabは形態素解析のためのソフトウェアです。日本語を分かち書きするために使われるものとしては最も人気の高いものだと思われますが、チャットや掲示板に書き込まれるような崩した日本語や、正しく書かれた日本語でも新語を期待した通りに分かち書きしてくれないことがあります。これはMeCabの内部で使われている辞書が一般的な言葉を情報源としているわけではないことに関係があります。MeCabというか、より一般的な話ですが以下のような認識が一般的かと思われます。というのも、一番広く使われているであろう自然言語処理技術は形態素解析(単語分かち書き、と言ったほうがいいのかもしれない)であろうが、これは現在99%くらいの精度になっていて、すでに人間がやるより遙かに高精度で行えるのだが、これだけ高い精度が出せるのは新聞記事を相手にしたときだけであって、それは新聞記事をコーパスとして用いる機械学習により形態素解

yuiseki 2009/06/01

リンク

はてなブックマーク

タグ

ブックマーク / code46.hatenablog.com (7)

お知らせ

今週のはてなブックマーク数ランキング（2024年11月第1週）

月間はてなブックマーク数ランキング（2024年10月）

今週のはてなブックマーク数ランキング（2024年10月第4週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス