ohnishiakiraのブックマーク - はてなブックマーク

Netflixはどのように映画をジャンル分けしているか - 不可視点

映像コンテンツのストリーミングといえばNetflix、現在4400万人のユーザー（有料会員）がいる成熟したサービスですが、現在もすごいペースで成長しています。 Netflix、第4四半期決算で大幅増益--加入者数は400万人増 - CNET Japan 利用できる地域は限られますが、日本でもレコメンデーションのコンテストNetflix prizeの開催や、AWSをいち早く活用した企業として知られています。 Netflixは先に紹介したNetfix Prizeでレコメンデーションの性能向上に懸賞金をかけたほど、レコメンデーションがサービスの重要な位置を占めています。視聴された映画の2/3はレコメンデーション経由らしいです。 Todd Yellin(Vice President of Product Innovation at Netflix)は、「映画をピッタリの人にピッタリのタイミングで

ohnishiakira 2014/01/28

リンク

Elasticsearchチュートリアル - 不可視点

目的検索用サーバーとして最近注目されているElasticsearchですが、ついに1.0 RC1がリリースされたそうです。 Googleトレンドを見ても、この分野で先行するApache Solrに迫る勢いを感じます。そういうわけで私もElasticsearchについて興味を持って調べてみましたが情報がちょっと少ないですね… 「調べたけど断片的な情報しかない」「公式doc英語だし、専門用語が多すぎてわからん」「え、できること多すぎ。よくわからん。どれが重要？」と言った感じで、最初ちょっと大変… そこで調べ始める人が、概観をつかむためのチュートリアルをつくろうと思います。コマンドを全部実行する必要ありません。用語をおさえることで調べものが捗ることがひとつのゴールです。自分の理解の整理も兼ねています。間違ってる箇所あったら教えて下さい。 part 1:ESを使ってレストラン検索を作

ohnishiakira 2014/01/21

リンク

Elasticsearch勉強会#1で発表してきました - 不可視点

ニコニコデータセットっていう800万動画のメタデータと25億件くらいのコメントをJSONで提供しているデータセットがあり、それをindexingする中でちょっと大きめのデータをどう扱うかについて発表しました。ニコニコ動画を検索可能にしてみよう from genta kaneyama ちょっと前っていうか8月（！）にやりました http://atnd.org/event/E0018616 勉強会の様子は主催のjohtaniさんのブログなどでわかります。第1回ElasticSearch勉強会を開催しました！ #elasticsearchjp - @johtaniの日記 2nd 第2回の計画が進んでいるらしいっす。kibana(http://www.elasticsearch.org/overview/kibana/)についての発表もあるらしいっす。

ohnishiakira 2013/10/04

リンク

MeCabの辞書にはてなキーワードを追加しよう - 不可視点

MeCabは形態素解析のためのソフトウェアです。日本語を分かち書きするために使われるものとしては最も人気の高いものだと思われますが、チャットや掲示板に書き込まれるような崩した日本語や、正しく書かれた日本語でも新語を期待した通りに分かち書きしてくれないことがあります。これはMeCabの内部で使われている辞書が一般的な言葉を情報源としているわけではないことに関係があります。MeCabというか、より一般的な話ですが以下のような認識が一般的かと思われます。というのも、一番広く使われているであろう自然言語処理技術は形態素解析(単語分かち書き、と言ったほうがいいのかもしれない)であろうが、これは現在99%くらいの精度になっていて、すでに人間がやるより遙かに高精度で行えるのだが、これだけ高い精度が出せるのは新聞記事を相手にしたときだけであって、それは新聞記事をコーパスとして用いる機械学習により形態素解

ohnishiakira 2012/11/26

リンク

Solrを使ったレシピ検索のプロトタイピング

モーショノロジー#1で発表してきました http://atnd.org/events/23608 資料： http://www.slideshare.net/penguinana/solr-11287004 Solrを使ったレシピ検索のプロトタイピング View more presentations from genta kaneyama 他の発表の資料は順次以下から見れるようになるようです。 https://www.facebook.com/motionology クックパッドではchankoという仕組みを使って本番で複数のバージョンを安全にデプロイできるようにしています。これによって1つの場所を複数のチームが同時に改善したりできるようになりました。 chankoについては以下をお読みください。 Extensionの仕組みをMITライセンスで公開します

ohnishiakira 2012/07/11

リンク

自然言語処理勉強会＠東京で発表してきました - 不可視点

勉強会のなかみはid:hamadakoichiさんががっつりまとめてださっていますのでそちらをご参照ください。第１回自然言語処理勉強会＠東京に参加してきたこの勉強会は@nokunoさんが発起人と思いますが以下のような範囲（形式）を対象としております。輪読形式（教科書を1章ずつくらい発表）論文紹介、手法紹介、ライブラリ紹介など実装してみました系、コードリーディング、ライブコーディング実験系、手持ちのデータに適用してみました系 ←今回ここを狙いました研究紹介、システム紹介、実務経験のシェアその他自然言語処理勉強会＠東京 | Google Groups 私はLDAを利用してつぶやきをタギングしてみようという「やってみた」系の発表をやらせてもらいました。発表資料 Tokyotextmining#1 kaneyama gentaView more presentations

ohnishiakira 2011/02/18

リンク

twitter日本語ユーザーのソーシャルグラフダンプ - 不可視点

twitter日本語ユーザー100万人分のフォローイングとプロフィールのダンプを作成しました。レコメンデーションの実験や分析に使えるかもしれません。プロフィール： 108万人分のスクリーンネームや自己紹介文フォローイング： 103万人分のフォローイング先ID一覧です。展開すると300万ノード 2.8億エッジになります。（※被フォローエッジを含みません）以下のURLからダウンロードできます今回はMongo DBをストレージにしました。ダンプの利用にはMongo DBのインストールが必要となります。 https://github.com/penguinco/yats-socialgraph-dump 使い方： $ git clone git://github.com/penguinco/yats-socialgraph-dump.git $ cd yats-socialgraph-du