2015-03-21 #TokyoWebmining 44th の発表資料です。
![Apache Spark による推薦システム案件例](https://cdn-ak-scissors.b.st-hatena.com/image/square/d490fcc7336efe7b047eefe86689f418dbd8dc34/height=288;version=1;width=512/https%3A%2F%2Ffiles.speakerdeck.com%2Fpresentations%2F09f6b5762bd34606bf520a45cca74b09%2Fslide_0.jpg%3F4562036)
勤務先の社内勉強会で、機械学習を用いた文書推薦*1に関する基本的なことがらについて説明しました。その資料を公開します。 プログラマのための文書推薦入門 from y-uti 数学やコンピュータサイエンスを専門的に学んでいないエンジニアでも理解しやすいように、できるだけ数式を使わずに説明したつもりです。厳密性にはこだわっていないので、専門家からはあちこちツッコミを受ける内容かもしれません。 プログラマ向けということで、実際にコンピュータ上で動作を確認できるように、Wikipedia のデータを対象にして類似文書検索を行うスクリプトを作成しました。GitHub に置いてあります。 y-uti/document-recommendation · GitHub *1:推薦というより情報検索、類似文書検索という方が適切だったかもしれません。
TumblrユーザーでTumblr Gearの開発者の@honishiさんから、Tumblrを題材にした日本の論文があると教えてもらいました。ユーザーにとってソーシャルフィルタリングをする上で有用なコミュニティ(ユーザー郡)を見つけ出し、その代表ユーザーを抽出してリコメンドするために、次のようなステップで解析を行う、という試みをしているようです(と思います、理解が違ったら是非ご指摘を)。 あるユーザーの投稿50件について、その投稿の伝播経路(リブログ経路)に出てくるユーザーと、誰が誰からリブログしたかというリブログ関係を調べる。平面上に登場したユーザーを並べて、リブログ関係の矢印でつなぐ。同じ経路で複数回リブログされていたら(たとえばユーザーAはユーザーBから5回もリブログしている)その矢印は太くなる(3.1)。矢印の太いユーザー同士が近くになるようにユーザーを配置し直し、近くにいるユーザ
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く