機械学習エンジニアの西場(@m_nishba)です。主に自然言語処理を使ったリコメンドや文書分類、ユーザー分析を行っています。 最近、開発中のリコメンデーションのアルゴリズムについて紹介します。 コンテンツ コンテンツ モチベーション 問題の概要 問題の検証結果 文書分類 文書分類の論文の紹介 精度検証 社内データを用いた検証 Tokenizeの方法 方法① 普通にMeCabを使う。 方法② 文字ベースとMeCabの組合せを使う。 検証結果 方法①の結果 方法②の結果 コンテンツのリコメンド 弊社のデータに関する課題 ① SGDを利用する。 ② Positive/Negative数が等しくなるようにサンプリングを行う。 ③ Matrix Factorizationにbiasを導入する。 ④ 文字ベースと単語ベースの組み合わせ リコメンド方法 実験 最後に モチベーション 弊社では様々な形態