2014年6月9日のブックマーク (2件)

  • LDAを利用した、twitter上のユーザ類似度判定システム - risuo's blog

    大学院で自然言語処理の研究をしつつ、ブログタイトルのようなものを趣味的にチマチマと作っていまいた。個人的になかなか面白い解析結果が出たと思ったのでご紹介します。 目標: 1.twitter上で、ある入力ユーザ(自分でなくてもよい)と興味の対象が似ているユーザを発見する 2.興味あるトピックには、どういう単語が含まれているか発見する 手法: 1.1ユーザのツイート全体を1つの文書としてモデリングし、LDAで解析 2.全てのユーザについて、トピック-ユーザの特徴ベクトルの距離を使って類似度を計算 特徴: 1.巷にあるソーシャルネットワーク系の解析でありがちな、ユーザ同士のリンク情報を全く使っていない 2.トピックの次元は語彙の次元と比べてかなり小さい(1/(10^3)くらい)ので、単に単語の頻度を数えるのと比べて柔軟 解析結果ですが、とりあえずpythonの処理系が動作する環境で確認できるよう

    LDAを利用した、twitter上のユーザ類似度判定システム - risuo's blog
    Hmj-kd
    Hmj-kd 2014/06/09
    LDA
  • Latent Dirichlet Allocation(LDA)を用いたニュース記事の分類 | SmartNews開発者ブログ

    株式会社ゴクロの中路です。 以前のベイズ分類をベースにしたSmartNewsのチャンネル判定で触れたように、SmartNewsで配信する記事を「スポーツ」「エンタメ」「コラム」のようなチャンネルに分類しているのは、人ではなく機械です。そのアルゴリズムとして前回ご紹介したのは「ナイーブベイズ分類器」ですが、記事の分類を行う手法は、他にも様々なものがあります。その中で今回はLatent Dirichlet Allocation(以下LDA)について、先日東京大学の博士課程の皆さんと、社内で合同勉強会を行った際に作成した資料をベースにご紹介します。 LDAでできることの例 前回ご紹介したナイーブベイズ分類器を構築する際には、すでにトピックのラベルが付けられた文章を、学習データとして用意する必要がありました。 一方、LDAの場合は、 東京でサッカー大会が開催された。xx選手のゴールが圧巻であった。

    Hmj-kd
    Hmj-kd 2014/06/09
    LDA