タグ

2014年3月31日のブックマーク (4件)

  • Apache Mahoutの分散次元縮約(Parallel ALS)を解説しよう。 - tetsuya_odakaの日記

    さて、前回のログでは、Mahout 0.7に付属する「factorize-movielens-1M.sh」というサンプルをつかって、Pararell ALSというアルゴリズムを動かしてみた。 少し誉めすぎた感が否めないので、原論文「Large-scale Parallel Collaborative Filtering for the Netflix Prize」を解説しつつ、Mahoutでの実装を追いかけてみたい。 内容的には、理工系学部の専門過程の人あたりをターゲットに書いていく(自分は一サラリーマンであって、大学の先生ではないのだが、前提を書いておくのは重要だと思う)。 先のログにも書いたが、Parallel ALS(Parallel Alternating Leaset Squares)は、疎な行列(Sparse Matrix)を前提とした、次元縮約(dimension reduc

    Apache Mahoutの分散次元縮約(Parallel ALS)を解説しよう。 - tetsuya_odakaの日記
    ixixixi
    ixixixi 2014/03/31
  • 30分でできる分散レコメンデーション:パラメータを変更して、応用できるようにする。 - tetsuya_odakaの日記

    仕事が忙しくて、更新に間があいてしまった。 前々回、前回のログでApache Mahout0.7で実装されている「Parallel ALS (Parallel Alternating Least Squares)アルゴリズム」をつかって、とても簡便にスケーラブルなリコメンデーションエンジンを構築してみた。 実行には、Amazon Elastic MapReduceのm1.mediumのインスタンスを使用した。Mahoutに付属するサンプルジョブは、m1.smallでも実行できるが、Hadoopの実行要件を考えれば、m1.medium以上で実行するのが適当。実際、「30分で構築するレコメンデーションエンジン」で利用したLibisetiデータのスケールでは、m1.smallを使うと、Heapが不足してジョブがエラーになってしまう。 さて、Libisetiのデータでは、λの値として0.20を選択

    ixixixi
    ixixixi 2014/03/31
  • Latent Dirichlet Allocation(LDA)を用いたニュース記事の分類 | SmartNews開発者ブログ

    株式会社ゴクロの中路です。 以前のベイズ分類をベースにしたSmartNewsのチャンネル判定で触れたように、SmartNewsで配信する記事を「スポーツ」「エンタメ」「コラム」のようなチャンネルに分類しているのは、人ではなく機械です。そのアルゴリズムとして前回ご紹介したのは「ナイーブベイズ分類器」ですが、記事の分類を行う手法は、他にも様々なものがあります。その中で今回はLatent Dirichlet Allocation(以下LDA)について、先日東京大学の博士課程の皆さんと、社内で合同勉強会を行った際に作成した資料をベースにご紹介します。 LDAでできることの例 前回ご紹介したナイーブベイズ分類器を構築する際には、すでにトピックのラベルが付けられた文章を、学習データとして用意する必要がありました。 一方、LDAの場合は、 東京でサッカー大会が開催された。xx選手のゴールが圧巻であった。

  • Serf 虎の巻

    Serf 虎の巻 サービスディスカバリーとオーケストレーション用のツールであるSerfについてまとめた.基的には公式のHPのGetting Startの抄訳.Vagrantで試験環境を立てて実際に触りつつSerfを使い始められるようにした. 目次 Serfとは Gossip protocolとは 試験環境の準備 クラスタの形成 クラスタからの離脱 イベントハンドラ カスタムイベント カスタムクエリ コマンド一覧 参考 Serfとは Serfはサービスディスカバリーやオーケストレーション,障害検出のためのツール.Vagrantの開発者であるMitchell Hashimoto氏により開発が進められている.SerfはImmutable Infrastructureの文脈で登場してきたツールであり,Immutableなシステムアーキテクチャー,デプロイを実現する上で必須のツールである. Imm