ブックマーク / eulerdijkstra.hatenadiary.org (3)

  • 協調フィルタリングについてまとめてみた。 - Analyze IT.

    A Survey of Collaborative Filtering Techniques(Xiaoyuan Su and Taghi M. Khoshgoftaar, 2009,Advances in Artificial Intelligence) 仕事で協調フィルタリングについて調べる必要が出てきたのだが、あまりよい日語の文献を見つけられなかったため(後にしましま先生の文献を見つけた)やむなく英語の論文を検索したところ、 上記のよいサーベイ論文を見つけた。というわけでこのサーベイ論文に書かれていることに自分なりに調べたことを加えて、自分用にまとめておく。 また、一部の人達の間ではとても有名なしましま先生の論文(ドラフト版)があるので、英語が苦手な人はそちらをご覧になるとよいと思われる。 協調フィルタリングは、一言で言えばユーザとアイテムのマトリックスを用いた顧客への商品のレコメン

    協調フィルタリングについてまとめてみた。 - Analyze IT.
  • Rのflexmixパッケージで混合分布モデルによるクラスタ分析を行う。 - Analyze IT.

    Rで混合分布クラスタリングを行うときに有名なパッケージとしてflexmixが存在します。この記事ではflexmixの簡単な使い方を解説します。 flexmix自体は潜在クラス回帰を行うパッケージなのですが、混合分布クラスタリングを行うことも出来ます。 flexmixはRのglmクラスを用いてモデルを表現出来るため、他のパッケージに比べて柔軟なモデリングが可能というメリットがあります。 そもそも、混合分布クラスタリングとはなんぞやという人は以下の文を参考にしてください。 1.モデルベースのクラスタリングとは クラスタリングは代表的なものとして、以下の3つの方法が存在します。 おそらくk-meansと階層的クラスタ分析はみなさんご存知でしょう。 分類 メリット・デメリット 手法 階層的手法 +データを樹形図として表現可能 ‐データ数が多いと、樹形図として表現できないのでデータ数が絞られる。

    Rのflexmixパッケージで混合分布モデルによるクラスタ分析を行う。 - Analyze IT.
  • 究極のデータサイエンティストVS至高のデータサイエンティスト - Analyze IT.

    ネットで面白いコピペを発見したので貼り付けておきますね。 山岡「こちらが我々の考える究極のデータサイエンティストです。」 京極「なんやて、経済学部出身やないか!ITに統計学、業務、この中で先の二つの技術的素養が必要なデータサイエンティストには理系出身者が定石やで山岡はん。」 山岡「確かに、数学のスキルが要求されるデータサイエンティストには普通の文系出身者は厳しい。しかし、彼の学部時代の専攻は計量経済学。実務では高度なアルゴリズムやビックデータの解析基盤の構築のスキルなんか当は必要ない、経済学の手法が求められているんだ。」 京極「なんやてっ!」 山岡「ビッグデータといっても、小売りの場合大きくて1千万件程度、普通のRDBMSで処理可能だし、非構造化データなんて必要ない。アルゴリズムもSPSSやRなんかのツールに入力して結果を解釈できれば十分なんだ。一方で、政府の統計を駆使して地域の需要を推

    究極のデータサイエンティストVS至高のデータサイエンティスト - Analyze IT.
    Ez-style
    Ez-style 2013/03/15
    設計者サイドじゃなくて利用者サイドとしては、アルゴリズムよりデータセットそのものの適合性・妥当性を測れる人の方が重要じゃないかなあ。
  • 1