dataminingに関するmiyakawa_takuのブックマーク (26)

  • 協調フィルタリングについてまとめてみた。 - Analyze IT.

    A Survey of Collaborative Filtering Techniques(Xiaoyuan Su and Taghi M. Khoshgoftaar, 2009,Advances in Artificial Intelligence) 仕事で協調フィルタリングについて調べる必要が出てきたのだが、あまりよい日語の文献を見つけられなかったため(後にしましま先生の文献を見つけた)やむなく英語の論文を検索したところ、 上記のよいサーベイ論文を見つけた。というわけでこのサーベイ論文に書かれていることに自分なりに調べたことを加えて、自分用にまとめておく。 また、一部の人達の間ではとても有名なしましま先生の論文(ドラフト版)があるので、英語が苦手な人はそちらをご覧になるとよいと思われる。 協調フィルタリングは、一言で言えばユーザとアイテムのマトリックスを用いた顧客への商品のレコメン

    協調フィルタリングについてまとめてみた。 - Analyze IT.
  • ニューラルネットの逆襲 - Preferred Networks Research & Development

    岡野原です。Deep Learningが各分野のコンペティションで優勝し話題になっています。Deep Learningは7、8段と深いニューラルネットを使う学習手法です。すでに、画像認識、音声認識、最も最近では化合物の活性予測で優勝したり、既存データ・セットでの最高精度を達成しています。以下に幾つか例をあげます。 画像認識 LSVRC 2012 [html]  優勝チームスライド [pdf], まとめスライド[pdf] Googleによる巨大なNeuralNetを利用した画像認識(認識として有名)[paper][slide][日語解説] また、各分野のトップカンファレンスでDeep Learningのチュートリアルが行われ、サーベイ論文もいくつか出ました。おそらく来年以降こうした話が増えてくることが考えられます。 ICML 2012 [pdf] ACL 2012 [pdf] CVPR

    ニューラルネットの逆襲 - Preferred Networks Research & Development
  • 「毎日の数字を追いかけ、毎日改善する」ことの意外な落とし穴 - 渋谷駅前で働くデータサイエンティストのブログ

    (※今回の記事の内容はかなり難解かもです) 大竹文雄の経済脳を鍛える(2月13日分記事) 幾何ブラウン運動と見せかけの回帰 - My Life as a Mock Quant 得てして多くの企業では、「毎日の数字(売上高・利益・在庫etc.)を追いかけ」、「その結果を元手に毎日改善する」ということを日々励行しているのではないかと思います。 ところで、こんな体験したことはありませんか? 「毎日毎日、物凄く一生懸命数字を見ながら頑張ってカイゼンし続けて、確かに頑張った時は数字は上がったし、頑張りが足りない時は数字が下がった。それに一喜一憂しつつもずっと物凄く頑張り続けた・・・でも、あれからもう数ヶ月経ったのに全体としては数字は下がってきている。どうしてなんだろう???」 なるほど、もしかしたらその時の改善努力が正しくなかったのかもしれません。でも、実は「そもそも改善努力と数字とは何の関係もなか

    「毎日の数字を追いかけ、毎日改善する」ことの意外な落とし穴 - 渋谷駅前で働くデータサイエンティストのブログ
  • MCMC tutorial

  • 経済分析のためのMCMC入門

    経済分析のためのMCMC入門 日福祉大学経済学部 楠田康之 2008年11月25日(火)構造推定研究会 1. はじめに  経済モデルが複雑になると解析的な解を求め ることができない。  コンピュータの性能が向上したことより、簡 単に数値解析が行えるようになった。  古典的な統計学からベイズ統計学への流れ。 MCMC(マルコフ連鎖モンテカルロ)法 は新しい標準的な統計手法? ベイズの定理 例: 努力したかサボったかによって 業績の確率分布がわかっている。 業績 悪い 普通 良い 大変 良い 努力する 1/9 2/9 1/3 1/3 サボる 1/3 1/3 2/9 1/9 結果「悪い」のときに努力していた確率は? ベイズの定理(2) イメージ:A(情報)がBの確率を更新する。 A P(A|B)・P(B) P(A|BC)・P(BC) B BC P(B) P(BC) ベイズ統計学 ベイズ

    miyakawa_taku
    miyakawa_taku 2013/03/27
    経済分析のための MCMC 入門
  • MCMC(Markov Chain Monte Carlo、マルコフ連鎖モンテカルロ法)について - データサイエンティスト上がりのDX参謀・起業家

    今日はMCMC法についての解説です。 メモ程度のものですが、ご参考になれば幸いです。 日語の良はこれ。 マルコフ連鎖モンテカルロ法 (統計ライブラリー) 作者: 豊田秀樹出版社/メーカー: 朝倉書店発売日: 2008/05/01メディア: 単行購入: 11人 クリック: 168回この商品を含むブログ (13件) を見る 有名な解説論文: Sampling-Based Approaches to Calculating Marginal Densities. Gelfand AE and Afrian F. M. Smith. Journal of the American Statistical Association, 85;410:398-409, 1990. 【概念】 Monte Carlo(モンテカルロ法) モンテカルロ:金持ちの町、F1もやってる 興味のある値を「頻度」を使

    MCMC(Markov Chain Monte Carlo、マルコフ連鎖モンテカルロ法)について - データサイエンティスト上がりのDX参謀・起業家
  • ROC曲線

    試験の点数から○○大学に合格(T)か不合格(F)かを予測したいときや,検査値から病気(T)か健康(F)かを判断したいときなどがあります。要するに,与えられた値から,真(TRUE)か偽(FALSE)かを判断したいわけです。 例として右の表のような場合を考えましょう。 与えられた値をどこで切っても,TとFは完全には分離できません。例えば11で切って,11以上を陽性(positive),11未満を陰性(negative)とした場合,10個のTのうち5個がpositiveに入りますので,true positive(真陽性)の割合は0.5です。また,5個のFのうち1個がpositiveに入りますので,false positive(偽陽性)の割合は0.2です。そこで,(0.2, 0.5) をプロットします。このように,区切る値(閾値,カットオフポイント)をいろいろ変えて,横軸にfalse positi

  • KDD Cup 1998 Data

  • 統計の教科書を公開 - 【小波の京女日記】(2013-03-12)

    _ 統計の教科書を公開 2013年度の学部の講義「統計学」で使用するための教科書を公開します. http://ruby.kyoto-wu.ac.jp/~konami/Text/ このテキストは,今年度まである出版社から出してもらっていたのですが,かなりの訂正と加筆を行い,元のからはかなり内容が離れてきてしまいました.また出版社も,売れ行きがぜんぜん悪いし,カリキュラムが変わって100人以上いた受講者が30人程度に激減して儲けのタネにならなくなり,書店から引き上げてしまったようです. そこで,思い切って改訂版はネットに公開して一般の人に自由に使ってもらい,学生が授業で使う分については,小部数印刷の業者に必要なぶんだけ印刷製してもらうことにしました.なんと2日で製までやってくれるということで,初回の授業で注文をとってから印刷すれば,次の講義では使えるわけです.便利な世の中です. どんな教

  • Booktype

    miyakawa_taku
    miyakawa_taku 2013/02/05
    文書クラスタリングの手法
  • 機械学習 × MapReduce - ny23の日記

    個人的な興味というより,雑用絡みで眺めた論文の紹介.機械学習アルゴリズムを並列分散化するという話が最近流行っているようだ.全然網羅的ではないけど,誰かの役に立つかも知れないので,幾つかメモしておく.まず古典的にはこれ, Map-reduce for machine learning on multicore (NIPS 2006) 古典的な機械学習アルゴリズム(バッチ学習)の多くは,Statistical Query Model で記述できて,それらは summation form で記述できる (から,MapReduce で並列化できる).実装は Mahout.ただ最近は,バッチアルゴリズムで解ける問題には多くの場合対応するオンラインアルゴリズムが提案されていて,バッチアルゴリズムを並列化することのメリットはあまり無い.オンラインアルゴリズムだとパラメタが連続的に更新されるので,MapR

    機械学習 × MapReduce - ny23の日記
  • GroupLens: An Open Architecture for Collaborative Filtering of Netnews

    GroupLens: An Open Architecture for Collaborative Filtering of Netnews Paul Resnick*, Neophytos Iacovou**, Mitesh Suchak*, Peter Bergstrom**, John Riedl** * MIT Center for Coordination Science Room E53-325 50 Memorial Drive Cambridge, MA 02139 617-253-8694 Email: presnick@mit.edu ** University of Minnesota Department of Computer Science Minneapolis, Minnesota 55455 (612) 624-7372 Email: riedl@cs.u

    miyakawa_taku
    miyakawa_taku 2013/02/04
    ユーザベース協調フィルタリングのアルゴリズム GroupLens の論文。
  • RapidMiner - 機械学習の「朱鷺の杜Wiki」

    RapidMiner† Weka の学習ルーチンに,前処理・可視化の部分を強化したYaleが,Rapid-I 社がオープンソースで開発している RapidMiner になった. さらに今は社名も RapidMiner になった. Community Edition は無料でオープンソースで 5.x 6.x 移行は製品で,機能制限版で無償のStarter版と,有償のものとがある.無償版は読めるファイルが CSV/ExcelDBアクセスなしの小規模データのみ. ビデオ: http://www.youtube.com/user/RapidIVideos ↑ しましまの個人的感想† 便利にできている.アルゴリズムをいじらないで分析だけする人にはおすすめ. Helpメニューからは,Wikiやビデオなどの他の資料へのアクセスができる.Wikiは結構ユーザがいることが伺える. 下の方にエラーが出てく

  • Support vector machines in remote sensing: A review

  • David MacKay: Information Theory, Pattern Recognition and Neural Networks: The Book

    Information Theory, Inference, and Learning Algorithms (Hardback, 640 pages, Published September 2003) Order your copy Price: £35.00 / $60.00 from |CUP UK/USA| |amazon.co.uk/.com/.ca/.co.jp| | Barnes & Noble USA | booksprice. | fetchbook.info | allbookstores | biggerbooks | blackwells | directtextbook | kalahari.net (South Africa) | Special Paperback edition for South Asia.| Download the book too

  • H24:Introduction to Statistical Topic Models

    統計数理研究所 H24年度公開講座 「確率的トピックモデル」サポートページ 講師: 持橋大地 (統数研), 石黒勝彦 (NTTコミュニケーション科学基礎研究所) 講義スライド 持橋分 (2013/1/15) [PDF] (12MB) 石黒分 (2013/1/16) [PDF] ソフトウェア UM (Unigram Mixtures) um-0.1.tar.gz DM (Dirichlet Mixtures) dm-0.1.tar.gz, dm-0.2.tar.gz PLSI (Probabilistic Latent Semantic Indexing) plsi-0.03.tar.gz (外部サイト) LDA (Latent Dirichlet Allocation) lda-0.1.tar.gz 参考文献 「私のブックマーク: Latent Topic Model (潜在的トピックモデ

    miyakawa_taku
    miyakawa_taku 2013/01/17
    統計数理研究所 H24年度公開講座 「確率的トピックモデル」サポートページ (2012-01-15)
  • はてなブログ | 無料ブログを作成しよう

    我が家のダグウッド ダグウッドとはハナミズキのことである。昔、日からポトマックリバーの桜の苗木を送った返礼として、アメリカから送られて来たのが日での始まりで、アメリカ原産でアメリカヤマボウシともいうらしい。 最近では日でも、あちこちで、街路樹であったり、庭木であっ…

    はてなブログ | 無料ブログを作成しよう
  • KDnuggets

    What Data Scientists Should Know About OpenUSD Let's dive into what data scientists should know about OpenUSD and how it can enhance their workflows.

  • [R]R言語で生存時間分析 - yokkunsの日記

    生存時間分析 ある時点から興味のあるイベントが起きるまでの時間とイベントとの間の関係に関する分析。 以下のような解析を行う 生存率の推定(Kaplan-Meier曲線) 2郡の生存率の比較 (Log-Rank検定) 生存率と共変量との関係の解明 (Cox回帰) また、イベントの例としては、以下のようなものがある。 機械システムや製品の故障 疾患の病気の再発や死亡 データの準備 ここでは、survivalパッケージにあるデータセットcolonを用いる。 colon : Stage B/Cの結腸癌患者を対象とした術後補助化学療法の比較臨床試験データ > library(survival) 要求されたパッケージ splines をロード中です > colon.OS <- subset(colon, colon$etype==2) #死亡に関するデータのみを取り出す Kaplan-Meier法によ

    [R]R言語で生存時間分析 - yokkunsの日記
  • 実質的な意義と統計学上の有意性の乖離

    問: 相関係数が 0.8 と大きいのに,無相関検定を行うと「有意ではない」という結果になりました。どうしたらいいのですか。 2 群の平均値の差の検定をしました。平均値の差が小さいのに,検定では「有意な差である」という結果になりました。どうしたらいいのですか。 検定を行う場合,ケース数が大きければどのようなわずかの差であっても帰無仮説が棄却されることがあります。 逆に,ケース数が小さい場合にはどんなに差があっても帰無仮説は採択されてしまうことがあります。 例えば,相関係数の検定(母相関係数=0)を考えてみましょう。 帰無仮説 H0:「母相関係数ρ=0」相関関係はない。 対立仮説 H1:「母相関係数ρ≠0」。 両側検定を行う。 検定に用いられる式は,相関係数を r ,ケース数を n としたとき,以下のようになります。 この式を見れば明らかなように,ケース数が大きいほど,また,標相関係数が大き

    miyakawa_taku
    miyakawa_taku 2012/11/21
    有意≠意味がある