[B! datamining] miyakawa_takuのブックマーク

協調フィルタリングについてまとめてみた。 - Analyze IT.

A Survey of Collaborative Filtering Techniques(Xiaoyuan Su and Taghi M. Khoshgoftaar, 2009,Advances in Artificial Intelligence) 仕事で協調フィルタリングについて調べる必要が出てきたのだが、あまりよい日本語の文献を見つけられなかったため（後にしましま先生の文献を見つけた）やむなく英語の論文を検索したところ、上記のよいサーベイ論文を見つけた。というわけでこのサーベイ論文に書かれていることに自分なりに調べたことを加えて、自分用にまとめておく。また、一部の人達の間ではとても有名なしましま先生の論文（ドラフト版）があるので、英語が苦手な人はそちらをご覧になるとよいと思われる。協調フィルタリングは、一言で言えばユーザとアイテムのマトリックスを用いた顧客への商品のレコメン

miyakawa_taku 2013/06/11

datamining

リンク

ニューラルネットの逆襲 - Preferred Networks Research & Development

岡野原です。Deep Learningが各分野のコンペティションで優勝し話題になっています。Deep Learningは7、8段と深いニューラルネットを使う学習手法です。すでに、画像認識、音声認識、最も最近では化合物の活性予測で優勝したり、既存データ・セットでの最高精度を達成しています。以下に幾つか例をあげます。画像認識 LSVRC 2012 [html] 優勝チームスライド [pdf], まとめスライド[pdf] Googleによる巨大なNeuralNetを利用した画像認識（猫認識として有名）[paper][slide][日本語解説] また、各分野のトップカンファレンスでDeep Learningのチュートリアルが行われ、サーベイ論文もいくつか出ました。おそらく来年以降こうした話が増えてくることが考えられます。 ICML 2012 [pdf] ACL 2012 [pdf] CVPR

miyakawa_taku 2013/05/23

datamining

リンク

「毎日の数字を追いかけ、毎日改善する」ことの意外な落とし穴 - 渋谷駅前で働くデータサイエンティストのブログ

（※今回の記事の内容はかなり難解かもです）大竹文雄の経済脳を鍛える（2月13日分記事）幾何ブラウン運動と見せかけの回帰 - My Life as a Mock Quant 得てして多くの企業では、「毎日の数字（売上高・利益・在庫etc.）を追いかけ」、「その結果を元手に毎日改善する」ということを日々励行しているのではないかと思います。ところで、こんな体験したことはありませんか？「毎日毎日、物凄く一生懸命数字を見ながら頑張ってカイゼンし続けて、確かに頑張った時は数字は上がったし、頑張りが足りない時は数字が下がった。それに一喜一憂しつつもずっと物凄く頑張り続けた・・・でも、あれからもう数ヶ月経ったのに全体としては数字は下がってきている。どうしてなんだろう？？？」なるほど、もしかしたらその時の改善努力が正しくなかったのかもしれません。でも、実は「そもそも改善努力と数字とは何の関係もなか

miyakawa_taku 2013/04/17

datamining

リンク

MCMC tutorial

miyakawa_taku 2013/03/28

datamining

リンク

経済分析のためのMCMC入門

経済分析のためのMCMC入門日本福祉大学経済学部楠田康之 2008年11月25日（火）構造推定研究会 1. はじめに  経済モデルが複雑になると解析的な解を求めることができない。  コンピュータの性能が向上したことより、簡単に数値解析が行えるようになった。  古典的な統計学からベイズ統計学への流れ。ＭＣＭＣ（マルコフ連鎖モンテカルロ）法は新しい標準的な統計手法？ベイズの定理例：努力したかサボったかによって業績の確率分布がわかっている。業績悪い普通良い大変良い努力する１/９２/９１/３１/３サボる１/３１/３２/９１/９結果「悪い」のときに努力していた確率は？ベイズの定理（２）イメージ：Ａ(情報)がＢの確率を更新する。ＡＰ（Ａ｜Ｂ）・Ｐ（Ｂ）Ｐ（Ａ｜ＢＣ）・Ｐ（ＢＣ）ＢＢＣＰ（Ｂ）Ｐ（ＢＣ）ベイズ統計学ベイズ

miyakawa_taku 2013/03/27

経済分析のための MCMC 入門

datamining

リンク

MCMC（Markov Chain Monte Carlo、マルコフ連鎖モンテカルロ法）について - データサイエンティスト上がりのDX参謀・起業家

今日はMCMC法についての解説です。メモ程度のものですが、ご参考になれば幸いです。日本語の良本はこれ。マルコフ連鎖モンテカルロ法 (統計ライブラリー) 作者: 豊田秀樹出版社/メーカー: 朝倉書店発売日: 2008/05/01メディア: 単行本購入: 11人クリック: 168回この商品を含むブログ (13件) を見る有名な解説論文： Sampling-Based Approaches to Calculating Marginal Densities. Gelfand AE and Afrian F. M. Smith. Journal of the American Statistical Association, 85;410:398-409, 1990. 【概念】 Monte Carlo（モンテカルロ法）モンテカルロ：金持ちの町、F1もやってる興味のある値を「頻度」を使

miyakawa_taku 2013/03/27

datamining

リンク

ROC曲線

試験の点数から○○大学に合格（T）か不合格（F）かを予測したいときや，検査値から病気（T）か健康（F）かを判断したいときなどがあります。要するに，与えられた値から，真（TRUE）か偽（FALSE）かを判断したいわけです。例として右の表のような場合を考えましょう。与えられた値をどこで切っても，TとFは完全には分離できません。例えば11で切って，11以上を陽性（positive），11未満を陰性（negative）とした場合，10個のTのうち5個がpositiveに入りますので，true positive（真陽性）の割合は0.5です。また，5個のFのうち1個がpositiveに入りますので，false positive（偽陽性）の割合は0.2です。そこで，(0.2, 0.5) をプロットします。このように，区切る値（閾値，カットオフポイント）をいろいろ変えて，横軸にfalse positi

miyakawa_taku 2013/03/26

datamining

リンク

KDD Cup 1998 Data

miyakawa_taku 2013/03/26

datamining

リンク

統計の教科書を公開 - 【小波の京女日記】(2013-03-12)

_ 統計の教科書を公開 2013年度の学部の講義「統計学」で使用するための教科書を公開します． http://ruby.kyoto-wu.ac.jp/~konami/Text/ このテキストは，今年度まである出版社から出してもらっていたのですが，かなりの訂正と加筆を行い，元の本からはかなり内容が離れてきてしまいました．また出版社も，売れ行きがぜんぜん悪いし，カリキュラムが変わって100人以上いた受講者が30人程度に激減して儲けのタネにならなくなり，書店から引き上げてしまったようです．そこで，思い切って改訂版はネットに公開して一般の人に自由に使ってもらい，学生が授業で使う分については，小部数印刷の業者に必要なぶんだけ印刷製本してもらうことにしました．なんと2日で製本までやってくれるということで，初回の授業で注文をとってから印刷すれば，次の講義では使えるわけです．便利な世の中です．どんな教

miyakawa_taku 2013/03/12

datamining

リンク

Booktype

miyakawa_taku 2013/02/05

文書クラスタリングの手法

datamining

リンク

機械学習 × MapReduce - ny23の日記

個人的な興味というより，雑用絡みで眺めた論文の紹介．機械学習アルゴリズムを並列分散化するという話が最近流行っているようだ．全然網羅的ではないけど，誰かの役に立つかも知れないので，幾つかメモしておく．まず古典的にはこれ， Map-reduce for machine learning on multicore (NIPS 2006) 古典的な機械学習アルゴリズム（バッチ学習）の多くは，Statistical Query Model で記述できて，それらは summation form で記述できる (から，MapReduce で並列化できる)．実装は Mahout．ただ最近は，バッチアルゴリズムで解ける問題には多くの場合対応するオンラインアルゴリズムが提案されていて，バッチアルゴリズムを並列化することのメリットはあまり無い．オンラインアルゴリズムだとパラメタが連続的に更新されるので，MapR

miyakawa_taku 2013/02/04

datamining

リンク

GroupLens: An Open Architecture for Collaborative Filtering of Netnews

GroupLens: An Open Architecture for Collaborative Filtering of Netnews Paul Resnick*, Neophytos Iacovou**, Mitesh Suchak*, Peter Bergstrom**, John Riedl** * MIT Center for Coordination Science Room E53-325 50 Memorial Drive Cambridge, MA 02139 617-253-8694 Em ail: presnick@mit.edu ** University of Minnesota Department of Computer Science Minneapolis, Minnesota 55455 (612) 624-7372 Em ail: riedl@cs.u

miyakawa_taku 2013/02/04

ユーザベース協調フィルタリングのアルゴリズム GroupLens の論文。

datamining

リンク

RapidMiner - 機械学習の「朱鷺の杜Wiki」

RapidMiner† Weka の学習ルーチンに，前処理・可視化の部分を強化したYaleが，Rapid-I 社がオープンソースで開発している RapidMiner になった．さらに今は社名も RapidMiner になった． Community Edition は無料でオープンソースで 5.x 6.x 移行は製品で，機能制限版で無償のStarter版と，有償のものとがある．無償版は読めるファイルが CSV/Excel でDBアクセスなしの小規模データのみ．ビデオ： http://www.youtube.com/user/RapidIVideos ↑ しましまの個人的感想† 便利にできている．アルゴリズムをいじらないで分析だけする人にはおすすめ． Helpメニューからは，Wikiやビデオなどの他の資料へのアクセスができる．Wikiは結構ユーザがいることが伺える．下の方にエラーが出てく

miyakawa_taku 2013/01/28

datamining

リンク

Support vector machines in remote sensing: A review

miyakawa_taku 2013/01/25

datamining

リンク

David MacKay: Information Theory, Pattern Recognition and Neural Networks: The Book

miyakawa_taku 2013/01/25

datamining

リンク

H24:Introduction to Statistical Topic Models

統計数理研究所 H24年度公開講座「確率的トピックモデル」サポートページ講師: 持橋大地 (統数研), 石黒勝彦 (NTTコミュニケーション科学基礎研究所) 講義スライド持橋分 (2013/1/15) [PDF] (12MB) 石黒分 (2013/1/16) [PDF] ソフトウェア UM (Unigram Mixtures) um-0.1.tar.gz DM (Dirichlet Mixtures) dm-0.1.tar.gz, dm-0.2.tar.gz PLSI (Probabilistic Latent Semantic Indexing) plsi-0.03.tar.gz (外部サイト) LDA (Latent Dirichlet Allocation) lda-0.1.tar.gz 参考文献「私のブックマーク: Latent Topic Model (潜在的トピックモデ

miyakawa_taku 2013/01/17

統計数理研究所 H24年度公開講座「確率的トピックモデル」サポートページ (2012-01-15)

datamining

リンク

はてなブログ | 無料ブログを作成しよう

我が家のダグウッドダグウッドとはハナミズキのことである。昔、日本からポトマックリバーの桜の苗木を送った返礼として、アメリカから送られて来たのが日本での始まりで、アメリカ原産でアメリカヤマボウシともいうらしい。最近では日本でも、あちこちで、街路樹であったり、庭木であっ…

miyakawa_taku 2012/12/27

datamining

リンク

KDnuggets

What Data Scientists Should Know About OpenUSD Let's dive into what data scientists should know about OpenUSD and how it can enhance their workflows.

miyakawa_taku 2012/11/29

datamining

リンク

[R]R言語で生存時間分析 - yokkunsの日記

生存時間分析ある時点から興味のあるイベントが起きるまでの時間とイベントとの間の関係に関する分析。以下のような解析を行う生存率の推定（Kaplan-Meier曲線） 2郡の生存率の比較（Log-Rank検定）生存率と共変量との関係の解明 (Cox回帰) また、イベントの例としては、以下のようなものがある。機械システムや製品の故障疾患の病気の再発や死亡データの準備ここでは、survivalパッケージにあるデータセットcolonを用いる。 colon : Stage B/Cの結腸癌患者を対象とした術後補助化学療法の比較臨床試験データ > library(survival) 要求されたパッケージ splines をロード中です > colon.OS <- subset(colon, colon$etype==2) #死亡に関するデータのみを取り出す Kaplan-Meier法によ

miyakawa_taku 2012/11/21

datamining

リンク

実質的な意義と統計学上の有意性の乖離

問：相関係数が 0.8 と大きいのに，無相関検定を行うと「有意ではない」という結果になりました。どうしたらいいのですか。 2 群の平均値の差の検定をしました。平均値の差が小さいのに，検定では「有意な差である」という結果になりました。どうしたらいいのですか。検定を行う場合，ケース数が大きければどのようなわずかの差であっても帰無仮説が棄却されることがあります。逆に，ケース数が小さい場合にはどんなに差があっても帰無仮説は採択されてしまうことがあります。例えば，相関係数の検定（母相関係数=0）を考えてみましょう。帰無仮説 H0:「母相関係数ρ＝0」相関関係はない。対立仮説 H1:「母相関係数ρ≠0」。両側検定を行う。検定に用いられる式は，相関係数を r ，ケース数を n としたとき，以下のようになります。この式を見れば明らかなように，ケース数が大きいほど，また，標本相関係数が大き

miyakawa_taku 2012/11/21

有意≠意味がある

datamining

リンク

はてなブックマーク

タグ

関連タグで絞り込む (1)

dataminingに関するmiyakawa_takuのブックマーク (26)

お知らせ

今週のはてなブックマーク数ランキング（2024年7月第2週）

はてなブックマーク透明性レポート（2024年 2月-2024年4月）

今週のはてなブックマーク数ランキング（2024年7月第1週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス