タグ

機械学習に関するmasah3のブックマーク (17)

  • Rによる機械学習:caretパッケージの使い方 | Logics of Blue

    ニューロンの個数を2パタン。 データへの依存度を3パタン用意すると、2×3=6パタンも試さなければなりません。 大変に面倒ですが、このハイパーパラメタを雑に設定すると予測精度が落ちてしまうこともよくあります。 めんどくさいですが、なるべくやったほうがいいです。 4.モデルを使って予測する これは簡単。単に予測をするだけです。 パッケージを使っていれば、たいていは予測用の関数が用意されています。 5.予測の評価をする 最後は評価です。 評価をすることによって、 ・どの手法の ・どのパッケージの ・どのパラメタを 採用すべきかを判断します。 で、一番予測精度がいいやつを使って予測することになります。 たくさんの手法、たくさんのパッケージ、たくさんのパラメタの組み合わせをしらみつぶしに評価する。 普通にこれをやろうと思うと、気が遠くなってしまいますね。 そこで登場するのがパッケージ「caret」

  • いまさら聞けない機械学習の評価関数 - Gunosyデータ分析ブログ

    アライアンス事業開発部の大曽根(@dr_paradi)です。 ニュースパスというアプリの分析と開発を行っております。 今回は機械学習の評価関数のお話をします。 内容は、【FiNC×プレイド】Machine Learning Meetup #1 - connpassで発表したものになります。 発表資料 いまさら聞けない機械学習の評価指標 from 圭輔 大曽根 www.slideshare.net 機械学習における評価 現在は機械学習ライブラリが充実しており、また、Webサービスの普及により学習に必要なデータの獲得も以前と比較して容易になっています。 そのため、機械学習のビジネス利用への敷居が下がっています。 予測や分類といった問題を解く際には、設定した課題に対してどのモデルが最も適しているかを評価するための指標(評価関数)が必要になります。 Kaggle*1などのコンペティションではあらか

    いまさら聞けない機械学習の評価関数 - Gunosyデータ分析ブログ
    masah3
    masah3 2018/11/11
    RMSE, accuracy, etc.
  • Pythonによるモンテカルロ法入門 - 人工知能に関する断創録

    PRMLの11章で出てくるマルコフ連鎖モンテカルロ法(Markov chain Monte Carlo methods: MCMC)。ベイズでは必須と呼ばれる手法だけれどいまいち理屈もありがたみもよくわからなくて読み飛ばしていました。 最近、ボルツマンマシンを勉強していて、ベイズと関係ないのにマルコフ連鎖やらギブスサンプラーやらが出てきて格的にわからなくなってきたのでここらで気合を入れて勉強し直すことにしました。 参考にした書籍は「Rによるモンテカルロ法入門」です。PRMLと同じく黄色いなので難易度が高そう・・・このはR言語を使って説明がされていますが、それをPythonで実装しなおしてみようかなーと計画中。numpy、scipyの知らなかった機能をたくさん使うので勉強になりそう。 ただRにしかないパッケージを使われると途中で挫折する可能性が高い・・・あと内容が難しすぎて途中で挫折す

    Pythonによるモンテカルロ法入門 - 人工知能に関する断創録
    masah3
    masah3 2018/01/31
    よくまとまっている。
  • ROC曲線とは何か、アニメーションで理解する。 - Qiita

    統計学、パターン認識等で、ROC(Receiver Operating Characteristic;受信者動作特性)曲線という概念が出てきます。また、データ分析・予測のコンペティションサイトKaggleでも、提出されたアルゴリズムの識別性能評価にこのROC曲線に基づくAUC(Area Under the Curve)というものを使っています。(例えばココ) このROC曲線、ちょっとわかりにくいので、まとめてみました。また、アニメーションでグラフを動かしてイメージを付けるということもやってみます。 1. ROC曲線に至る前説 まず、例として健康に関するとある検査数値データがあったとします。 この検査数値は健康な人は平均25, 標準偏差2の正規分布に従い分布しています。(下記図の緑の曲線) 病気の人は平均30、標準偏差4の正規分布に従い分布しています。(下記の図の青の曲線) グラフにすると下

    ROC曲線とは何か、アニメーションで理解する。 - Qiita
    masah3
    masah3 2017/06/07
    分かりやすい。“このROC曲線は、2つの密度関数の重なりが少ないほど、形状が左上方向にシフトします。この重なりが少ないほど識別境界の性能が良くなります。”
  • 計量経済学と 機械学習の交差点入り口 (公開用)

    NIPS KANSAI Reading Group #7: Temporal Difference Models: Model-Free Deep RL ...

    計量経済学と 機械学習の交差点入り口 (公開用)
  • 渋谷駅前で働くデータサイエンティストのブログ

    これは初めてこのブログに来た方々向けのトップ固定記事です。最新記事の更新状況に応じて随時更新されます。 はじめに 公式のプロフィールはLinkedInに掲載しております。 このブログの内容は個人の意見・見解の表明であり、所属組織の意見・見解を代表しません。またブログ記事の内容の正確性については一切保証いたしません。学術的・技術的コンテンツを求めて来訪された方は、必ず学術書や論文などのオーソライズされた資料を併せてご参照ください。むしろ僕自身の学習のプロセスを記録しているだけの備忘録的記事が多いため、誤りもまた多いはずです。後学のため、誤りを見つけた場合はコメント欄などでお知らせいただけると有難いです。 また、ブログの中で取り上げられているデータ分析事例・データセット・分析上の知見など全ての記述は、いずれも特別に明記されていない限りはいかなる実在する企業・組織・機関の、いかなる個別の事例とも

    渋谷駅前で働くデータサイエンティストのブログ
    masah3
    masah3 2016/09/06
    よくできてそうなので真似してみたい。
  • 一年で身に付ける!Rと統計学・機械学習の4ステップ - データサイエンティスト上がりのDX参謀・起業家

    久しぶりの投稿です。この一年間、Rの勉強会などに参加したり主催したりしてきて、後輩や勉強会の方々の話をいろいろ聞くとこができました。そんな中、一年間でRと統計学・機械学習を身に付けれるようなフローを作れるかも?と思ったので、ここで記録しておきます。統計学や機械学習は理論を勉強するだけでなく、Rで実際に解析してみることで、より理解が深まります。 ステップ1. 分布・検定 理論 統計学入門 (基礎統計学?) 作者: 東京大学教養学部統計学教室出版社/メーカー: 東京大学出版会発売日: 1991/07/09メディア: 単行購入: 158人 クリック: 3,604回この商品を含むブログ (79件) を見る R Rによるやさしい統計学 作者: 山田剛史,杉澤武俊,村井潤一郎出版社/メーカー: オーム社発売日: 2008/01/25メディア: 単行購入: 64人 クリック: 782回この商品を含

    一年で身に付ける!Rと統計学・機械学習の4ステップ - データサイエンティスト上がりのDX参謀・起業家
  • ベイジアンネットワーク概説輪講

    1章 ベイジアンネットワークモデルの概要 1.1 ベージアンネットワークモデルとは? 1.2 ベージアンネットワークモデルの基 (この内容に沿わずに新納がBNの簡単なイントロを行う)

    masah3
    masah3 2014/09/16
    『ベイジアンネットワーク概説』培風館の各章の輪読サイト。パワポあり。
  • Stanで統計モデリングを学ぶ(2): そもそもMCMCって何だったっけ? - 渋谷駅前で働くデータサイエンティストのブログ

    (前回記事はこちらから) ベイジアンの知識もいい加減な僕がこんなシリーズ記事を書くとかほとんどギャグの領域なんですが(汗)*1、2回目の今回の記事ではそもそもMCMCって何だったっけ?ってところから始めようと思います。 今回参考にするのは、主に久保先生の緑です。そもそもGLM~GLMM~階層ベイズ+空間統計学について生態学研究をモチーフに分かりやすく書かれたですが、後半はMCMCの話題で統一されています。 データ解析のための統計モデリング入門――一般化線形モデル・階層ベイズモデル・MCMC (確率と情報の科学) 作者: 久保拓弥出版社/メーカー: 岩波書店発売日: 2012/05/19メディア: 単行購入: 16人 クリック: 163回この商品を含むブログ (18件) を見る MCMCまわりでは他にも非常に多くの良書がありますが、「初心者向けにも分かりやすくて」「段階を追って」「なぜ

    Stanで統計モデリングを学ぶ(2): そもそもMCMCって何だったっけ? - 渋谷駅前で働くデータサイエンティストのブログ
    masah3
    masah3 2014/09/14
    なるほど。
  • PRML合宿まとめサイト

    ■上巻 第1章: 序論 序論ではまずパターン認識の最も簡単な例として多項式曲線フィッティングを取り上げ、パターン認識・機械学習の基的な枠組みを紹介する。そしてベイズの定理や統計量などの確率論の基礎を導入し、確率論の観点から再び曲線フィッティングを扱う。不確実性はパターン認識の分野における鍵となる概念であり、確率論はこれを定量的に取り扱うための一貫した手法を与えるため、この分野における基礎の中心を担っている点で重要である。 また、回帰・識別の実際の取り扱いに際して必要となる決定理論や、パターン認識・機械学習の理論において役立つ情報理論の導入についても行う。 発表資料はこちら(ppt)とこちら(ppt)。前半では多項式曲線フィッティングの例およびベイズ的確率を、後半では決定理論および情報理論を取り扱っている。 第2章: 確率分布 第2章では二項分布や多項分布、ガウス分布といった各種の確率分布

    masah3
    masah3 2013/10/06
    機会学習の本のまとめサイト. PPTもあってよし。
  • 統計的機械学習入門 | 中川研究室

    導入pdf 情報の変換過程のモデル化 ベイズ統計の意義 識別モデルと生成モデル 最尤推定、MAP推定 データの性質 情報理論の諸概念 (KL-divergenceなど) 距離あるいは類似度 数学のおさらいpdf 行列の微分 線形代数学の役立つ公式 多次元正規分布 条件付き正規分布 Bayes推論pdf Bayseによる確率分布推定の考え方 多項分布、ディリクレ分布 事前分布としてのディリクレ分布の意味<\li> 正規分布と事後分布 指数型分布族 自然共役事前分布の最尤推定 線形回帰および識別pdf 線形回帰のモデル 正則化項の導入 L2正則化 L1正則化 正則化項のBayes的解釈 線形識別 2乗誤差最小化の線形識別の問題点 生成モデルを利用した識別 学習データと予測性能pdf 過学習 損失関数と Bias,Variance, Noise K-Nearest Neighbor法への応用 b

  • 統計的機械学習入門

    統計的機械学習入門(under construction) 機械学習歴史ppt pdf 歴史以前 人工知能の時代 実用化の時代 導入ppt pdf 情報の変換過程のモデル化 ベイズ統計の意義 識別モデルと生成モデル 次元の呪い 損失関数, bias, variance, noise データの性質 数学のおさらいppt pdf 線形代数学で役立つ公式 確率分布 情報理論の諸概念 (KL-divergenceなど) 線形回帰と識別ppt pdf 線形回帰 正規方程式 正規化項の導入 線形識別 パーセプトロン カーネル法ppt pdf 線形識別の一般化 カーネルの構築法 最大マージン分類器 ソフトマージンの分類器 SVMによる回帰モデル SVM実装上の工夫 クラスタリングppt pdf 距離の定義 階層型クラスタリング K-means モデル推定ppt pdf 潜在変数のあるモデル EMアル

    masah3
    masah3 2013/04/09
    東大中川研 はてブでブックマーク数多い
  • 目次

    ヘッダーをスキップ Oracle Data Mining概要 11g リリース1(11.1) E05704-02 索引 次へ 目次 例一覧 図一覧 表一覧 タイトルおよび著作権の情報 はじめに 対象読者 ドキュメントのアクセシビリティについて 関連ドキュメント 表記規則 サポートおよびサービス Oracle Data Miningの新機能 Oracle Data Mining 11g リリース1(11.1)の新機能 Oracle Data Mining 10g リリース2(10.2)の新機能 第I部 概要 1 データ・マイニングとは データ・マイニングとは 自動検出 予測 グループ化 実用的な情報 データ・マイニングと統計 データ・マイニングとOLAP データ・マイニングとデータ・ウェアハウス データ・マイニングで可能なこと、不可能なこと 適切な問題の設定 データの理解 データ・マイニング

    masah3
    masah3 2013/04/06
    オラクルデータマイニング説明集。例があって分かりやすそう。
  • ベイジアンネット (Bayesian Network)

    森北出版「学習システムの 理論と実現」森北出版(4章:ベイジアンネットワーク) オーム社「意思決定支援とネットビジネス」(ユーザモデリング技術) 東京電機大出版「ベイジアンネットワーク技術:顧客・ユーザモデリングと不確実性推論」(2006.7月刊行) 培風館「ベイジアンネットワーク概説」(2006.7月刊行) 丸善 数理科学事典「ベイジアンネットワーク」(近刊) 共立出版,人工知能事典など

    masah3
    masah3 2012/07/21
    産総研の研究者のページ
  • ゼミのレジュメ集

    ゼミのレジュメ集 2018年前期は、以下のをやります 「Python ではじめる機械学習」 Andreas C. Muller and Sarah Guido (中田秀基 訳) オライリー・ジャパン (2017) 新納研新配属+ の Python 課題進捗状況 新納研新人の課題進捗状況(TeX) 分類問題の課題 2017年後期は、私の以下のをやります 「Chainer v2 による実践深層学習」 新納浩幸 オーム社 (2017) 2017年前期は、以下のをやります 「機械学習理論入門」 中井悦司 技術評論社 (2015) 新納研仮配属+ の Python 課題進捗状況 新納研新人の課題進捗状況(TeX) 分類問題の課題 2016年前期は、以下のをやります 「実践 機械学習システム」 Willi Richet, Luis Pedro Coelho 著、斉藤康毅 訳 オライリー・ジャパ

    masah3
    masah3 2012/07/21
    ベイジアンネットワーク@茨城大学 これは便利。書籍の輪読。ベイジアンネットワーク、パターン認識、機械学習
  • データマイニング特論

  • Advanced Theory of Artificial Intelligence II Lecture Note

    人工知能続論 講義内容 Lecture Note [受講者の理解度に関する調査] 各項目の最後に ついている(○: 29, △: 41, ×:7, ave: 2.3) のようなリストは,各項目に関する受講者の理解度のアンケート調査の結果である. このアンケートは毎回の講義で記憶が新鮮なうちに教室でとっている.アンケー トにはコメント記入欄があり,その一部はFAQにフィー ドバックされている. ○は「よく分かった」,△は「だいたい分かった」,×は「よく分からない」 の意味で,コロンの後ろの数字はそれに対応する受講者数である.また,"ave" は○を3点,△を2点,×を1点とした場合のクラス全体の平均点である. 講義内容,講義方法,受講者の予習復習を含めて,ave の値が2点以上にな るよう(教員も含めて)全員で努力することが望ましいと思う. (Lecture #1) イントロダクション (I

    masah3
    masah3 2012/07/21
    人工知能論の講義サイト
  • 1