https://manabiya.tech
https://manabiya.tech
確率統計の勉強会資料を大幅に改定しました。数式を最小限にし、統計分析のためのトピックを総覧的に資料化しています。 2021/11/20 内容や記載を拡充しました(合わせて SpeakerDeckに移動しました) https://speakerdeck.com/hidekatsu_izuno/que-lu-tong-ji-ji-jie-xue-xi-sofalseqian-ni
以前、社内の勉強会用の資料として作成した「確率統計-機械学習その前に」という資料を今回大幅に改定して公開しました。 改定の一番のポイントは、統計分析の総覧的なガイドとして使えるようにしたことです。正直な話、内容的に私自身も十分に理解出来ていない部分も多いのですが、いろいろ調べた結果、なんとなく統計分析の手法マップ的なものが頭の中に出来上がってきたので、それをアウトプットとしてまとめてみました。 確率統計-機械学習その前に v2.0 from Hidekatsu Izuno 確率統計に限った話ではありませんが、新しい分野を学ぶ初学者にとって、全体像がよくわからないため混乱することが少なくありません。この資料を読むことでなんとなくでも全体を把握できていれば、他の文献を読む際にも理解が容易になるのではと思っています。 例によって、確率統計については完全に素人なので、間違いもあるかもしれません。そ
みなさん、こんにちは。Retty CTO の樽石です。 この記事は Retty Advent Calendar 25日目です。メリークリスマス。 昨日は @ttakeoka の『MFIにむけてRettyの取り組み』でした。 今年も残りわずかになりました。いかがお過ごしですか? Retty はこの 1 年でエンジニアがほぼ倍増しました。それによって、情報発信者が増え、Advent Calendar に参加出来るようになりました。みんな楽しそうにしていて、うれしいです。 Retty Inc. Advent Calendar 2016 - Qiita さて、今年最後の Retty Advent Calendar 記事を書くということで、はじめは 1年のまとめ的内容にしようかと思いましたが、それでは平凡で面白くありません。そこで、ネタになりそうなマニアックな技術的記事で締めくくりたいと思います。
Credit: https://provalisresearch.com/blog/machine-learning/Edit: The popularity of this post has inspired me to write a machine learning test library. Go check it out! Second Edit: The Github user suriyadeepan made a PyTorch port as well! Over the past year, I’ve spent most of my working time doing deep learning research and internships. And a lot of that year was making very big mistakes that hel
Walmart2015については、CrowdFlowerのSolutionを参考にしながら、いろいろと考えながらやってました。 結局xgboostとneural netのstackingくらいしかできませんでしたが。。(38th/1047) その中で、kaggleの問題に対して”解”を出すのにあたって、どういうポイントがあり、どのように進めていくべきかの”構造”を考えてみました。 kaggle masterだけど機械学習は素人なので、突っ込みどころはいっぱいあると思います。ご指摘やこんな資料があるなど、教えていただければ助かります。 1 – 特徴量作成・管理 何だかんだいっても特徴量作成は重要で、重要な特徴量を逃すと勝ち目はないでしょう。 逆に適切な特徴量が作れれば、xgboostだけで勝てることもあるようです。(cf. Rossmann) 特徴量はN * M(N:ID, M:要素数)の数
XGBoostの凄さに最近気がついたので、もうちょっと詳しく知りたいと思って以下の論文を読みました。 XGBoost: A Scalable Tree Boosting System せっかくなので、簡単にまとめてみたいと思います。。。と思っていたら結構な量になってしいました。 何か間違い等がありましたらコメントをしていただくか、@kefism へ連絡をしてくださると嬉しいです。 XGBoostとは 基本的に内部で行われていることは決定木を複数個作るということです。しかし、その作り方に特徴があります。 ここで記号を定義しておきましょう。 説明変数を次元として、目的変数を、とします。ここではデータの数です。またデータに対する予測値をとします。 まず決定木を1つ構築します。するとその決定木を使用して予測ができるようになります。1つ目の決定木から得られるデータに対する予測値をとしましょう。このと
リクルートデータ組織のブログをはじめました。※最新情報はRecruit Data Blogをご覧ください。 Recruit Data Blogはこちら RCOアドテク部論文輪読会:「Random Search for Hyper-Parameter Optimization」を紹介しました 2016/03/15s_akiba エンジニアの秋庭です。 データ分析チームの論文輪読会にて、「Random Search for Hyper-Parameter Optimization」[1]を紹介しました。 こちらの論文では、機械学習のハイパーパラメータ探索手法として、Random Searchに注目し、Grid Searchとの比較を行っています。Random Search自体は、非常に簡単な手法ですが、Grid Seachと比較して、効率的にハイパーパラメータの探索を行うことができます。機械学
統計学、パターン認識等で、ROC(Receiver Operating Characteristic;受信者動作特性)曲線という概念が出てきます。また、データ分析・予測のコンペティションサイトKaggleでも、提出されたアルゴリズムの識別性能評価にこのROC曲線に基づくAUC(Area Under the Curve)というものを使っています。(例えばココ) このROC曲線、ちょっとわかりにくいので、まとめてみました。また、アニメーションでグラフを動かしてイメージを付けるということもやってみます。 1. ROC曲線に至る前説 まず、例として健康に関するとある検査数値データがあったとします。 この検査数値は健康な人は平均25, 標準偏差2の正規分布に従い分布しています。(下記図の緑の曲線) 病気の人は平均30、標準偏差4の正規分布に従い分布しています。(下記の図の青の曲線) グラフにすると下
こんにちは、ほけきよです! 機械学習の基本は教師あり学習です。 でも、実際の現場ではいろいろ指標が出てきて「?」 ってなるので、一回本気でまとめてみることにしてみました! 教師あり学習の分類 二値分類 用語一覧表 図解 事例 事例1:果物の分類 事例2:ガンかどうかの検査 ROC曲線の意味合い 指標まとめ 多クラス分類 precision, recall, F-measure accuracy logarithm loss 出力が数値(回帰) 用語一覧 二乗誤差(MSE, RMSE)と絶対誤差(MAE)の使い分け AICとBIC, wAICの使い分け 時系列問題 参考になりそうなサイト 教師あり学習の分類 今回は正解はカテゴリか意味を持つ数字かで場合分けをしてみた。 全体の指標のサマリーはこんな感じ(だと思っている。) ※他にも大事な指標があるよ&これは間違っているのでは?? というコメン
これは,R Advent Calendar 2013の8日目の記事です. 2013年を振り返ってみると,Tokyo.Rの"シリーズ前処理"をたったの2回で途絶えさせてしまったことは大いに反省すべき点の一つです(^^; シリーズ前処理を途絶えさせたことは,2013年における痛恨の極みの一つ.2014年に復活させるかな?— sfchaos (@sfchaos) 2013, 11月 30 そんなわけで,残り少なくなった2013年,シリーズ前処理の続きを書いてみたいと思います. 今回のテーマは「連続値データの離散化」です.データ分析を行っていると,連続値のデータを離散化して,いくつかのグループに分けたい場面がしばしば発生します.例えば,健康診断の項目に対して「高・中・低」の3段階に分けたい場合などです. 高次元のデータに対する離散化の手法もいくつか提案されていますが,ここでは1次元のデータの離散化
あるいは、論文 "Best Practices for Scientific Computing" および "Good Enough Practices in Scientific Computing" について。 TL;DR 標題の件について、未だに答えは見えていないのだけど、自分の現状と他の人の例を文字で残しておく。 こういう話で「あーその手があったかー!」と知ったときの興奮はすごいので、みなさんもっとオープンにいきましょう。 大切なのは、ソフトウェア開発と同じ要領でデータサイエンスのプロジェクトを捉えて、分析と言う名の“開発”を行うつもりでディレクトリを掘ること。 必要なものリスト ナウいデータサイエンス/機械学習プロジェクトの中には(経験上、ぱっと思い浮かぶだけでも)次のようなファイル群があって、僕たちはそれらを良い感じに管理したい。 ソースコード 役割がいろいろある: 前処理(こ
導入pdf 情報の変換過程のモデル化 ベイズ統計の意義 識別モデルと生成モデル 最尤推定、MAP推定 データの性質 情報理論の諸概念 (KL-divergenceなど) 距離あるいは類似度 数学のおさらいpdf 行列の微分 線形代数学の役立つ公式 多次元正規分布 条件付き正規分布 Bayes推論pdf Bayseによる確率分布推定の考え方 多項分布、ディリクレ分布 事前分布としてのディリクレ分布の意味<\li> 正規分布と事後分布 指数型分布族 自然共役事前分布の最尤推定 線形回帰および識別pdf 線形回帰のモデル 正則化項の導入 L2正則化 L1正則化 正則化項のBayes的解釈 線形識別 2乗誤差最小化の線形識別の問題点 生成モデルを利用した識別 学習データと予測性能pdf 過学習 損失関数と Bias,Variance, Noise K-Nearest Neighbor法への応用 b
本記事では、機械学習コンペなどでよく見られる勾配ブースティング決定木(gradient boosting decision tree)を説明します。勾配ブースティング決定木は、MNISTデータに対して、ニューラルネットの最高精度と同等の精度を出したり、また高速な実装xgboostなどで有名な手法です。ライブラリを使用している方も多いと思いますが、意外とどのような構造になっているかを知らない人もいるかもしれません。 そこで、本記事では、決定木とは何か、というところから始めて、アンサンブル学習、勾配ブースティング決定木について見ていきます。 決定木 情報利得 アンサンブル学習 バギング ブースティング 勾配ブースティング決定木 各反復での訓練 モデルの複雑性 最適解の導出 実装例 まとめ 参考 決定木 決定木(decision tree)は、データに対して一連の質問を与えることによって、目標に
SVMツールで有名なLIBSVMの作者らがまとめた "A Practical Guide to Support Vector Classification" という良資料[1]の日本語解説資料をまとめてみたので公開. SVM実践ガイド (A Practical Guide to Support Vector Classification) View more presentations from sleepy_yoshi 元資料はこちら 本資料作成のきっかけは,まわりの人に「SVMとかいう手法使ったんだけど,機械学習よくわからなくてさ」という感じで相談を受けて「カーネルは何使ってるの?」「素性のスケーリングはした?」「Cパラメータは調整した?」というようなことを聞くのだけれど,「???」というやりとりにうんざりしたから. その都度,Cパラメータというものがありまして〜,カーネルというものが
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く