[B! 機械学習] miki_beneのブックマーク

成長を止めない機械学習のやり方 / Don't stop 'til you get enough (data).

https://manabiya.tech

miki_bene 2018/04/14

機械学習

リンク

Chainerと実験管理と私

機械学習の実験管理についてと、Chainerでやるときに色々考えたことをまとめました | Chainer LT Meetup #1発表資料

miki_bene 2018/04/12

機械学習

リンク

確率統計－機械学習その前に v2.0

確率統計の勉強会資料を大幅に改定しました。数式を最小限にし、統計分析のためのトピックを総覧的に資料化しています。 2021/11/20 内容や記載を拡充しました（合わせて　SpeakerDeckに移動しました） https://speakerdeck.com/hidekatsu_izuno/que-lu-tong-ji-ji-jie-xue-xi-sofalseqian-ni

miki_bene 2018/04/11

リンク

「確率統計－機械学習その前に v2.0」を公開した - hidekatsu-izuno 日々の記録

以前、社内の勉強会用の資料として作成した「確率統計-機械学習その前に」という資料を今回大幅に改定して公開しました。改定の一番のポイントは、統計分析の総覧的なガイドとして使えるようにしたことです。正直な話、内容的に私自身も十分に理解出来ていない部分も多いのですが、いろいろ調べた結果、なんとなく統計分析の手法マップ的なものが頭の中に出来上がってきたので、それをアウトプットとしてまとめてみました。確率統計－機械学習その前に v2.0 from Hidekatsu Izuno 確率統計に限った話ではありませんが、新しい分野を学ぶ初学者にとって、全体像がよくわからないため混乱することが少なくありません。この資料を読むことでなんとなくでも全体を把握できていれば、他の文献を読む際にも理解が容易になるのではと思っています。例によって、確率統計については完全に素人なので、間違いもあるかもしれません。そ

miki_bene 2018/03/22

リンク

データ分析コンテストの 勝者解答から学ぶ

ステアラボ人工知能シンポジウム 2018 講演資料 https://stair.connpass.com/event/76647/

miki_bene 2018/03/14

機械学習

リンク

Retty流『2200万ユーザを支える機械学習基盤』の作り方 - Qiita

みなさん、こんにちは。Retty CTO の樽石です。この記事は Retty Advent Calendar 25日目です。メリークリスマス。昨日は @ttakeoka の『MFIにむけてRettyの取り組み』でした。今年も残りわずかになりました。いかがお過ごしですか？ Retty はこの１年でエンジニアがほぼ倍増しました。それによって、情報発信者が増え、Advent Calendar に参加出来るようになりました。みんな楽しそうにしていて、うれしいです。 Retty Inc. Advent Calendar 2016 - Qiita さて、今年最後の Retty Advent Calendar 記事を書くということで、はじめは１年のまとめ的内容にしようかと思いましたが、それでは平凡で面白くありません。そこで、ネタになりそうなマニアックな技術的記事で締めくくりたいと思います。

miki_bene 2018/02/17

機械学習

リンク

How to unit test machine learning code.

Credit: https://provalisresearch.com/blog/machine-learning/Edit: The popularity of this post has inspired me to write a machine learning test library. Go check it out! Second Edit: The Github user suriyadeepan made a PyTorch port as well! Over the past year, I’ve spent most of my working time doing deep learning research and internships. And a lot of that year was making very big mistakes that hel

miki_bene 2018/02/01

リンク

いかにしてkaggleを解くか | threecourse's memo

Walmart2015については、CrowdFlowerのSolutionを参考にしながら、いろいろと考えながらやってました。結局xgboostとneural netのstackingくらいしかできませんでしたが。。(38th/1047) その中で、kaggleの問題に対して”解”を出すのにあたって、どういうポイントがあり、どのように進めていくべきかの”構造”を考えてみました。 kaggle masterだけど機械学習は素人なので、突っ込みどころはいっぱいあると思います。ご指摘やこんな資料があるなど、教えていただければ助かります。 1 – 特徴量作成・管理何だかんだいっても特徴量作成は重要で、重要な特徴量を逃すと勝ち目はないでしょう。逆に適切な特徴量が作れれば、xgboostだけで勝てることもあるようです。(cf. Rossmann) 特徴量はN * M（N:ID, M:要素数）の数

miki_bene 2018/01/24

リンク

機械学習と解釈可能性

@Tokyo.R #67 https://atnd.org/events/93829

miki_bene 2018/01/23

機械学習

リンク

XGBoostの概要 - ともにゃん的データ分析ブログ

XGBoostの凄さに最近気がついたので、もうちょっと詳しく知りたいと思って以下の論文を読みました。 XGBoost: A Scala ble Tree Boosting System せっかくなので、簡単にまとめてみたいと思います。。。と思っていたら結構な量になってしいました。何か間違い等がありましたらコメントをしていただくか、@kefism へ連絡をしてくださると嬉しいです。 XGBoostとは基本的に内部で行われていることは決定木を複数個作るということです。しかし、その作り方に特徴があります。ここで記号を定義しておきましょう。説明変数を次元として、目的変数を、とします。ここではデータの数です。またデータに対する予測値をとします。まず決定木を１つ構築します。するとその決定木を使用して予測ができるようになります。１つ目の決定木から得られるデータに対する予測値をとしましょう。このと

miki_bene 2018/01/17

機械学習

リンク

カテゴリー変数の扱い方

miki_bene 2018/01/17

機械学習

リンク

実践多クラス分類 Kaggle Ottoから学んだこと

Kaggleのコンペに参加することで�色々な実践的ノウハウを学んだので�そのノウハウを共有する p.3～53 コンペ中に自分がやったこと�p.54～99 ハイランカーがやっていたこと�p.100～ハイランカーかやっていたことを�自分も実際にやってみるRead less

miki_bene 2018/01/03

機械学習

リンク

RCOアドテク部論文輪読会：「Random Search for Hyper-Parameter Optimization」を紹介しました | リクルート

リクルートデータ組織のブログをはじめました。※最新情報はRecruit Data Blogをご覧ください。 Recruit Data Blogはこちら RCOアドテク部論文輪読会：「Random Search for Hyper-Parameter Optimization」を紹介しました 2016/03/15s_akiba エンジニアの秋庭です。データ分析チームの論文輪読会にて、「Random Search for Hyper-Parameter Optimization」[1]を紹介しました。こちらの論文では、機械学習のハイパーパラメータ探索手法として、Random Searchに注目し、Grid Searchとの比較を行っています。Random Search自体は、非常に簡単な手法ですが、Grid Seachと比較して、効率的にハイパーパラメータの探索を行うことができます。機械学

miki_bene 2017/12/28

機械学習

リンク

ROC曲線とは何か、アニメーションで理解する。 - Qiita

統計学、パターン認識等で、ROC(Receiver Operating Characteristic；受信者動作特性)曲線という概念が出てきます。また、データ分析・予測のコンペティションサイトKaggleでも、提出されたアルゴリズムの識別性能評価にこのROC曲線に基づくAUC(Area Under the Curve)というものを使っています。（例えばココ）このROC曲線、ちょっとわかりにくいので、まとめてみました。また、アニメーションでグラフを動かしてイメージを付けるということもやってみます。 1. ROC曲線に至る前説まず、例として健康に関するとある検査数値データがあったとします。この検査数値は健康な人は平均25, 標準偏差2の正規分布に従い分布しています。（下記図の緑の曲線）病気の人は平均30、標準偏差4の正規分布に従い分布しています。（下記の図の青の曲線）グラフにすると下

miki_bene 2017/12/27

リンク

機械学習で使う指標総まとめ(教師あり学習編) - プロクラシスト

こんにちは、ほけきよです！機械学習の基本は教師あり学習です。でも、実際の現場ではいろいろ指標が出てきて「?」ってなるので、一回本気でまとめてみることにしてみました！教師あり学習の分類二値分類用語一覧表図解事例事例1:果物の分類事例2:ガンかどうかの検査 ROC曲線の意味合い指標まとめ多クラス分類 precision, recall, F-measure accuracy logarithm loss 出力が数値(回帰) 用語一覧二乗誤差(MSE, RMSE)と絶対誤差(MAE)の使い分け AICとBIC, wAICの使い分け時系列問題参考になりそうなサイト教師あり学習の分類今回は正解はカテゴリか意味を持つ数字かで場合分けをしてみた。全体の指標のサマリーはこんな感じ(だと思っている。) ※他にも大事な指標があるよ&これは間違っているのでは？？というコメン

miki_bene 2017/12/27

機械学習

リンク

連続値データの離散化(R Advent Calendar 2013) - sfchaos's blog

これは，R Advent Calendar 2013の8日目の記事です． 2013年を振り返ってみると，Tokyo.Rの"シリーズ前処理"をたったの2回で途絶えさせてしまったことは大いに反省すべき点の一つです(^^; シリーズ前処理を途絶えさせたことは，2013年における痛恨の極みの一つ．2014年に復活させるかな？— sfchaos (@sfchaos) 2013, 11月 30 そんなわけで，残り少なくなった2013年，シリーズ前処理の続きを書いてみたいと思います．今回のテーマは「連続値データの離散化」です．データ分析を行っていると，連続値のデータを離散化して，いくつかのグループに分けたい場面がしばしば発生します．例えば，健康診断の項目に対して「高・中・低」の3段階に分けたい場合などです．高次元のデータに対する離散化の手法もいくつか提案されていますが，ここでは1次元のデータの離散化

miki_bene 2017/12/21

機械学習

リンク

データサイエンスプロジェクトのディレクトリ構成どうするか問題

あるいは、論文 "Best Practices for Scientific Computing" および "Good Enough Practices in Scientific Computing" について。 TL;DR 標題の件について、未だに答えは見えていないのだけど、自分の現状と他の人の例を文字で残しておく。こういう話で「あーその手があったかー！」と知ったときの興奮はすごいので、みなさんもっとオープンにいきましょう。大切なのは、ソフトウェア開発と同じ要領でデータサイエンスのプロジェクトを捉えて、分析と言う名の“開発”を行うつもりでディレクトリを掘ること。必要なものリストナウいデータサイエンス/機械学習プロジェクトの中には（経験上、ぱっと思い浮かぶだけでも）次のようなファイル群があって、僕たちはそれらを良い感じに管理したい。ソースコード役割がいろいろある：前処理（こ

miki_bene 2017/12/18

機械学習

リンク

統計的機械学習入門 | 中川研究室

導入pdf 情報の変換過程のモデル化ベイズ統計の意義識別モデルと生成モデル最尤推定、MAP推定データの性質情報理論の諸概念 (KL-divergenceなど) 距離あるいは類似度数学のおさらいpdf 行列の微分線形代数学の役立つ公式多次元正規分布条件付き正規分布 Bayes推論pdf Bayseによる確率分布推定の考え方多項分布、ディリクレ分布事前分布としてのディリクレ分布の意味<\li> 正規分布と事後分布指数型分布族自然共役事前分布の最尤推定線形回帰および識別pdf 線形回帰のモデル正則化項の導入 L2正則化 L1正則化正則化項のBayes的解釈線形識別 2乗誤差最小化の線形識別の問題点生成モデルを利用した識別学習データと予測性能pdf 過学習損失関数と Bias,Variance, Noise K-Nearest Neighbor法への応用 b

miki_bene 2017/12/12

機械学習

リンク

勾配ブースティング決定木を理解する - hiyoko9t’s blog

本記事では、機械学習コンペなどでよく見られる勾配ブースティング決定木(gradient boosting decision tree)を説明します。勾配ブースティング決定木は、MNISTデータに対して、ニューラルネットの最高精度と同等の精度を出したり、また高速な実装xgboostなどで有名な手法です。ライブラリを使用している方も多いと思いますが、意外とどのような構造になっているかを知らない人もいるかもしれません。そこで、本記事では、決定木とは何か、というところから始めて、アンサンブル学習、勾配ブースティング決定木について見ていきます。決定木情報利得アンサンブル学習バギングブースティング勾配ブースティング決定木各反復での訓練モデルの複雑性最適解の導出実装例まとめ参考決定木決定木(decision tree)は、データに対して一連の質問を与えることによって、目標に

miki_bene 2017/12/05

機械学習

リンク

SVM実践ガイド (A Practical Guide to Support Vector Classification) - シリコンの谷のゾンビ

SVMツールで有名なLIBSVMの作者らがまとめた "A Practical Guide to Support Vector Classification" という良資料[1]の日本語解説資料をまとめてみたので公開． SVM実践ガイド (A Practical Guide to Support Vector Classification) View more presentations from sleepy_yoshi 元資料はこちら本資料作成のきっかけは，まわりの人に「SVMとかいう手法使ったんだけど，機械学習よくわからなくてさ」という感じで相談を受けて「カーネルは何使ってるの?」「素性のスケーリングはした?」「Cパラメータは調整した?」というようなことを聞くのだけれど，「???」というやりとりにうんざりしたから．その都度，Cパラメータというものがありまして〜，カーネルというものが

miki_bene 2017/12/04

機械学習

リンク

はてなブックマーク

タグ

関連タグで絞り込む (9)

機械学習に関するmiki_beneのブックマーク (43)

お知らせ

今週のはてなブックマーク数ランキング（2024年10月第1週）

月間はてなブックマーク数ランキング（2024年9月）

今週のはてなブックマーク数ランキング（2024年9月第5週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス