タグ

machinelearningに関するrydotのブックマーク (15)

  • Overcoming Missing Values In A Random Forest Classifier

    By Alok Gupta No StrangersAirbnb is trying to build a world where people can belong anywhere and there are no strangers. This helps hosts feel comfortable opening their homes and guests be confident traveling around the globe to stay with people they have never met before. While almost all members of the Airbnb community interact in good faith, there is an ever shrinking group of bad actors that s

    Overcoming Missing Values In A Random Forest Classifier
  • Python: 特徴量の重要度を Permutation Importance で計測する - CUBE SUGAR CONTAINER

    学習させた機械学習モデルにおいて、どの特徴量がどれくらい性能に寄与しているのかを知りたい場合がある。 すごく効く特徴があれば、それについてもっと深掘りしたいし、あるいは全く効かないものがあるなら取り除くことも考えられる。 使うフレームワークやモデルによっては特徴量の重要度を確認するための API が用意されていることもあるけど、そんなに多くはない。 そこで、今回はモデルやフレームワークに依存しない特徴量の重要度を計測する手法として Permutation Importance という手法を試してみる。 略称として PIMP と呼ばれたりすることもあるようだ。 この手法を知ったのは、以下の Kaggle のノートブックを目にしたのがきっかけだった。 Permutation Importance | Kaggle あんまりちゃんと読めてないけど、論文としては Altmann et al. (2

    Python: 特徴量の重要度を Permutation Importance で計測する - CUBE SUGAR CONTAINER
  • 勾配法は本当に鞍点近傍にはまるのか?モース理論で考えてみる - Qiita

    TL;DR 勾配法はほとんどのケースで極小点に収束する(鞍点には収束しない) この事実は力学系や最適化の分野ではよく知られているが,機械学習では新しい? 数年前にバズった勾配法の比較動画は実際の学習現象を説明できていないかも 鞍点の近傍での振舞いで差がつく? いや,そもそも鞍点近傍に流れ込まないかも 比較動画に登場した鞍点は,実際にはまず生じないタイプかも 機械学習にも役立つモース理論 ほとんどすべての関数はモース関数 モース関数の臨界点のタイプはわずか $d+1$ 種類($d$ は定義域次元) 安定/不安定多様体とモース・スメール複体で勾配法の流れは分かる Monkey saddleはまず現れない(もし現れても簡単に消せる) 量的な問題に関しては,結局は実験するしかない この記事を書いたきっかけ 昨夜,ある論文を見かけて,ふとこんなツイートをした. ML業界,「勾配法が鞍点に収束する確率

    勾配法は本当に鞍点近傍にはまるのか?モース理論で考えてみる - Qiita
  • なぜ自然言語処理にとって単語の分散表現は重要なのか? - Qiita

    なぜ自然言語処理にとって単語の分散表現は重要なのでしょうか? この記事をご覧になっている方は Word2vec(Mikolov et al., 2013) についてご存知かもしれません。Word2vec ではまるで単語の意味を捉えられているかのような演算を行うことができます。例えば King から Man を引き Woman を足すと Queen が得られる(King - Man + Woman = Queen)というのは有名な例です。 from https://www.tensorflow.org/get_started/embedding_viz 実はその内部では、単語を分散表現(あるいは埋め込み表現)と呼ばれる200次元ほどのベクトルで表現してベクトルの足し引きを行っています。この200次元ほどのベクトル内部に各単語の特徴が格納されていると考えられています。そのため、ベクトルの足し引

    なぜ自然言語処理にとって単語の分散表現は重要なのか? - Qiita
  • 第3回 機械学習のためのベイズ最適化入門|Tech Book Zone Manatee

    応用範囲が広く幅広い視点からの説明になりがちなベイズ最適化について、記事では機械学習のハイパーパラメータ探索に利用することに限定して解説します。 1. はじめに 最近、ベイズ最適化という手法が注目を集めています。 ベイズ最適化 (Bayesian Optimization) とは、形状がわからない関数 (ブラックボックス関数) の最大値 (または最小値) を求めるための手法です。 ベイズ最適化についての入門記事は Web 上にすでにいくつかありますが、ベイズ最適化は応用範囲が広く、入門記事は様々な応用に向けた幅広い視点からの説明になりがちです。 記事では、機械学習ユーザに向けて、ベイズ最適化を機械学習のハイパーパラメータ探索に利用することに限定して説明します。 これにより、機械学習に対して、ベイズ最適化がどのように利用できるのかを分かりやすく解説したいと思います。 2. ハイパーパラメ

    第3回 機械学習のためのベイズ最適化入門|Tech Book Zone Manatee
  • Neural networks and deep learning (ニューラルネットワークと深層学習)

    ニューラルネットワークと深層学習 What this book is about On the exercises and problems ニューラルネットワークを用いた手書き文字認識 逆伝播の仕組み ニューラルネットワークの学習の改善 ニューラルネットワークが任意の関数を表現できることの視覚的証明 ニューラルネットワークを訓練するのはなぜ難しいのか 深層学習 Appendix: 知性のある シンプルな アルゴリズムはあるか? Acknowledgements Frequently Asked Questions Sponsors Resources 「ニューラルネットワークと深層学習」は無料のオンライン書籍です。 このでは、次のような内容を扱います。 ニューラルネットワーク:コンピュータに、観測データにもとづいて学習する能力を与える、生物学にヒントを得たプログラミングパラダイム。 深

    Neural networks and deep learning (ニューラルネットワークと深層学習)
  • 電王・Ponanza開発者が語る、理由がわからないけどスゴイ“怠惰な並列化”

    皆さんこんにちは。 私は将棋プログラム「Ponanza」の作者、山一成と申します。Ponanzaは初めてプロ棋士を破った将棋プログラムで、近年最も強い将棋プログラムと言えると思われます。また、2017年もトッププロ棋士の方と対局することが予定されています。Ponazaの改良のための機械学習に現在ジサトライッペイさんのPC「大紅蓮丸」の計算リソースを借りているのですが、その関係で原稿を書いてとお願いされたので、3回に渡って将棋プログラムの今について、書いていきたいと思います。 フリーランチの終焉、並列化の効率問題 アスキー読者の方々には言うまでもないのですが、まずは近年のCPU事情について解説していきたいと思います。ちょっと昔まではCPUはシングルコアが当たり前で18ヶ月経過すればCPUのトランジスター数は倍になり、性能が向上するという流れが続いていました。ソフトウェアはその性能向上に伴い

    電王・Ponanza開発者が語る、理由がわからないけどスゴイ“怠惰な並列化”
  • 機械学習のコースを修了したのでオススメしてみます - Qiita

    Stanford大学のオンライン授業で機械学習のコースを受講していましたが、この度めでたく修了しました。 機械学習をお勉強したい人には強くお勧めできる内容だったのでアウトラインだけ共有しようと思います。 ちなみに受講自体は無料です。 終了証明を取得したい場合はお金かかりますが、完全に自己満なのでどっちでもいいかと思います。 概要 機械学習の世界では知らない人はいない(?)というくらい著名な先生がわかりやすく機械学習の面白いところを教えてくれる動画授業です。 各動画には小テストがあり、自身の理解度を確認しながら進めることができます。 週に1トピックスの内容を学ぶスケジュールでコースは設計されており、1週間分の動画を全て見た後にはoctaveという言語を用いて実際に学んだ内容を実装してみるプログラミング課題を解きます。 動画授業を受けるだけではなく実際に手を動かしてみるので、理解度が上がります

    機械学習のコースを修了したのでオススメしてみます - Qiita
  • 最内ループからはじめる深層学習(waifu2xの高速化)

    概要 経緯 : http://d.hatena.ne.jp/w_o/20150602#1433229756 なんか社内チャットで https://github.com/WL-Amigo/waifu2x-converter-cpp をはやくしろというメッセージを受信したのでやった。 まあそれなりに頑張ったのでまとめておく 今の waifu2x のパラメータ(カーネル3x3、平面数32の倍数)に依存したチューニングをしている部分もあるが、 カーネルサイズが小さいCNNなら同じような考えかたを適用できるのではないかと思う 今の実装の効率はhttp://d.hatena.ne.jp/w_o/20150616#1434392833にあるとおり。 自分では確認できていないが、CUDA版はKeplerが効率悪くて、Fermi、Maxwellなら30〜40%程度の効率らしい。 前提知識 OpenCV が少

  • 最適化超入門

    スライドは、弊社の梅により弊社内の技術勉強会で使用されたものです。 近年注目を集めるアーキテクチャーである「Transformer」の解説スライドとなっております。 "Arithmer Seminar" is weekly held, where professionals from within and outside our company give lectures on their respective expertise. The slides are made by the lecturer from outside our company, and shared here with his/her permission. Arithmer株式会社は東京大学大学院数理科学研究科発の数学の会社です。私達は現代数学を応用して、様々な分野のソリューションに、新しい高度AIシステム

    最適化超入門
  • 可視化で理解するマルコフ連鎖モンテカルロ法(MCMC) - ほくそ笑む

    先日行われた第9回「データ解析のための統計モデリング入門」読書会にて、 「可視化で理解するマルコフ連鎖モンテカルロ法」というタイトルで発表させて頂きました。 発表スライドは以下です。 可視化で理解するマルコフ連鎖モンテカルロ法 from hoxo_m この発表は、みどりぼんに登場する、マルコフ連鎖モンテカルロ法(MCMC)のアルゴリズムである「メトロポリス法」と「ギブス・サンプラー」について、可視化して理解しようというお話です。 「マルコフ連鎖モンテカルロ法」というのは、字面だけ見ると難しそうですが、この発表で理解すべきポイントは、次のスライド 1枚に凝縮されています。 このことを念頭に置いて、それぞれの手法を見ていきましょう。 まず、メトロポリス法ですが、これは、 前の状態の近くの点を次の遷移先候補として選ぶ(マルコフ連鎖) そのときの確率比 r < 1 ならば確率 r で棄却する。それ

    可視化で理解するマルコフ連鎖モンテカルロ法(MCMC) - ほくそ笑む
  • BLOG::broomie.net: 無料でよめる機械学習・自然言語処理の教科書

    夏いですね.最近この手の記事ばかりで大変恐縮ですが,機械学習に関するウェブ上で手に入る無料のテキストが紹介されていたので,共有したいと思います.ほとんどは以前に僕が紹介している(時々更新しています)「機械学習・自然言語処理のリソースリンク集」に入っているのですが,改めて紹介いたします.おそらく,他ブログでも紹介しているようにも思えますが,このサイトの紹介がてら引用させていただこうと思います. MetaOptimize / 最近ちょっと話題になっている「MetaOptimize /」という機械学習のサイトのQ&Aで紹介されていました.まじめに見ていなかったのですが,このサイト非常に有用でおもしろいですね. 特に同サイトの「qa」はかなり有用かと思いました. フリーの機械学習テキスト 話を戻しますと,興味深いQuestionsがたくさんあるのですが,今回注目したのは「Good Freely A

  • これからはじめる人のための機械学習の教科書まとめ - EchizenBlog-Zwei

    最近では企業における機械学習の認知度も高まっていてエンジニアの求人募集でも「望ましいスキル:機械学習」というのをよく見かける。特にweb系の企業だと当たり前のように機械学習を活用した魅力的なサービスが生み出されているようだ。 そんなわけで先日書いた機械学習の入門記事もそれなりに好評で末尾の教科書リストも結構参考にしていただいた様子。ということで、これから機械学習をはじめる人のためにオススメの教科書を10冊ほどピックアップしてみた。 幸いにして機械学習の分野には良書が多い。5年前はナイーブベイズすら知らなかった私も、これらの教科書のおかげでなんとか機械学習を使えるようになりました!(個人の体験談です。効果には個人差があります) 参考: 機械学習超入門 〜そろそろナイーブベイズについてひとこと言っておくか〜 - EchizenBlog-Zwei 最初に既存の機械学習の教科書まとめを挙げておくの

    これからはじめる人のための機械学習の教科書まとめ - EchizenBlog-Zwei
  • 「入門 機械学習」を献本していただきました - EchizenBlog-Zwei

    「入門機械学習」を献していただきました。ありがとうございました。 というわけで早速読み終わったので感想を書いておく。 機械学習の入門書ではない 書はタイトルから連想されるような機械学習に入門するような内容は書かれていない。一切数式は登場せずアルゴリズムはすべてブラックボックス化されている。では書はダメななのかというとそんなことは全くない。少なくとも「入門 機械学習」というタイトルに興味をもって書を手にとった人にとっては大変有益なだと思う。 大きなデータを扱って何かしたい人が最初に読むべき 繰り返すが書は機械学習の仕組みについては書いていない。仕組みはブラックボックスとして割り切ることで従来の機械学習の入門書が触れていない部分を非常に大きく扱っている。それは何かというと「汚いデータからどうやって機械学習の入力データを作るか」「機械学習の手法をどのように選択するか」「機械学習

    「入門 機械学習」を献本していただきました - EchizenBlog-Zwei
  • PRML の読む章・飛ばす章(私家版) - 木曜不足

    機械学習の定番教科書の1つと言われ、各地で読書会が開かれる「パターン認識と機械学習」(PRML)。読み解くにはある程度の解析と線形代数の知識が必要なため、数学が苦手な学生さんや××年ぶりに数式を目にしたというエンジニアたちを次々と「式変形できない……」という奈落に叩き込んでいるという。 サイボウズ・ラボの社内 PRML 読書会でもその現象が発生。見かねた同僚の光成さんが PRML で使われている数学の解説だけではなく、PRML の中で省略されている式変形の過程も含めて書き下したメモ(社内通称:アンチョコ)が暗黒通信団から「機械学習とパターン認識の学習」という同人誌として出版され、全国のジュンク堂で購入可能となるとちょっとしたムーブメントががが。 現在はアマゾンでも購入可能となっているが、もともとのアンチョコも PDF で無料公開(CC-BY ライセンス)されているので、紙のでないと勉強す

    PRML の読む章・飛ばす章(私家版) - 木曜不足
  • 1