laughingのブックマーク - はてなブックマーク

表形式データにニューラルネットを用いる研究について - お勉強メモ

昔からある話ですが、Google CloudからAutoML Tablesが発表される等、表形式データにニューラルネットを用いることの障壁は日々低くなっているように感じられます。 LightGBM開発者によるDeepGBMが話題になる等、研究においても特に決定木を意識したアプローチが（局所的に）盛り上がっているようなのでリンク集を作ってみました。論文リスト CTR予測にNNを用いる研究は数多くあるので、次のような特徴を持つものに限定します。表形式データに対して、FCNでは精度が出しにくい一方でGBDTが実績を挙げているというモチベーションヘヴィサイド関数的なもの（tanhが多そう）で分岐を表現する 2を積むことで決定木らしい形にするショートカットを導入することで加法木らしい性質を持たせる Higgs等で数値実験をする以下に挙げているようにICLR 2020へ3本ほどこのような分野

laughing 2019/11/03

あとで読む

リンク

Ryzenマシン組んだのでXGBoostのGPU版やってみた - お勉強メモ

Ryzen 7 1700とGTX 1080 Tiでマシンを組んだので、動作確認がてらXGBoostのGPU版を使ってみました。タイムラインでそういう話題があったのでネタをパクったような形になってしまいましたが、私自身前からやってみたいと思っていたテーマであり、H2O.aiが最近担いでいる話でもあるので許して頂きたい。構成 Ryzen 7 1700 (3.7GHz 8core/16thread) GTX 1080 Ti FOUNDERS EDITION (1582MHz 11GB) 今のところ定格で動かしてます。記事と前後してしまいますが、Deep Learning以外の機械学習アルゴリズムもGPUで気軽に計算を高速化できるような予感があったのでCPUはケチりました。将来GPUを追加する際の資金の足しにしたい。インストール公式のドキュメント私はUbuntuの環境でmakeを使っ

laughing 2017/06/12

あとで読む

リンク

勾配ブースティング落穂拾い - 木の構築について - お勉強メモ

このシリーズについて XGBoost芸人を自称してちょこちょこ活動をしてきたのですが、最近になって自分の理解の甘さを痛感するようになりました。気になった箇所を散発的に復習しているのですが、その成果を備忘録として残しておこうと思います。今のところ体系的にまとめるつもりはないので、これを読んでも勾配ブースティングの全体像はつかめませんので悪しからず。今回のテーマ以外にはマルチクラス分類の際の挙動等に関心を持っています。木の構築について勾配ブースティングでは回目のイテレーションで誤差の勾配を上手く表現した木を構築します。この部分の処理についてscikit-learnとXGBoostでの違いを確認します。 scikit-learn カステラ本に準拠した処理になっています。勾配の計算はとなり、これを各サンプルのラベル扱いにして DecisionTreeRegressor に投げま

laughing 2017/03/21

あとで読む

リンク

MXNetでmulti-input/multi-output - お勉強メモ

皆さんMXNet使っていますか？年度初に著名データサイエンティストの記事が相次いで盛り上がった感がありましたが、もうChainerなりTensorFlowなりに移ってしまったのでしょうか… MXNetはDeep Learningフレームワークの比較でドキュメントが弱いことをよく指摘されてるので、1ユーザとして草の根でお役立ち情報を発信していきたいです。やりたいこと形式の異なる複数のデータを入力として、複数の値を出力するモデルを学習したい。*1 Keras: Functional APIなるものを使って実現できるそうです。 Functional APIのガイド - Keras Documentation Chainer: サポートされている模様。手続き的なフレームワークだと関数に通すだけなので難しいことは少なそう。 Google グループ TensorFlow: サポートされていない模