[B! *algorithm][*program] [10ページ] sh19910711のブックマーク

sh19910711 id:sh19910711

algorithmとprogramに関するsh19910711のブックマーク (381)

Python: Target Encoding のやり方について - CUBE SUGAR CONTAINER
データ分析コンペでは Target Encoding という特徴量抽出の手法が用いられることがある。 Target Encoding では、一般的に説明変数に含まれるカテゴリ変数と目的変数を元にして特徴量を作り出す。データによっては強力な反面、目的変数をエンコードに用いるためリークも生じやすく扱いが難しい。今回は、そんな Target Encoding のやり方にもいくつか種類があることを知ったので紹介してみる。元ネタは CatBoost の論文から。 CatBoost: unbiased boosting with categorical features (PDF) 使った環境は次の通り。 $ sw_vers ProductName: Mac OS X ProductVersion: 10.14.6 BuildVersion: 18G103 $ python -V Python
sh19910711 2019/11/10
*algorithm

機械学習

*program

python
リンク
ChainerでDQN。強化学習を三目並べでいろいろ試してみた。（Deep Q Network、Q-Learning、モンテカルロ） - Qiita
初めてのQiita投稿です。Ridge-iという会社で機械学習を中心としたコンサル～開発をしてます。強化学習について教える機会が出てきたので、三目並べをベースにモンテカルロ Q-Learning Deep Q Network (いわゆるDQN) についてJupyter（ipython) で実装して教材を作りました。ちなみに強いプレーヤー同士ならば、ドローだけが繰り返されるはずです。（WarGameの有名なやつですね。）結論としてはモンテカルロ　実装簡単。100回試行位でほぼ負けなし（50回くらいだと時々負ける） Q-Learning 　更新式の設計に気を遣う。３目並べ程度なら10万対戦で最強 Deep Q Network 色々な落とし穴が多数。最適なトポロジーがわからん。Leaky Reluにするまで最弱。教え方ミスると何も学習しない。などなど Q-Learningまでの実装は1
sh19910711 2019/10/05
*algorithm

機械学習

*program

python
リンク
生TensorFlow七転八倒記(8)：YouTubeのコメントデータセットをTF-Hub embeddingで特徴量変換してスパム判定してみる - 渋谷駅前で働くデータサイエンティストのブログ
せっかくの週末にもかかわらず台風が来てしまい、テニスも出来なければ街歩きも出来ず暇を極めることになってしまったので、UCI ML repositoryを眺めていて見つけた適当なデータセットに対してTensorFlowで遊ぶということをしてみました。基本的にはこのシリーズの前回の記事の続きです。データセット UCI Machine Learning Repository: YouTube Spam Collection Data Set 用いたデータセットはこちら。YouTubeの5種類の動画についたコメントに対して、スパムか否かのタグ付けがされたものです。一つ一つの動画に対するサンプルサイズだけでは小さ過ぎるので、手元で1つにまとめた上で、不具合のあった2行*1を削除したものを用意しました。分類器やることは簡単で、TF-Hubのpre-trained modelでコメント欄の内容を
sh19910711 2019/09/30
*algorithm

機械学習

*program

python
リンク
決定木の可視化ライブラリ「dtreeviz」が凄かったのでまとめる - St_Hakky’s blog
こんにちは。決定木の可視化といえば、正直scikit-learnとgraphvizを使うやつしかやったことがなかったのですが、先日以下の記事をみて衝撃を受けました。そこで今回は、以下の解説記事中で紹介されていたライブラリ「dtreeviz」についてまとめます。 explained.ai dtreevizの概要 dtreevizとはより良い決定木の可視化を目指して作られたライブラリです。解説記事 : How to visualize decision trees Github : GitHub - parrt/dtreeviz: A python machine learning library for structured data. Sample Imagesdtreeviz/testing/samples at master · parrt/dtreeviz · GitHub 多
sh19910711 2019/09/30
*algorithm

機械学習

*program

python
リンク
KerasによるGraph Convolutional Networks
Principal Curve 入門 (日, 29 9月 2019) >> 続きを読む Matplotlibで散布図をラスタライズしてpdf/svg形式で高速に表示できるようにする (Fri, 13 Sep 2019) >> 続きを読む RGBからXYZ, LMS色空間への変換 (Sun, 25 Aug 2019) >> 続きを読む疫学基礎 (Thu, 25 Jul 2019) >> 続きを読むコンパートメントモデル(薬物動態)のシミュレーション (Mon, 08 Jul 2019) >> 続きを読む
sh19910711 2019/09/30
"グラフに畳み込み演算適用できなくね→適用できるようなデータ空間に写像すればよくね→畳み込みした後、元のデータ空間に逆写像すればよくね→この一連の流れを「Graph Convolution」って呼ぼうぜ"

*algorithm

機械学習
リンク
Pytorch-BigGraphによるWikipedia日本語記事のグラフ埋め込み - Sansan Tech Blog
こんにちは、DSOC R&Dグループ研究員の奥田です。最近はYouTubeでコーギーの動画ばかり見ているのですが、あの食パンみたいなお尻が最高です。今回は大規模グラフに対するグラフ埋め込み（Graph Embedding）を計算するPytorch-BigGraphについて紹介いたします。また、記事の後半ではWikipediaの実データを対象に、約200万ノード1億エッジという大規模グラフに対するグラフ埋め込みの計算や類似記事検索の結果などをご報告できればと思います。概要グラフ埋め込みグラフ埋め込みとは、ノードとエッジから構成されたグラフ構造から、ノードの埋め込み表現を得るための手法やその表現自体のことを指します。直感的には、自然言語処理における単語埋め込み（Word Embedding）のグラフ版だと考えると理解しやすいかもしれません。単語埋め込みにおいては、ある単語の意味は
sh19910711 2019/09/28
facebookresearch/PyTorch-BigGraph

*algorithm

機械学習

rep

*program

python
リンク
xgboostで小さいカテゴリもちゃんと分類するテクニック「sample weights」 - Qiita
はじめに今お仕事でカテゴリ分類の予測モデルを構築しています。例えば、ビールのような多ブランド展開をしているような商品において「今Aブランドを好んで飲んでいる人が、半年後はどのブランドを飲んでいそうか？」ということを当てるようなことをやっています。で、この予測モデル、ただ単に精度が高ければ良いわけではなく「マイナーなブランドの分類精度もある程度担保してほしい」というビジネス上のオーダーがありました。不均衡データでそのまま分類モデルを作ると、どうしてもメジャーなブランドへの予測確率が高くなるように予測されやすくなるので、それは避けてほしい、ということでした。手法はあまり複雑なことや色々な手法を試している暇が無いので、コンペでお馴染みのxgboostでやるとして、その際に上記のオーダーを満たすために使っているテクニックとして「sample weights」を使用しています。実際のkagg
sh19910711 2019/09/22
*algorithm

機械学習

*program

R言語
リンク
Bokehで決定木の対話的可視化 - インテリになりたい
scikit-learnの決定木をjupyter notebook上で対話的に可視化できるようにしてみた背景決定木の可視化機械学習モデルを人が理解できるようにする技術に興味を持っています．特に決定木は皆さん大好きな勾配ブースティング木 (GBM) の一要素でもあり，決定木を人が理解できるように可視化することには価値があります．機械学習モデルの中では決定木は人が理解しやすい（解釈可能性が高い）モデルと言われており，例えばscikit-learnではgraphvizやmatplotlibで可視化することができます． www.haya-programming.com ただしこの可視化は分岐条件がテキストで書かれていて直感的な理解がしにくく，見た目もちょっとイケてないと感じます．これに対してpythonではdtreevizという素晴らしい決定木可視化パッケージが公開されています．
sh19910711 2019/09/15
*algorithm

機械学習

*program

python
リンク
学習済み分散表現をTensorBoardで可視化する (gensim/PyTorch/tensorboardX)
word2vecや系列モデル等で学習した分散表現の埋め込みベクトル（word embeddings）は、単語の意味をベクトル空間上で表現することが可能です。最も有名な例では「King - Man + Woman = Queen」のように意味としての加算や減算がベクトル計算で類推可能なこともあり、ベクトル空間の解釈として低次元へ写像する形で分散表現の可視化が行われています。可視化の際に用いられるツールとしては、TensorFlowのツールの一つであるTensorBoardが、豊富な機能とインタラクティブな操作性を備えていて一番使い勝手が良いと思います。ただ、TensorFlowと組み合わせた可視化は容易なのですが、他のツールやパッケージで作成したコードをそのまま読み込めないなど、かゆいところに手が届かないと感じる部分もあります。そこで今回は、すでに学習された単語の分散表現を可視化するため
sh19910711 2019/08/31
*algorithm

機械学習

*program

python
リンク
Alloyで次数が一定のグラフを探す - 檜山正幸のキマイラ飼育記 (はてなBlog)
ソフトウェアの抽象モデリングとは、なーんか趣旨と方向性が違うんですが、Alloyを“有限構造の検索装置”として使って遊んでます。エイトクイーンのような問題だと、Alloy付属の標準ビジュアライザーの表示はあまり役に立ちません。ビジュアラザーの表示がそのまま使える例題は何かな？と考えて、グラフの検索問題ならハマるだろうと。ループ辺（同じ頂点に戻る辺）を許さない無向グラフのなかで、すべての頂点の次数（その頂点と接続している辺の数）が同じようなグラフを探すことにします。グラフの定義はAlloyと相性が良いので簡単に書けます。 -- 次数が一定のグラフ module uniform_graph -- グラフ（空グラフを除く） some sig Graph { -- お隣さん（adjacent nodes）の集合 adj: set Graph } -- お隣さんの制約 fact { { --
sh19910711 2019/08/27
*algorithm

graph

*program

Alloy
リンク
ピープルカウンタを考えてみる(1) - みらいテックラボ
Code for Naraがらみで, 施設に出入りする人のカウント及びそのデータ分析などの実証実験を, とある場所(ヒ・ミ・ツ!!)の施設管理者に提案しようという話が持ち上がっている. 関連記事：・ピーブルカウンタを考えてみる(1) ・ピープルカウンタを考えてみる(2) ・ピープルカウンタを考えてみる(3) ・ピープルカウンタを考えてみる(4) ・ピープルカウンタを考えてみる(5) ・ピープルカウンタを考えてみる(6) ・ピープルカウンタを考えてみる(7) ・ピープルカウンタを考えてみる(8) 1. はじめに施設出入口で通行人をカウントする方法として, ・カメラ映像の解析・赤外線センサ・マットセンサなどいろいろとあるが, 今回カウント方法の1つとしてDepthカメラの距離画像によるカウントを検討している. カメラで撮影した映像データを解析して人のカウントを行う場合, 個人情
sh19910711 2019/08/24
*algorithm

機械学習

*program

python

cv
リンク
TensorFlow.jsがChromeでWebWorker上でもWebGL backendで動く - すぎゃーんメモ
tensorflow.js は処理の重さ的に worker で動かしたいのだがまだ WebWorker で動かすと cpu backend に fallback してしまうので、この issue ずっとみてる https://t.co/KYGEQSFwq5— 無糖派層 (@mizchi) July 30, 2019 僕も以前にWebWorker上でTensorFlow.jsを使おうとして WebGL backendで動かないことに気付いて諦めていたのだった。 memo.sugyan.com …と思っていたのだけど、どうも先月くらいの @tensorflow/tfjs@1.2.2 あたりから ChromeではOffscreenCanvasというのを使ってWebWorker上でもWebGL backendで動くようになったようだ。試してみたところでは動くのはChromeのみで、Safari
sh19910711 2019/08/04
*algorithm

機械学習

*program

javascript
リンク
自作レコメンドで最適な読書体験をしたい - にほんごのれんしゅう
最適な読書体験をしたいアマゾンなどでレコメンドされる本を上から見ていても読書体験がそんなに良くありません。本の売り上げランキングなどは、大衆に受ける本がほとんどであり、少々独特なセンスを持つ人たちにはそんなに受けが良くないです。結果として現状の解決策がSNSや人づてに聞き及ぶぐらいしかないのとジャケ買いなどがせいぜいですどうあるべきかを考えるとき、仮に他人の本棚を知ることができれば、集合知と機械学習を用いて自分に向いているだろう本をレコメンドさせることができます会社の技術共有会の小話で話した話 Matrix Factorization 2000年台のNetflix Prizeからある伝統的な手法で、シンプルで動作が早く、ユーザが多くアイテムの数がとても多いときに有効な手法です。 DeepLearningでも実装できるし、sklearnなどでも関数が用意されています。コード自分
sh19910711 2019/07/24
scipyのlil_matrix

*algorithm

機械学習

*program

python
リンク
Algorithms with Python / スプレー木
はじめに今回は splay tree (スプレー木、スプレイ木) という二分木を紹介します。今まで説明した AVL 木や赤黒木は二分木をベースにした平衡木で、木のバランスをチェックするための情報を節 (node) に付加し、バランスが崩れたら一定の範囲に収まるように木を修正します。これに対し、1985 年に Sleater 氏と Tarjan 氏が提案したスプレー木はちょっと変わっています。スプレー木は二分木と同じ構造なので、通常の操作 (探索、挿入、削除など) は二分木と同様に行うことができます。スプレー木の特徴は、このあとに行う操作にあります。スプレー木はアクセスした節を木の根 (ルート) に移動します。この方法を Move to Root といいます。たとえば線形探索の場合、後ろにあるデータほど探索に時間がかかります。そこで、探索のたびに見つけたデータを少し前に移動します
sh19910711 2019/07/20
"スプレー木は、データ数を N とすると、複数回アクセスしたときの平均実行時間が log N に比例する / 一回あたり長い時間がかかる処理があったとしても、全体で平均してみると O(log N) になる"

*algorithm

データ構造

*program

python
リンク
逆強化学習を理解する - Qiita
逆強化学習一般的な強化学習では、エージェントが環境からの報酬を得ることで最適な行動を獲得します。しかし現実の問題においては、この報酬を設計することが困難な場合があります。例えば運転技術を獲得する場合、うまい運転というのはただ目的地に速く着くだけでなく、急発進・急ブレーキしない、混んでなさそうな道を選ぶなど実際の報酬関数として考慮しづらい要素が存在します。逆強化学習ではエキスパートによる行動から報酬を推定することによって、このような表現しにくい報酬を求めることができます。逆強化学習の手法この記事では逆強化学習の手法としてよく取り上げられる手法の中で以下の3つについて解説したいと思います。線形計画法を用いた逆強化学習 Maximum Entropy IRL Maximum Entropy Deep IRL マルコフ決定過程(MDP) 逆強化学習に入る前にまずMDPについて説明しま
sh19910711 2019/07/16
*algorithm

機械学習

*program

python
リンク
「樹木モデルとランダムフォレスト－機械学習による分類・予測－」－データマイニングセミナー
「樹木モデルとランダムフォレスト（Tree-based Models and Random Forest）－機械学習による分類・予測－」。 Tree-based Model, Random Forest の入門的な内容です。機械学習・データマイニングセミナー 2010/10/07 。　hamadakoichi 濱田晃一
sh19910711 2019/07/15
*algorithm

機械学習

*program

R言語
リンク
Google Colaboratory で始める Kaggler 生活(データ入手と提出編) - Qiita
Google Colaboratory で Kaggle コンペに参加したいときのデータの入手方法や提出方法についてまとめました。実際の学習を行う部分は省略していますのでご注意ください。記事よりも下記の成果物とリンク見たほうが早いと思います。リンク今回の成果物 | google Chrome 以外のブラウザだとうまく開けない可能性あります https://github.com/Kaggle/kaggle-api https://github.com/google/google-api-python-client Using kaggle datasets into Google Colab - Stack Overflow Kaggle API with Colab | Colab notebook 必要なもの Google アカウント Google Chrome 各手順お好き
sh19910711 2019/07/14
*program

python

*algorithm

機械学習

contest
リンク
LLVMで遊ぶ（整数圧縮とか、x86向けの自動ベクトル化とか）
KMCの例会講座で用いたスライドを一部編集したものです。ビット演算を組み合わせたトリッキーな方法で様々な操作を高速に行う方法を紹介します。
sh19910711 2019/07/13
*data

*algorithm

データ構造

*program

プログラミング言語
リンク
DRAGANでいらすとや画像を生成してみる - 緑茶思考ブログ
DRAGAN arXiv:https://arxiv.org/abs/1705.07215 “How to train your DRAGAN"というタイトルの論文で、変なタイトルだなぁ..と思っていたが、このタイトルの元ネタとして、アメリカの3DCGアニメがあるのを知った。（日本名はヒックとドラゴンというらしい。この名前も初耳） www.youtube.com このDRAGANを使って以下のようないらすとや画像を生成したというのが本記事の主旨。この生成画像は非常に綺麗。この記事自体はお蔵入り予定だったが，本日リリースされたchainerのGANライブラリの中に，決して有名でないDRAGANが入っていて驚き，この記事を公開する意味もなくはないか，と気持ちを改め，これを機に成仏させることにした．この論文の概要 GANでは目的関数がnon-convexなので局所的なナッシュ
sh19910711 2019/07/13
*algorithm

機械学習

*program

python
リンク
機械学習ゴリゴリ派のための数学とPython
2017/7/1 db analytics showcase Sapporoで講演したときの資料です。フルスクラッチから機械学習アルゴリズムの実装をしたい人向けです。
sh19910711 2019/07/13
"数学の知識は大事 / 数値計算の知識も大事 – 数学ができれば学習コストは低い"

*algorithm

機械学習

*program

python

num*
リンク
前のページ 6 7 8 9 10 11 12 13 14 15 次のページ