[B! *algorithm][*program][python] [7ページ] sh19910711のブックマーク

sh19910711 id:sh19910711

algorithmとprogramとpythonに関するsh19910711のブックマーク (240)

BERT（Keras BERT）を使用した文章分類を学習から予測まで紹介！ | cloud.config Tech Blog
概要絶賛フロントエンド勉強中の井上です。今回は自然言語処理界隈で有名なBERTを用いた文書分類（カテゴリー分類）について学習（ファインチューニング）から予測までを紹介したいと思います。本記事では実装ベースでお話しするので、「そもそもBERTって何？」という方は検索するか、参考URLを載せておくのでそこから飛んでいただけると助かります。目次事前準備学習評価予測参考文献事前準備 Google Colaboratory 学習は膨大な計算量が必要なので、Google Colaboratoryを使用します https://colab.research.google.com/notebooks/welcome.ipynb?hl=ja 無料でTPU（Tensor Processing Unit）が使えるのでお得！ googleさんありがとうございます TPUはIntelのHaswellと
sh19910711 2020/08/22
tutorial

*algorithm

機械学習

*program

python
リンク
自動要約プログラムshucaを使ってニ郎コピペを要約した - soy-curd's blog
はじめに 2chまとめを読んでいたら、"長い"みたいなレスを投げられていた二郎コピペがあった。せっかく名文なのに長いの一言で一蹴されては報われないので、日本語の自動要約をしてくれるshucaを用いて短く要約してみた。 shucaとは? github.com python2系で動く自動要約プログラム。shuca単体では動作せず、他に京大で開発されているjuman（形態素解析プログラム）とknp（構文解析プログラム）が必要。実際に要約してみるまずはコピペを以下から拾ってくる。 fullopen.blog.jp ■その50 今日、ついに二郎デビューしたんでレポっす！川崎店に行ったらすごい行列でまずびっくり！すっげえな！と思って店の中を見て、みんなが食ってるラーメンのボリュームを見てまたびっくり！これが二郎・・・と、思わずヨダレが出る。待つ事２０分、やっと席につくことができた。「ヤ
sh19910711 2020/06/20
hitoshin/shuca

*algorithm

NLP

*program

python
リンク
catboostの推論の仕組みを理解する (1/2)｜Yotaro Katayama
この記事の目的catboostというライブラリがあります。GBDT(Gradient Boosting Decesion Tree )という決定木をアンサンブルする方式の識別モデルを学習するものです。同様のライブラリは他にはXGBoostやLightGBMなどが有名です。 GBDTって何やっているの？というのは以下のXGBoostのドキュメントの画像がわかりやすいです。要は、複数の決定木が存在していて、その結果をあわせて結果を決定（アンサンブル）しているわけです。学習に応じて徐々に木を追加していくのですが、どうやって新しい木を追加していくかのやり方に、「Gradient Boosting」という手法を使っている、というイメージです。catboostは、カテゴリカル変数の扱いに新しい手法を導入していて、論文にもなっています。catboostの"cat"はcatgoryの"cat"なのですね（
sh19910711 2020/05/02
*algorithm

機械学習

*program

python
リンク
【Th778】คาสิโนออนไลน์ที่น่าเชื่อถือและน่าเชื่อถือที่สุดของประเทศไทย
sh19910711 2020/03/20
*algorithm

機械学習

*program

python
リンク
GitHub - aws/sagemaker-mxnet-inference-toolkit: Toolkit for allowing inference and serving with MXNet in SageMaker. Dockerfiles used for building SageMaker MXNet Containers are at https://github.com/aws/deep-learning-containers.
sh19910711 2020/03/01
おっ

*algorithm

機械学習

*program

python
リンク
データとfitだけで始めるAutoML - AutoGluon使ってみた - - Qiita
本日MXNet公式でアナウンスがあったばかりのAutoGluonを早速使ってこの記事を書きました。これは普通のHyperparameter Optimizationには止まらない，Feature EngineeringやModel Selectionまで含む，いわゆる「全てお任せ」のAutoMLライブラリです。中のコードはMXNet主体ですが，AutoGluonで全て隠蔽されているので，実際MXNetを使ったことがなくても問題なく利用できます。（For Pytorch Userというのがある通りPythonコードを書けばPytorchなどでも利用できる様です。念のため。）今回は速報的に公式のチュートリアルを追ってみたいと思います。公式Tweetは以下。 AutoGluon, a new open source toolkit from @awscloud based on #MXN
sh19910711 2020/03/01
*algorithm

機械学習

*program

python
リンク
機械学習未経験者も良いモデルを作れるAutoGluonで「テーブルデータの解析」をやってみた - Taste of Tech Topics
こんにちは。 @tereka114です。最近はCA x atma杯に参加するなどバタバタしておりましたが、少しずつ落ち着いてきました。今回、AutoGluonと呼ばれるツールを使ってテーブルデータに挑戦してみました。 AutoGluonについて AutoGluonは簡単に拡張、利用ができる自動機械学習のライブラリです。前処理、ハイパーパラメータのチューニング、モデル選定、或いはアンサンブルといった機械学習のモデリングを自動化できます。これにより、機械学習に詳しくない人も簡単に精度が高いモデルの作成ができます。 autogluon.mxnet.io AutoGluonはテーブルデータの分類・回帰、画像分類、文書分類、物体検出、そして、ニューラルネットワークのアーキテクチャの自動構成を行うNAS（＝Neural Architecture Search）に対応しています。今回は、テーブ
sh19910711 2020/03/01
*algorithm

機械学習

*program

python
リンク
mxnetでの最初のLSTM – my投資道への道
FXのデータで研究を始めてみたものの、全く収束する気配がありません。もしかしたらLSTMの使い方を間違っているのかも？確認のため簡単なシミュレーションデータで実装してみました。データはよく使われるsin波（に少し手を加えたもの）です。簡単なLSTMモデルの定義 loss = gloss.L2Loss()　# 損失関数 ### sequentilalモデルを作ってもよいけれど、これでいく！ class RNNModel(nn.Block): def __init__(self, rnn_layer, **kwargs): super(RNNModel, self).__init__(**kwargs) self.rnn = rnn_layer self.dense = nn.Dense(1) def forward(self, inputs, state): X=inputs Y,
sh19910711 2020/03/01
*algorithm

機械学習

*program

python
リンク
再訪scikit-learn - Qiita
scikit-learnの便利なAPIについて，新しく知ったことをメモする． $HOME/Desktop/memo.mdにメモを書き溜めていたが誤ってrmしてしまったのでQiitaを使ってみる．新しく学びを得たら随時追加していく．（間違いがあったらご指摘頂けると幸いです．どうかよろしくお願いします．）データの前処理ライブラリの Preprocessing モジュールには神が宿っており， import する際にはコミッターに感謝を捧げる必要がある．素性の次元削減 k個の素性を選択する． SelectKBestの第一引数は関数でchi2のほかにもf_classifなどが使える．素性の次元削減には他にも RFECV などがあるけれど，どう違うのかよく分かっていないので今後調べたい．
sh19910711 2020/01/25
*algorithm

機械学習

*program

python
リンク
Python: Target Encoding のやり方について - CUBE SUGAR CONTAINER
データ分析コンペでは Target Encoding という特徴量抽出の手法が用いられることがある。 Target Encoding では、一般的に説明変数に含まれるカテゴリ変数と目的変数を元にして特徴量を作り出す。データによっては強力な反面、目的変数をエンコードに用いるためリークも生じやすく扱いが難しい。今回は、そんな Target Encoding のやり方にもいくつか種類があることを知ったので紹介してみる。元ネタは CatBoost の論文から。 CatBoost: unbiased boosting with categorical features (PDF) 使った環境は次の通り。 $ sw_vers ProductName: Mac OS X ProductVersion: 10.14.6 BuildVersion: 18G103 $ python -V Python
sh19910711 2019/11/10
*algorithm

機械学習

*program

python
リンク
ChainerでDQN。強化学習を三目並べでいろいろ試してみた。（Deep Q Network、Q-Learning、モンテカルロ） - Qiita
初めてのQiita投稿です。Ridge-iという会社で機械学習を中心としたコンサル～開発をしてます。強化学習について教える機会が出てきたので、三目並べをベースにモンテカルロ Q-Learning Deep Q Network (いわゆるDQN) についてJupyter（ipython) で実装して教材を作りました。ちなみに強いプレーヤー同士ならば、ドローだけが繰り返されるはずです。（WarGameの有名なやつですね。）結論としてはモンテカルロ　実装簡単。100回試行位でほぼ負けなし（50回くらいだと時々負ける） Q-Learning 　更新式の設計に気を遣う。３目並べ程度なら10万対戦で最強 Deep Q Network 色々な落とし穴が多数。最適なトポロジーがわからん。Leaky Reluにするまで最弱。教え方ミスると何も学習しない。などなど Q-Learningまでの実装は1
sh19910711 2019/10/05
*algorithm

機械学習

*program

python
リンク
生TensorFlow七転八倒記(8)：YouTubeのコメントデータセットをTF-Hub embeddingで特徴量変換してスパム判定してみる - 渋谷駅前で働くデータサイエンティストのブログ
せっかくの週末にもかかわらず台風が来てしまい、テニスも出来なければ街歩きも出来ず暇を極めることになってしまったので、UCI ML repositoryを眺めていて見つけた適当なデータセットに対してTensorFlowで遊ぶということをしてみました。基本的にはこのシリーズの前回の記事の続きです。データセット UCI Machine Learning Repository: YouTube Spam Collection Data Set 用いたデータセットはこちら。YouTubeの5種類の動画についたコメントに対して、スパムか否かのタグ付けがされたものです。一つ一つの動画に対するサンプルサイズだけでは小さ過ぎるので、手元で1つにまとめた上で、不具合のあった2行*1を削除したものを用意しました。分類器やることは簡単で、TF-Hubのpre-trained modelでコメント欄の内容を
sh19910711 2019/09/30
*algorithm

機械学習

*program

python
リンク
決定木の可視化ライブラリ「dtreeviz」が凄かったのでまとめる - St_Hakky’s blog
こんにちは。決定木の可視化といえば、正直scikit-learnとgraphvizを使うやつしかやったことがなかったのですが、先日以下の記事をみて衝撃を受けました。そこで今回は、以下の解説記事中で紹介されていたライブラリ「dtreeviz」についてまとめます。 explained.ai dtreevizの概要 dtreevizとはより良い決定木の可視化を目指して作られたライブラリです。解説記事 : How to visualize decision trees Github : GitHub - parrt/dtreeviz: A python machine learning library for structured data. Sample Imagesdtreeviz/testing/samples at master · parrt/dtreeviz · GitHub 多
sh19910711 2019/09/30
*algorithm

機械学習

*program

python
リンク
KerasによるGraph Convolutional Networks
Principal Curve 入門 (日, 29 9月 2019) >> 続きを読む Matplotlibで散布図をラスタライズしてpdf/svg形式で高速に表示できるようにする (Fri, 13 Sep 2019) >> 続きを読む RGBからXYZ, LMS色空間への変換 (Sun, 25 Aug 2019) >> 続きを読む疫学基礎 (Thu, 25 Jul 2019) >> 続きを読むコンパートメントモデル(薬物動態)のシミュレーション (Mon, 08 Jul 2019) >> 続きを読む
sh19910711 2019/09/30
"グラフに畳み込み演算適用できなくね→適用できるようなデータ空間に写像すればよくね→畳み込みした後、元のデータ空間に逆写像すればよくね→この一連の流れを「Graph Convolution」って呼ぼうぜ"

*algorithm

機械学習
リンク
Pytorch-BigGraphによるWikipedia日本語記事のグラフ埋め込み - Sansan Tech Blog
こんにちは、DSOC R&Dグループ研究員の奥田です。最近はYouTubeでコーギーの動画ばかり見ているのですが、あの食パンみたいなお尻が最高です。今回は大規模グラフに対するグラフ埋め込み（Graph Embedding）を計算するPytorch-BigGraphについて紹介いたします。また、記事の後半ではWikipediaの実データを対象に、約200万ノード1億エッジという大規模グラフに対するグラフ埋め込みの計算や類似記事検索の結果などをご報告できればと思います。概要グラフ埋め込みグラフ埋め込みとは、ノードとエッジから構成されたグラフ構造から、ノードの埋め込み表現を得るための手法やその表現自体のことを指します。直感的には、自然言語処理における単語埋め込み（Word Embedding）のグラフ版だと考えると理解しやすいかもしれません。単語埋め込みにおいては、ある単語の意味は
sh19910711 2019/09/28
facebookresearch/PyTorch-BigGraph

*algorithm

機械学習

rep

*program

python
リンク
Bokehで決定木の対話的可視化 - インテリになりたい
scikit-learnの決定木をjupyter notebook上で対話的に可視化できるようにしてみた背景決定木の可視化機械学習モデルを人が理解できるようにする技術に興味を持っています．特に決定木は皆さん大好きな勾配ブースティング木 (GBM) の一要素でもあり，決定木を人が理解できるように可視化することには価値があります．機械学習モデルの中では決定木は人が理解しやすい（解釈可能性が高い）モデルと言われており，例えばscikit-learnではgraphvizやmatplotlibで可視化することができます． www.haya-programming.com ただしこの可視化は分岐条件がテキストで書かれていて直感的な理解がしにくく，見た目もちょっとイケてないと感じます．これに対してpythonではdtreevizという素晴らしい決定木可視化パッケージが公開されています．
sh19910711 2019/09/15
*algorithm

機械学習

*program

python
リンク
学習済み分散表現をTensorBoardで可視化する (gensim/PyTorch/tensorboardX)
word2vecや系列モデル等で学習した分散表現の埋め込みベクトル（word embeddings）は、単語の意味をベクトル空間上で表現することが可能です。最も有名な例では「King - Man + Woman = Queen」のように意味としての加算や減算がベクトル計算で類推可能なこともあり、ベクトル空間の解釈として低次元へ写像する形で分散表現の可視化が行われています。可視化の際に用いられるツールとしては、TensorFlowのツールの一つであるTensorBoardが、豊富な機能とインタラクティブな操作性を備えていて一番使い勝手が良いと思います。ただ、TensorFlowと組み合わせた可視化は容易なのですが、他のツールやパッケージで作成したコードをそのまま読み込めないなど、かゆいところに手が届かないと感じる部分もあります。そこで今回は、すでに学習された単語の分散表現を可視化するため
sh19910711 2019/08/31
*algorithm

機械学習

*program

python
リンク
ピープルカウンタを考えてみる(1) - みらいテックラボ
Code for Naraがらみで, 施設に出入りする人のカウント及びそのデータ分析などの実証実験を, とある場所(ヒ・ミ・ツ!!)の施設管理者に提案しようという話が持ち上がっている. 関連記事：・ピーブルカウンタを考えてみる(1) ・ピープルカウンタを考えてみる(2) ・ピープルカウンタを考えてみる(3) ・ピープルカウンタを考えてみる(4) ・ピープルカウンタを考えてみる(5) ・ピープルカウンタを考えてみる(6) ・ピープルカウンタを考えてみる(7) ・ピープルカウンタを考えてみる(8) 1. はじめに施設出入口で通行人をカウントする方法として, ・カメラ映像の解析・赤外線センサ・マットセンサなどいろいろとあるが, 今回カウント方法の1つとしてDepthカメラの距離画像によるカウントを検討している. カメラで撮影した映像データを解析して人のカウントを行う場合, 個人情
sh19910711 2019/08/24
*algorithm

機械学習

*program

python

cv
リンク
自作レコメンドで最適な読書体験をしたい - にほんごのれんしゅう
最適な読書体験をしたいアマゾンなどでレコメンドされる本を上から見ていても読書体験がそんなに良くありません。本の売り上げランキングなどは、大衆に受ける本がほとんどであり、少々独特なセンスを持つ人たちにはそんなに受けが良くないです。結果として現状の解決策がSNSや人づてに聞き及ぶぐらいしかないのとジャケ買いなどがせいぜいですどうあるべきかを考えるとき、仮に他人の本棚を知ることができれば、集合知と機械学習を用いて自分に向いているだろう本をレコメンドさせることができます会社の技術共有会の小話で話した話 Matrix Factorization 2000年台のNetflix Prizeからある伝統的な手法で、シンプルで動作が早く、ユーザが多くアイテムの数がとても多いときに有効な手法です。 DeepLearningでも実装できるし、sklearnなどでも関数が用意されています。コード自分
sh19910711 2019/07/24
scipyのlil_matrix

*algorithm

機械学習

*program

python
リンク
Algorithms with Python / スプレー木
はじめに今回は splay tree (スプレー木、スプレイ木) という二分木を紹介します。今まで説明した AVL 木や赤黒木は二分木をベースにした平衡木で、木のバランスをチェックするための情報を節 (node) に付加し、バランスが崩れたら一定の範囲に収まるように木を修正します。これに対し、1985 年に Sleater 氏と Tarjan 氏が提案したスプレー木はちょっと変わっています。スプレー木は二分木と同じ構造なので、通常の操作 (探索、挿入、削除など) は二分木と同様に行うことができます。スプレー木の特徴は、このあとに行う操作にあります。スプレー木はアクセスした節を木の根 (ルート) に移動します。この方法を Move to Root といいます。たとえば線形探索の場合、後ろにあるデータほど探索に時間がかかります。そこで、探索のたびに見つけたデータを少し前に移動します
sh19910711 2019/07/20
"スプレー木は、データ数を N とすると、複数回アクセスしたときの平均実行時間が log N に比例する / 一回あたり長い時間がかかる処理があったとしても、全体で平均してみると O(log N) になる"

*algorithm

データ構造

*program

python
リンク
前のページ 3 4 5 6 7 8 9 10 11 12 次のページ