第230回CVIM研究発表会 チュートリアルでの「深層学習を用いた三次元点群処理入門」のスライド資料です 図などは各論文から引用しています
第230回CVIM研究発表会 チュートリアルでの「深層学習を用いた三次元点群処理入門」のスライド資料です 図などは各論文から引用しています
AutoMLに関するチュートリアル資料です。主に,ハイパーパラメータ最適化(HPO)とニューラル構造探索(NAS)に関する説明をしています。
本記事では、NVIDIAから発表されているPyTorchでのディープラーニングを高速化するコツ集を紹介します。 【※NEW】22年6月新記事:スクラム関連の研修・資格のまとめ & おすすめの研修受講方法 本記事について 本記事は、NVIDIAのArun Mallyaさんの発表、 「PyTorch Performance Tuning Guide - Szymon Migacz, NVIDIA」 に、説明やプログラムを追加して、解説します。 本記事のポイントは、Andrej KarpathyがTwitterで呟いている通りとなります。 good quick tutorial on optimizing your PyTorch code ⏲️: https://t.co/7CIDWfrI0J quick summary: pic.twitter.com/6J1SJcWJsl — Andrej
はじめに 初めまして。ZENKIGENデータサイエンスチームのはまなすです。正式な所属はDeNAデータ本部AI技術開発部なのですが[1]、業務委託という形で今年度から深層学習系の開発等に携わっています。 深層学習界隈では、2017年に衝撃的なタイトル(Attention Is All You Need)の論文が発表されてから早5年半、元出自の機械翻訳タスクを大きく越えて、Transformer関連の技術が様々な領域で用いられる汎用アーキテクチャとして目覚ましく発展し続けています。 今回はそんなTransformerが現時点までにどのように活用されてきたか、また、どのように工夫されてきたかをざっくりと俯瞰し、流れをおさらいする目的の記事になります。本記事の大枠は、2021年時点でのサーベイ論文である A Survey of Transformers に倣いつつ、適宜、2023年2月上旬現在ま
MIT researchers found that massive neural network models that are similar to large language models are capable of containing smaller linear models inside their hidden layers, which the large models could train to complete a new task using simple learning algorithms. Large language models like OpenAI’s GPT-3 are massive neural networks that can generate human-like text, from poetry to programming c
今回も PyTorch に関する記事です。 この記事では、requires_grad、zero_gradなどについて説明します。 私自身も勉強中ということもあり間違い等あるかもしれません。その際は Twitter などで教えてください。 requires_grad とは【学び直し】Pytorch の基本と MLP で MNIST の分類・可視化の実装までで紹介したように、requires_gradは自動微分を行うためのフラグです。 単純に tensor を定義した場合はデフォルトで False になっています。 x = torch.ones([3, 32, 32]) x.requires_grad # >>> False一方で、ネットワークを定義した場合のパラメータはデフォルトでrequires_grad=Trueです。 意外とこれを知らずにわざわざ学習時にrequires_grad=Tr
海野です。 先日会社の論文読み会で、ICML2014のMaking the Most of Bag of Words: Sentence Regularization with Alternating Direction Method of Multipliersという論文を紹介しました。さて、この時話題になったのが正則化項をグループ化すると何でグループごと重みが0に潰れるのかという話でした。式を見ても直感的にはわからなかったのですが、得居さんがとてもわかり易い説明をしてくれました。この話、日本語で検索してもあまり出てこないのでちょっと紹介します。 まず、Lassoというのは、正則化項にL1normを使ったいわゆるL1正則化のことで、大部分の重みが0に潰れて疎な解が得られます。 \(\Omega_{\mathrm{lasso}}(\mathbf{w}) = \|\mathbf{w}\|_1
I've been interested in Haskell for about 5 years now. I've been using it professionally for about 3 years. Most of the work I've done so far has been web-related. A large part has been writing web application backends in Haskell. I really enjoy using Haskell as a programming language, but I would like to expand my skill set. When looking to level up, it seems like a lot of Haskellers focus on imp
Nelson Elhage∗, Tristan Hume∗, Catherine Olsson∗, Nicholas Schiefer∗, Tom Henighan, Shauna Kravec, Zac Hatfield-Dodds, Robert Lasenby, Dawn Drain, Carol Chen, Roger Grosse, Sam McCandlish, Jared Kaplan, Dario Amodei, Martin Wattenberg∗,Christopher Olah‡ It would be very convenient if the individual neurons of artificial neural networks corresponded to cleanly interpretable features of the input. F
Tom Henighan∗, Shan Carter∗, Tristan Hume∗, Nelson Elhage∗, Robert Lasenby, Stanislav Fort, Nicholas Schiefer, Christopher Olah‡ In a recent paper , we found that simple neural networks trained on toy tasks often exhibit a phenomenon called superposition , where they represent more features than they have neurons. Our investigation was limited to the infinite-data, underfitting regime. But there's
はじめに(8/3追記) この記事を一旦書いたあと、重要な追加証言が得られたため、追記修正しています。結論もやや変わっていますが、現時点のほうがより正確です。 本編:ここから ディープラーニングが現在これだけ流行っている1つの要因は、TensorFlowやPyTorchなどのフレームワークが非常に便利だからです。ニューラルネットワークの設計、訓練、そして分類などの推論がフレームワークを使えばとても簡単に行なえます。 普通に使っている人達は、これらのフレームワークを『ツール』あるいは『ライブラリ』だとみなしていると思います。でも実際のところ、これらはプログラミング言語です。より正確に言えば、すべてのディープラーニングフレームワークはディープラーニング計算用DSL(Domain-Specific Language、ドメイン特化言語)と見なせます。このDSLは大抵、Pythonなど他の汎用言語への
はい、こんちゃーす(eyden)、Stailerのプロダクト責任者の矢本です。この記事はCEO/創業者という立場ではなく、一人のプロダクトに関わる人間として書いています。この記事の焦点はStailerのエンドユーザーでもある、お客様の”買い物体験”です。 早速ですがこの記事の結論をお伝えします。 スーパーでの買い物体験は多量の”意思決定”で構成されています Stailerはお店の買い物体験を補完するプロダクトです ネットスーパーの買い物体験を支えるのは”検索”と”推薦”という技術です つまり、検索エンジニアや、推薦を支えるMLエンジニア、推薦のアルゴリズムを作る Data Scientist、MLをプロダクト価値に落とし込んでいくテクニカルプロダクトマネージャー、これらを多数の制約からプロダクトデザインへ落とし込むデザイナーも強く募集しています。ここまででピンと来た方は10XのMLエンジニ
卒論のスライドを作るときに、over-parametrizationは凄いんだぞ!みたいな軽い気持ちでいわゆるdouble descentのグラフを載せたところ、専門外の人たちには結構衝撃*1だったようで、卒論の内容じゃなくてこれに関する質問が飛んできた 生憎その時はちゃんと論文を読んでた訳でもなく、最先端の話すぎてキチンと現象が解明されてないこともあって質問にうまく答えられたかは微妙なところだったので、これからはスライドによくわからんものを使うのはやめようと思ったのでした、、、 double descent自体結構興味深くて、この方向の研究も面白そうだなぁ、、、ということで少し読んでみた(相変わらず感想文 Deep Double Descent: Where Bigger Models and More Data Hurt [1912.02292] Deep Double Descent
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く