You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert
Pretrained Foundation Models (PFMs) are regarded as the foundation for various downstream tasks with different data modalities. A PFM (e.g., BERT, ChatGPT, and GPT-4) is trained on large-scale data which provides a reasonable parameter initialization for a wide range of downstream applications. BERT learns bidirectional encoder representations from Transformers, which are trained on large datasets
こんにちは.株式会社Ridge-iの@zawatsky_rと@machinery81です. 本記事ではPruningと呼ばれるニューラルネットワークの軽量化手法を紹介します. TL;DR Pruningとは? Pruning手法の概要 手法の違いのポイント Structure Scoring Scheduling Fine-Tuning Pruningに関する論文の紹介 Unstructured Pruning Structured Pruning 自動モデル圧縮 Amc: AutoML for Model Compressionとその亜種 AutoPruner The Lottery Ticket Hypothesis メタ研究 To Prune, or Not to Prune: Exploring the Efficacy of Pruning for Model Compressi
本日開催されたコンピュータ将棋の大会「電竜戦」で、チームdlshogiのGCTが決勝リーグで優勝しました! コンピュータ将棋の大会でディープラーニングを使用したソフトが優勝するのは初です。 2017年からdlshogiの開発を始めてやっと優勝までたどり着きました。 GCTについて 元々GCTは、加納さんがdlshogiを使用して開発したソフトです。 探索部分はdlshogiで、モデルの学習に使うデータをdlshogiとは別のもので行っています。 今大会では、私とチームで参加して、dlshogiの強化学習のデータや、学習方法、定跡作成方法など共有して、加納さんが主体でモデルの学習・定跡作成をしています。 今回の成果は、私のdlshogi単体では成し遂げたられなかったので、GCTが優勝してくれたことに感謝しています。 チームの経緯 加納さんとは将棋AI開発前からの知り合いで、以前から気楽に情報
著者のDale Markowitz氏はGoogleクラウド部門に所属するGoogle社員で、最近ではGoogle主催の開発者会議Google I/O 2021で「機械学習のよくある問題の発見と解決」というセッションを担当しました。同氏がMediumに投稿した記事『Transformer解説:GPT-3、BERT、T5の背後にあるモデルを理解する』では、現代の言語AIにおける技術的基礎となっているモデルのTransformerが数式を使わずに解説されています。 Transformer以前に自然言語処理で使われていたモデルは、リカレントニューラルネットワーク(Recurrent Neural Network:RNN)でした。このモデルには長い文章を正しく処理するのが難しい、勾配消失問題の影響を受けやすい、そして処理の並列化が難しいためにモデルの大規模化が困難、というみっつの欠点があったため、自
※AMP表示の場合、数式が正しく表示されません。数式を確認する場合は通常表示版をご覧ください ZOZO Researchの斎藤です。私たちはファッションコーディネートの推薦や生成の基礎として、深層集合マッチングという技術を研究しています。本記事では、深層集合マッチングを理解する上で必要な諸概念の説明と、ファッションデータを使った実験結果について紹介します。対象読者としては、機械学習系のエンジニアや学生を想定しています。 集合マッチングとは ある集合が与えられたとき、その集合にもっともマッチする集合を解の候補から選ぶという問題を考えます。 例えばコーディネートを画像集合として捉えると、あるコーディネートの一部分(部分コーデと呼びます)に対して合う部分コーデを選択するという問題設定を考えることができます。 図: ある部分コーデ(左)にマッチする部分コーデを候補(右)の中から1つ選ぶ このような
QMULのBen Hayes氏らが、勾配降下法で周波数推定を行う手法を論文で発表しました。ICASSP2023に投稿したそうです。 きわめてシンプルな手法なのですが、機械学習系音声合成にとってはたいへん重要な成果だと思うので、紹介します。 論文リンク:Sinusoidal Frequency Estimation by Gradient Descent ソースコード:https://github.com/ben-hayes/sinusoidal-gradient-descent 背景:DDSPの限界 DDSP(Differentiable Digital Signal Processing)とは、微分可能な計算式を持つDSPモジュールをDNNに組み込んで機械学習をやる手法で、Google Magentaプロジェクトが最初に打ち出したアイデアです。 今ではもうDDSPシリーズと呼べるほど多様
R&D チームの徳田(@dakuton)です。 今年のGWあたりにCUDAのGPG更新アナウンス(NVIDIA Technical Blog: Updating the CUDA Linux GPG Repository Key)がありました。記載に従い利用環境の反映作業をしてみたところ、特にDockerイメージ向けの反映については記事に触れられていない範囲でのハマリポイントがいくつかあることがわかったため、対策についてまとめておきます。 参考(GitHub issue) NVIDIA/nvidia-docker(Public GPG key error #1631) 影響を受けているプロジェクト例 TensorFlow (Tensorflow docker image has outdated keys #56085) TorchServe (Improvements to docker
ML@Loft #11. 類似画像/テキスト検索 https://ml-loft.connpass.com/event/169623/ 松井 勇佑(東京大学生産技術研究所)http://yusukematsui.me/index_jp.html annbench: https://github.com/matsui528/annbench 画像検索を考える上で近傍探索アルゴリズムの選択は重要ですが難しいです。既存の有名なベンチマーキングライブラリは網羅的ですが実行に十数時間かかるという問題がありました。そこで私は軽量でシンプルなベンチマークのライブラリを作りました。これにより手軽に手法を比較出来ます。是非使ってみてください。
Introducing speech-to-text, text-to-speech, and more for 1,100+ languages Equipping machines with the ability to recognize and produce speech can make information accessible to many more people, including those who rely entirely on voice to access information. However, producing good-quality machine learning models for these tasks requires large amounts of labeled data — in this case, many thousan
アメリカの航空大手、デルタ航空は社員に新型コロナウイルスのワクチン接種を促すため、接種を受けていない社員の医療保険の月額の保険料を2万円余り上乗せすると明らかにしました。 アメリカの航空大手、デルタ航空は25日、エド・バスティアンCEOの社員向けの文書をホームページで公開しました。 それによりますと、社員の新型コロナウイルスワクチンの接種率が75%に達した一方、変異ウイルスの感染が広がっているとして、社員に接種を促すため追加の対策をとるとしています。 具体的には、ことし11月から接種を受けていない社員が会社を通じて加入している医療保険の月額の保険料を200ドル、日本円にしておよそ2万2000円上乗せするということです。 上乗せの理由については新型コロナウイルスの感染による入院の費用など、接種を受けないという判断が会社にもたらす経済的なリスクに対応するためだと説明しています。 アメリカの航空
Attentionは不要!?Google BrainによるTransformer型モデルに対抗できるgMLPを詳細解説! 2021.05.26 AI論文 学術研究, 画像処理, 自然言語処理 はじめに Google Brainが全結合層を基本としたニューラルネットワークがTransformerと同程度の精度を出すことができることを研究で明らかにしました。この結果、NLP(自然言語処理)だけではなく、最近ではCV(画像処理)の分野でもデファクトスタンダードになりつつあったTransformerをベースとしたモデル構成に再考が求められることになります。 なお、今回利用した図はすべて下記論文(「Pay Attention to MLPs」)から引用しております。 ●Transformer系の解説記事 Facebookチームが開発した画像分類にTransformerを利用した効率モデルDeiTを紹
この記事はTensorFlow Advent Calendar 2020、17日目の記事です。この記事ではLLVMコミュニティが中心となって開発しているMLIRという新しいコンパイラ基盤の基本的な使い方を解説します。 MLIRとはMLIRとはコンパイラ基盤となるオープンソースのソフトウェアでその名はMulti-Level Intermediate Representationの頭文字を取ったものです。もともとはGoogleのTensorFlowチームが開発したソフトウェアでLLVM Foundationに2019年に寄贈されました。 コンパイラ基盤としてはLLVMがよく知られていますが、MLIRはLLVMで得られた知見をより抽象的なレベルで実現し、機械学習アプリケーションに代表されるような複雑な数値計算を様々なハードウェア上に最適な形で実行できるようにします。 例えばコンパイラが真に必要な
著者たちによるGitHubにはPoolFormerとして実装されているが、ここでは論文の趣旨を尊重してより抽象的なMetaFormerとして実装し、TokenMixingを変更できるようにしている。 def ChannelMLP(x, mlp_ratio, normalize, drop_path=0.0, prefix='' ): dense_kwargs = { 'kernel_initializer':'he_normal', 'bias_initializer': tf.keras.initializers.RandomNormal(stddev=1e-2), } in_shape = x.shape dim = in_shape[-1] mlp_dim = dim*mlp_ratio shortcut = x # norm x = normalize(x, name = pref
はじめに ↑に貼った動画は話題の高性能ボイスチェンジャー「RVC」の変換例です(Creative Commonsで配布・改変が可能なライセンスの音声データを学習させたものです。BOOTHで無料配布中です)。今回の記事では動画の4つ+1の計5モデルを作成する中で見えてきたRVCの仕組みや使用時・モデル生成時のコツを紹介したいと思います。 BOOTHで学習済みモデル無料配布中(ライセンスはそれぞれ異なり、元データに準拠します) 注意事項 本編に入る前にいくつか前提を明らかにしておきます。私自身、RVCや音声認識についての専門知識はほぼありません。RVCについて初めて知ったのは約2週間前で、そのレベルは初心者の域を出ないと思っていただければと思います。さらに、RVCのモデルであるHuBERTやトランスフォーマーに関する知識もあまりありません(論文もまともに読んでません)。 したがって、この記事の
本記事はThe Illustrated Transformerを和訳した内容になります。引用元はJay Alammarさん(@JayAlammar)が執筆されたブログ記事で,MITの授業でも実際に利用されています。 所々に管理人の注釈が入ります。その場合は,このような鉛筆印のボックス内に記述するようにしています。もし翻訳間違いなどがございましたら,ご指摘いいただけますと幸いです。なお,本記事の作成に関しては,Jay Alammarさんに許可をいただいております。 はじめに 前回の記事では,注意機構についてお伝えしました。注意機構とは,現代の深層学習において至る所で利用されている手法で,ニューラル機械翻訳の精度向上に大きく貢献した概念です。本記事では,注意機構を利用してモデルの学習速度を向上させるTransformerについて見ていきましょう。Transformerは特定のタスクにおいて,G
1.2 なぜDeep Metric Learningにしたか 改善前のモデルでも特徴量を頑張って作れば解決できないことはないとは思います。「地名、ジャンル等に引っ張られて、拠点名指定を無視してしまう」パターンでは、クエリを解釈するロジックを入れ、地名だということを理解して地名部分のみを拠点の住所とマッチングさせて、それ以外を拠点名にマッチングさせて、という具合で特徴量を作れば正解できる可能性があると思います。しかし、これは一例で全体的に精度を上げるにはさまざまなケースを人が考慮して特徴量を作っていく必要があるので大変です。 そこで、学習データ(クエリと正解拠点のペア)が大量にあることを生かして、DNN(Deep Neural Network)がよしなに学習してくれるのに期待しました。また、プロダクト化することを考えると遅くとも数百ミリ秒以内で応答する必要があるので、クエリと拠点側をそれぞれ
「深層学習はその原理的な背景はよくわからない」,「深層学習は計算機の力でぶん殴ってる」,「深層学習は数理的な側面があまり整備されていない」…こういう話をみなさま一度は耳にした事があるのではないでしょうか? こういう課題感に対して,ここ数年で深層学習の理論的な研究への注目度が上がっている気がします.今回は,深層学習を支える(かもしれない)ここ数年で特に注目を浴びた理論について紹介します. はじめに Advent Calendarな皆様,こんにちはこんばんはおはようございます.クロステック開発部に所属している田中と申します.昨年度は先進技術研究所でAdvent Calendarをひっそりと書いていましたが,先進技術研究所とサービスイノベーション部と5Gイノベーション推進室を跨いだ組織再編があり,クロステック開発部に異動となりまして,今年はR&Dの3部署(クロステック開発部・サービスイノベーショ
*As of August, 2021 code is no longer maintained. It is preserved here in archival form for people who wish to continue to use it. 🎉 1T or bust my dudes 🎉 An implementation of model & data parallel GPT3-like models using the mesh-tensorflow library. If you're just here to play with our pre-trained models, we strongly recommend you try out the HuggingFace Transformer integration. Training and inf
ニューラルネットワークの構造を自動的に探索するNAS(ニューラル構造探索:Neural Architecture Search)。AI研究者の清水亮氏が、人工生命(A-Life)における遺伝的アルゴリズムにおいても、ニューラル構造探索が有効かどうかを検証した。 by Ryo Shimizu2023.01.13 15 15 最近、世の中のAI研究の流れが、急激にNAS(Neural Architecture Search)、つまり「ニューラル構造探索」に傾いているように感じる。 これまで、AIの、特にディープラーニングで用いられるニューラルネットの研究と言えば、研究者自らがニューラルネットの構造を設計し、実験しながらその性能や意味を確かめていた。 ディープラーニング以前のAIの画像認識アルゴリズムの場合は、それに加えて、人間の研究者が「特徴量」と呼ばれる量、つまり画像のどの部分を特徴としてと
Recent work has demonstrated substantial gains on many NLP tasks and benchmarks by pre-training on a large corpus of text followed by fine-tuning on a specific task. While typically task-agnostic in architecture, this method still requires task-specific fine-tuning datasets of thousands or tens of thousands of examples. By contrast, humans can generally perform a new language task from only a few
Date: July 11, 2021 | Estimated Reading Time: 32 min | Author: Lilian Weng [Updated on 2021-09-19: Highly recommend this blog post on score-based generative modeling by Yang Song (author of several key papers in the references)]. [Updated on 2022-08-27: Added classifier-free guidance, GLIDE, unCLIP and Imagen. [Updated on 2022-08-31: Added latent diffusion model. [Updated on 2024-04-13: Added prog
キカガク機械学習講師の船蔵颯です!本記事では、深層学習の基盤技術ともいえる Transformer について解説します。 ChatGPT が発表され、言語モデル GPT をベースとしたサービスが非常に身近なものとなってきています。多くの大規模言語モデルがその中核として採用している機構が Transformer です。また、BERT (自然言語処理) や Vision Transformer (画像処理) 、wav2vec 2.0 (音声処理) など、ChatGPT の興隆以前から Transformer は多方面で利用されています。 そのため、Transformer は深層学習の必須知識といえる状況になってきています。本記事では、Transformer の仕組みをポイントを絞ってわかりやすく解説します。 DX を推進する AI ・データサイエンス人材育成コース プログラミング未経験から、A
deepdoctection is a Python library that orchestrates document extraction and document layout analysis tasks using deep learning models. It does not implement models but enables you to build pipelines using highly acknowledged libraries for object detection, OCR and selected NLP tasks and provides an integrated framework for fine-tuning, evaluating and running models. For more specific text process
2021-02-14 3枚目の絵を修正しました。以下の論文を読みます。私の誤りは私に帰属します。お気付きの点がありましたらご指摘いただけますと幸いです。Haoyi Zhou, Shanghang Zhang, Jieqi Peng, Shuai Zhang, Jianxin Li, Hui Xiong, Wancai Zhang. Informer: Beyond Efficient Transformer for Long Sequence Time-Series Forecasting. arXiv preprint arXiv:2012.07436, 2020. [2012.07436] Informer: Beyond Efficient Transformer for Long Sequence Time-Series Forecasting GitHub - zhouhaoyi
テラーノベルで機械学習を中心に担当している川尻です。最近、グラフニューラルネットワーク(GNN)に注目してサーベイしています。今回は、実際のテラーノベルのデータを簡単なモデルに適用してみたので報告します。 グラフニューラルネットワーク (GNN) グラフニューラルネットワーク(GNN)とは、グラフ理論において対象を「ノード」と「エッジ」からなる「グラフ」として扱うためのニューラルネットワークの一種です。例えば、テラーノベルにおいては、ノードがユーザーや作品の一つ一つを表し、エッジが「読んだ」「いいね」「フォロー」などを表します。ディープラーニングの発展に伴い、GNNの研究も盛んになっており、大規模なデータや様々なタスクに適用されるようになっています[1]。 テラーノベルでのグラフの例 arxivで投稿された年ごとの「Graph Neural Network」がタイトルに含まれている件数 G
「ディープラーニングと物理学 オンライン」とはオンラインWeb会議システムを利用したセミナーです。2023年10月より、学習物理領域セミナーと合同で開催されています。 登録する際のメールアドレスは、できるだけ大学もしくは研究機関のものをご使用ください。 ZoomのミーティングURLおよびパスワードは、先着順300名様に限り、登録されたメールアドレスに送信されます。転載・転送は控えてください。 URLが掲載されたメールは当日の朝までに送られます。 参加したい方は下記よりお申し込みください。毎回開催時に参加URLのついたアナウンスのメールを送信します。 登録フォーム (締切は前日の夜11時までとします) 解約フォームは下記でございます。 解約フォーム 参加時の表示名は「登録時の名前@登録した機関名」に設定してください。 ノイズを防ぐためのミュートへご協力ください。 DLAP世話人: 橋本幸士(
Tero Karras 1 Miika Aittala 1 Samuli Laine 1 Erik Härkönen 2, 1 Janne Hellsten 1 Jaakko Lehtinen 1, 2 Timo Aila 1 1 NVIDIA 2 Aalto University Abstract We observe that despite their hierarchical convolutional nature, the synthesis process of typical generative adversarial networks depends on absolute pixel coordinates in an unhealthy manner. This manifests itself as, e.g., detail appearing to be gl
こんにちは、ニューラルネット老人こと糟谷勇児です。 Sansanに入社して5年が過ぎました。そういえば前職にいたときに隣の部署のマネージャーとこんな会話をしたことがありました。 「なんで学生時代(2004年当時)にニューラルネットの研究をしていたのに、私はディープラーニングをつくれなかったんですかね」 マネージャーの方は「当時はコンピューターの性能も低くて今みたいな計算ができないのは仕方ないんじゃないかな」 と返してくれましたが、どうにも腑に落ちませんでした。 当時だってスーパーコンピューターは性能が良かったですし、最先端のデスクトップPCと今の私のノートPCは互角とまでは言わないものの、10分の1、100分の1という性能ではないはずです。 当時もスペック上はアイデアがあればできたはずなのです。 負け惜しみにすぎないのですが、これまでのブログをまとめつつ2004年当時を振り返ります。 ディ
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く