You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert
0. はじめに 今回はBERTの解釈としてtransformers-interpretを試したのでメモがてら記載しておく。 動作環境 OS : Windows10 pro python: 3.9.6 transformers: 4.23.1 Pytorch: 1.12.1 (+cu116) transformers-interpret: 0.9.5 GPU: RTX 2060 jupyter notebook(vscode) 1. transformers-interpretでBERTのマルチクラス分類を解釈する transformers-interpretとは、PyTorch用のモデル解釈ライブラリ 「Captum」を使用したTransformers専用のライブラリ。 SHAP等の解釈モデルと違い、Transformers専用にチューンされているので使いやすい 1-1. Captumとは
DeepMindのDQNからR2D2くらいまでの深層強化学習(Q学習)の発展の歴史を、簡単な解説とtensorflow2での実装例と共に紹介していきます。 まずは深層強化学習の新たな時代を切り開いたDeepMindのDQN(2013)です。論文からはわかりにくいatari環境向けの実装上のテクニックとDQNを構成する各要素が後継手法でどのように改良されていったかのレビューに焦点を置いてBreakout(ブロック崩し)向けにtensorflow2での実装例を紹介します。 DQNシリーズ DQNの進化史 ①DeepMindのDQN - どこから見てもメンダコ DQNの進化史 ②Double-DQN, Dueling-network, Noisy-network - どこから見てもメンダコ DQNの進化史 ③優先度付き経験再生, Multi-step learning, C51 - どこから見て
皆さんこんにちは.北山です.研究室としては毎年参加しているDEIM(データ工学と情報マネジメントに関するフォーラム)に今年も参加しましたので,その報告です.今年は昨年に引き続き,完全オンラインの開催ということで,私は運営側でもなかったので自宅からの参加をしていました.ちなみに昨年は運営側だったのと,初のオンライン開催でてんやわんやだったのを思い出します. 北山研としては11件の発表を行いました.共著の発表がもう1件あるので,北山の名が入っている発表は12件ということになります.こうなってくると,ほぼすべての時間帯が,発表 or コメンテータのお仕事という状態で,一日中張り付いているような形になりました…ちょっとやりすぎ感もありますので,来年からは考えたいと思います.これ,いつも言ってるような…まあええか. ありがたいことに,そのうち「ユーザのシチュエーションと振る舞いに基づく提示タイミング
dlshogiの学習は、PyTorchを使用して、モデルの訓練処理を独自に実装していた。 マルチGPUによる分散学習に対応させようと考えているが、独自に実装するより、PyTorch lightningに対応させた方が実装が楽になるため、dlshogiをPyTorch Lightningに対応させたいと考えている。 まずは、訓練の基本部分の実装を行った。 PyTorch Lightning CLI ボイラープレートをできるだけ削除するため、PyTorch Lightning CLIを使用して実装する。 PyTorch Lightning CLIを使用すると、コマンド引数のパース処理など含めて自動で行ってくれる。 起動部分の処理は以下のように記述するだけでよい。 def main(): LightningCLI(Model, DataModule) if __name__ == "__main
概要 少量の学習データ(Few-Shot)でも精度が出る深層学習手法が登場してきています。 その一つがSetFitです。テキスト分類向けのFew-Shot学習手法です。 本記事では、SetFitを使うとよい(使わない方がよい)場面を見極めるために、リアルな問題に近い日本語ニュースジャンル分類タスクをお題に、学習データ数を変えながらそこそこ強い日本語T5と戦わせてみます。 忙しい方向けに最初に結論をまとめ、その後にSetFitの使い方の説明を兼ねて実験を再現するためのコードの解説をしていきます。 結論 Livedoor news記事のジャンル分類タスク(9分類タスク)について、クラスあたりのデータ数を2倍ずつ変えながら、SetFitと日本語T5それぞれについて分類精度を計測しました。 結果は下図のとおりです。 なお、クラスあたりのデータ数は全クラスで同一(均衡)になるようにランダムサンプリン
はじめに Transformerにおけるアテンションの計算式は、scaleを無視すると以下のように計算される[1]。 \text{output} := \text{softmax}(QK^\top) \tag{1}V この計算が数理的にどのような意味を持つのかについて考察する。 記法 以下の議論では、表記を簡単にするため、「Xの埋め込みベクトルのシーケンス」を単に「Xのシーケンス」と表現する。 考察 まず、式(1)の計算は以下の2つのパートに分割できる: アテンションスコアの計算 特徴量の選択 1. アテンションスコアの計算 \text{softmax}(QK^\top)の部分である。ここで、Q, Kはそれぞれ(n, d)次元のベクトルとする。nはシーケンス長で、dは埋め込みベクトルの次元である。すなわち、Q, Kの行方向はトークンのシーケンスを表し、列方向は埋め込みベクトルを表す。この時
Table of Contents これは何?byte列をpatchに区切る具体例提案手法のメリット学習効率の向上1つの処理単位に押し込める情報量をコントロールするサブトークンの特徴の利用どのように実現したか?byte列の表現の粒度提案手法における「語彙数」の定義言語モデルのアーキテクチャ所感提案手法のアプローチはマルチバイト言語に対しても有効か?ReferenceAppendixA. byte単位の表現とn-gram表現の持ち方 Metaが2024年12月13日に公開した論文 "Byte Latent Transformer: Patches Scale Better Than Tokens" [Pagnoni, 2024] を読んだのでその内容をまとめます。 ここで掲載された図は特に説明がない限り全て[Pagnoni, 2024]からの引用で、著作権は著者らに所属します。 これは何?
Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article? はじめに ABEJA Advent Calendar 2021の8日目の記事です。 この記事では素晴らしい技術のはずなのになかなか日の目を浴びないFlowと呼ばれる技術を使った超解像について書こうと思います。 これを読んだ暁には「そうか、だから日の目を浴びないのか」となっていると思います。 そしてなぜこの人はこんなマニアックな記事を書いているんだろうと思うことでしょう。 超解像の概要 超解像とはざっくりいうと小さい画像を大きくする技術のことを指します。画素数の少ない低解像度な小さい画像を、画素数の多い高解像度の大きい画像にするということ
はじめに 整数計画問題における実行可能間の距離とProximate Optimality Principle 可視化方法 インスタンス ソルバ 可視化結果 考察 おわりに 参考文献 はじめに 組合せ最適化問題に対するメタヒューリスティクスの設計では,解くべき問題に対して「良い解同士は似通った構造をもっている」という仮定をしばしばおきます[1].この仮定はProximate Optimality Principle(以降,本文ではPOPと略記)とよばれ,メタヒューリスティクスの基本戦略である「探索の集中化」の前提になっています.多くのメタヒューリスティクスは探索の集中化に加え「探索の多様化」とよばれる戦略を適切に組み込むことで高い探索性能の実現を図っています[1][2]. 本記事では,私がとくに興味をもっている整数計画問題に話を限定し,実行可能解の分布の可視化を通して,POPの成立性とメタヒ
将棋棋士、AI研究者、そしてお笑い芸人としての顔も持つ多才な大学院生がいます。 自動運転AIの研究と将棋の関係とは? 「不利飛車」とも呼ばれる戦法にこだわる理由とは? 人間らしい将棋AIの条件とは? 将棋に関する寄稿や出演を続けてきた愛棋家の政治学者が、対談を通して迫ります。 対談日=7月24日(法学部3号館にて) 谷合廣紀TANIAI Hiroki 将棋棋士/情報理工学系研究科博士課程 境家史郎SAKAIYA Shiro 法学政治学研究科教授 境将棋との出会いはいつ頃でしたか。 谷小学校に入る前、アマ有段者の祖父から教わりました。親に勝てたのが嬉しくて、千駄ヶ谷の将棋会館に連れて行ってもらい、道場で指すようになりました。 境大学受験はどうでしたか。将棋の修行と両立させたというのが信じられません。 谷高3の頃は受験勉強が100%で、将棋が息抜きでした。将棋の勉強はほぼせず、受験勉強に集中す
こんにちは。最近シェアハウスのネットワークをIPv6に切り替えたら快適になった@Ssk1029Takashiです。 最近は学習済み単語分散表現が日本語でも充実してきており、語彙の多いもの・ドメインに特化しているものなど選択肢の幅が広がってきています。 日本語処理フレームワークであるGiNZAからもデフォルトで単語分散表現が使用可能です。 今回はワークスアプリケーションさんが作成しているchiVeという学習済み単語分散表現を使って、機械学習の精度を向上できるかを見てみます。 はじめに GiNZAとは chiVeとは GiNZAから学習済み単語分散表現を使用する GiNZAからchiVeの分散表現を使用する クラス分類の精度が向上するか試してみる まとめ はじめに 単語分散表現とは単語に対して、ベクトルを埋め込む技術で、Word2Vecなどが代表的です。 すでに学習されている分散表現を使用する
この記事の目的は? ファッションの3つの研究分野において、 metric learning がどう使われているかを説明し、関連文献をいくつか紹介します。 metric learning やファッションの研究に興味を持たれた方が、研究を始めやすくなればと考えています。 street-to-shop image retrieval どんな研究か? ファッションアイテムの自撮り画像から、ECサイトで使われるような商品画像を検索 するための研究です。ファッションに限らない、一般的な呼び方だと cross-domain image retrieval と呼んだりもします。 図:自撮り画像の例 図:商品画像の例 出典: (M. Hadi Kiapour et al., 2015, ICCV) Where to Buy It: Matching Street Clothing Photos in Onl
カーネル法(Kernel method)とは?カーネル法とは、データを変換して(データの次元を上げて)分析しやすくする手法です。 例えば、下の図のような直線的な赤と青のデータが有り、これを直線で分離させようとしてもできません。 ここで、1次元のデータから2次元のデータに次元を上げてみます。 図では各値にの2乗をとったイメージをしています。 すると、線形分離(直線で分離)が可能になりました。
Predictorでペア画像に対するEncoderの出力を予測することになるが、学習が進めば平均的な出力を予想することになり、結果Encoderの出力も平均的な出力に近づいているので、結果的にBackboneも平均的(一般的)な特徴を学習したことになる。というような流れだと筆者は理解している。 図中のstop-gradは勾配計算を止めることで、これで"Collapsing Solutions"を防ぐらしい。 素人考えではProjectorの層を無くしてBackboneとPredictorを直結した方が早いんじゃないかと思うのだが、Projectorを入れてLoss計算用の空間に一旦投影する。この辺は先行研究であるSimCLRの論文で議論されているようだ。 実装 公式実装がありPyTorch派の方はこちらを使えばそれで終わりのように思うが、筆者はtf.keras派なので自前で実装しなければな
0.はじめにエンジニアというものをアイデンティティの一つとして持っているので必要な自己研鑽として、新しい技術が世に出てきたらキャッチアップをそれなりにしているつもりである。もちろんどれもこれも習熟していくというのはどだい無理な話で、知っておくレベル、手を動かしてある程度出来るようにしておくレベル、実務に反映するレベル、と程度は色々であるが。 大抵の技術は、ネットの記事を読んで概要を把握して手を動かす。少し込み入っているなと思ったら関連書籍を入手してから手を動かす。それぐらいで大凡はイメージをつかむことが出来。そしていざ本当に必要になった時に再度しっかり勉強すれば、実際必要になっても困るようなことはほとんどない。 そういう感覚で機械学習にも臨んだ。ネットの情報だけではイメージがつかめなかったのでAmazonで以下の本をポチった。購入履歴にきちんと日付が残っている。 注文の詳細注文日: 201
1. ReLU とは [概要] ReLU (Rectified Linear Units, 整流化線形ユニット)は,ディープニューラルネットワークにおいて広く用いられる,主に中間層向けの活性化関数である [Nair and Hinton, 2010].それまでの3層MLP時代に隠れ層活性化目的で使用されてきた「シグモイド形の活性化関数(tanh関数, シグモイド関数)」と比べて,ReLUは深いCNNやDNNの学習を速めることができ,安定した最適解への収束も促すことができる. この記事では,ReLUそのもの (1, 2節)と,その発展型であるReLU型の活性化関数 のうち初期の主なもの(PReLU, GELU, Swish, Mish, 3節)について紹介・整理する. 親記事:活性化関数(activation function) [ディープラーニングむけ] ReLUは,max関数を用いて入力
DeepMindがarXivで発表した、AlphaZeroからチェスの新しい概念を抽出して人間のパフォーマンス向上に使えるようにする方法について述べた「Bridging the Human-AI Knowledge Gap: Concept Discovery and Transfer in AlphaZero」を読んだ際のメモ。 概要 AlphaZeroから隠されたチェスの知識を概念として抽出する 概念は、AlphaZeroの中間層から概念ベクトルとして抽出する 人間が知らずAlphaZeroだけが知っていること発見する 学習可能かつ新規な概念を抽出する 人間のグランドマスターが概念を学習可能か検証した 結果 概念と局面を提示することで、チェスのグランドマスターのテスト局面の正解率が向上した AlphaZeroが学習した知識は、人間の理解を超えるものではなく学習可能な知識であることが示さ
はじめにこんにちは。株式会社Rosso、AI部です。 近年、個人情報を保護しつつ機械学習を行う連合学習(federated learning)という新しい手法が登場しています。 ただし、連合学習を行う際は、従来の機械学習モデルと比べ、性能が悪化しないかどうかに留意する必要があります。 この観点を踏まえ、本記事では、連合学習を行う際に使用するデバイス数に着目。連合学習を行う際のデバイス数が変化した場合、性能が従来の機械学習モデルと比較してどのように変化するか、簡単な検証を行います。 連合学習の概要機械学習でデータを使用する際には、個人の顔が映し出された画像や、性別、年収、住所などで構成されているテーブルデータなど、個人情報が入ったデータを取り扱うケースがあります。 そのようなデータを扱う場合、個人が特定されないようにデータを加工したり、個人情報の委託先に監督を行うなど、プライバシー保護に配慮
こんにちは!shu421と言います。 数理最適化 Advent Calendar 2023 の 12 日目です。今回は巡回セールスマン問題 (Traveling Salesman Problem: TSP) を深層学習と強化学習で解く方法を紹介します。最近の動向をざっくり追うだけなので、詳細については各論文を参考にしていただけたらと思います。 目次 巡回セールスマン問題とは 深層学習と強化学習を使う理由 論文紹介 Neural Combinatorial Optimization with Reinforcement Learning Attention, Learn to Solve Routing Problems! Solving combinatorial optimization problems over graphs with BERT-Based Deep Reinforc
ランダムフォレストは、主に分類(判別)や回帰といった目的で活用されているアルゴリズムの1つです。精度が高い点が特徴で、機械学習において必修とされていますが、詳しく知らない人もいるのではないでしょうか。 この記事では、ランダムフォレストの仕組みやメリット・デメリット、活用事例について紹介します。AI技術による機械学習を活用したシステム開発や研究を検討している方は、ぜひ参考にしてください。 機械学習について詳しく知りたい方は以下の記事もご覧ください。 機械学習とは何か?種類や仕組みをわかりやすく簡単に説明 アンサンブル学習について詳しく知りたい方は以下の記事もご覧ください。 アンサンブル学習とは?スタッキングやブースティングの手法も解説 ランダムフォレスト(Random Forest)とは ランダムフォレスト(Random Forest)とは、「決定木」と「アンサンブル学習(バギング)」という
これを見ると、Rec Sys 1、Rec Sys 2などでは、評価指標に関する研究からモバイル端末内で行われる推薦、Cold-start問題への対処に関するものなど幅広い推薦システムに関する研究が発表されていました。 多くの研究は既存の手法の問題点を発見、その問題を解決する手法を提案するような研究でしたが、On (Normalised) Discounted Cumulative Gain as an Off-Policy Evaluation Metric for Top-nnn Recommendationでは推薦問題で一般的に使用されているnDCGがどの程度オンライン実験の結果を近似できるのかを調査し、DCG指標がオフライン実験/オンライン実験に対して不偏となる状況でもnDCGは手法の相対順位が変動する可能性があることを示していました。 DIET: Customized Slimmi
Machine learning models are often deployed in different settings than they were trained and validated on, posing a challenge to practitioners who wish to predict how well the deployed model will perform on a target distribution. If an unlabeled sample from the target distribution is available, along with a labeled sample from a possibly different source distribution, standard approaches such as im
筑波大学連携大学院(大西研究室)画像認識による人の流れの追跡や シミュレーションによる人の流れの予測の 結果を使って新しいサービスを作り出すことを目的としています. 人の流れの認識,追跡,動作認識のような画像認識や 機械学習を効率的に自動化する AutoML, マルチエージェントシミュレーション, また,計測とシミュレーションの融合であるデータ同化(data assimilation) のような基礎技術から 商業施設でのマーケティング分析,駅などの公共空間での安心・安全管理, 大規模イベントなどでの誘導支援,介護施設での徘徊検出, ミーティングスペースでのコラボレーション計測などの 応用技術までが研究のスコープです. これまでに様々な環境にて取得した大規模な人流ビッグデータがあります. これらのデータを使って世の中の役に立つ研究をしましょう. 詳しくは右のフライヤーをご覧ください. フライ
概要 本稿ではAdamWの論文[1]の内容を元に、AdamとAdamWの違いを掘り下げて説明する。 本稿で扱う内容 AdamとAdamWの違いについて Adamのweight decayにはどのような問題があるか?また、AdamWではこの問題をどのようにして解決しているか? 論文の実装と主要なフレームワークの実装の違いについて Adam と AdamWの違いについて AdamWはAdamのweight decayの実装を改良することを目的としたもので、以下のような違いがある: Adamにおけるweight decayは実際にはL2正則化として実装されたのに対し、AdamWはweight decayを本来の形式(重み減衰)で実装している なお、weight decayの実装以外については両者は同じものである。 L2正則化とweight decay L2正則化とweight decayは以下の
本記事は、当社オウンドメディア「Doors」に移転しました。 約5秒後に自動的にリダイレクトします。 ブレインパッドは、LLM/Generative AIに関する研究プロジェクトを立ち上げ、この「Platinum Data Blog」を通じてLLM/Generative AIに関するさまざまな情報を発信をしています。今回は、生成AI・基盤モデルのマルチモーダリティをテーマに4つの論文をご紹介します。 目次 今回のテーマ 論文1: Multimodal Foundation Models: From Specialists to General-Purpose Assistants 選定理由 論文概要 マルチモーダル基盤モデルの分類 マルチモーダル基盤モデルの流れと今後の展望 レビュー会FB 関連論文 論文2: Tracking Anything in High Quality 選定理由 論
Stable diffusion[1]では,A road sign with the word "apple" と入力すれば,上の画像のように,文字を画像化することが可能です. 一方で,下の画像のように「意味に対応する文字列っぽいもの」がそれとなく表示されるものの,果たして本当に”文字”として学習しているのか?という疑問を持ったため,簡単に実験してみました. Character-Aware Models Improve Visual Text Rendering.[3]では,画像生成とその画像文字の質に関する精度が大規模に実験されています.中でも,Stable Diffusionや,Imagen[4]では,文字画像生成にはにはミスが多く存在し,画像生成にバイトレベルTransformer(ByT5[5])を用いると,文字の生成クオリティが向上したとの結果が報告されています. 今回は,文字列
はじめに 機械学習(ディープラーニング含む)に触れたことがある人であれば、正則化という言葉を一度は耳にしたことがあるでしょう。英語ではregularizationと言います。 一般的には、機械学習において過学習を防ぐための手法であると説明されています。さらに、損失関数を含んだ数式とともに、L1正則化やL2正則化などの正則化の具体的手法についても紹介されていることが多いです。ただ、そもそも過学習についてや、正則化を使うとなぜ過学習を防ぐことができるのかについて、イメージとともに分かりやすく説明されているものをあまり見たことがありません。 この記事では、機械学習における正則化の意味をイメージとともに分かりやすく説明します。あくまでも正則化の意味のイメージを掴むための記事なので、数式はあえて書きません。 過学習とは? 正則化の説明の前に、過学習について説明します。 例として、部屋の広さからマンシ
概要背景 最近は、GPTが流行ってます しかしGPT-3.5以降はfine tuningが執筆時点でできません なので、オリジナルデータを学習させるには、少し工夫が必要です 要するに、文章のembedding vectorを計算する必要があります しかし、GPTのAPIは地味に値段が高いため、pdfが100個くらいあったりすると、破産する恐れが出てきます 目的 最終的な推論はGPT-3.5 or 4にやらせるとして、embedding vectorの計算は、もう少しローコスト・低性能なLLMで良いのではないかと、誰しも考えるはずです 或いは、google検索のような、index検索を使うのも手です ただしこの場合は、言語を跨いだ検索などが難しそうです そこで、RNNでTransformer並みの動きをすると話題のRWKVで、embedding vector的なものを計算してみようと考えまし
AlphaFold2はディープラーニングの専門家の視点でみても面白いそうですが、ど素人にはさっぱりです。 というわけで、前回の「Self distillation」に引き続き、深層学習っぽい用語を調べています。 今回取り上げる用語はAuxiliary loss、Transformer-XL、axial-attentionです。 www.nature.com 概要 1. Auxiliary loss 1-1. こまめな中間報告が成功の鍵? ~補助損失~ 1-2. AlphaFoldででてくるAuxiliary loss 1-3. Auxiliary lossの効果はあったの? ~ablation study~ 2. Transformer-XL 2-1. Transformer x Auxiliary lossで文字レベル言語モデルの高性能化 2-2. Transformer-XLと可変長文
Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article? NO TEARS アルゴリズムとは NO TEARS はデータから有向非巡回グラフ(Directed Acyclic Graph; DAG)を推定するためのアルゴリズムです。因果推論ライブラリ CausalNex の中で使われています。 $d$ 個の変数間の関係を知るために DAG を推定しようとすると、$d$ に対して計算量が急増化することは容易に想像できます。実際、DAG 学習問題は素直に取り組むと NP 困難となります。これを解消するために、NO TEARS アルゴリズムでは「非巡回」という条件を滑らかな関数で表現し、DAG の学
Tim O’Reilly has been a conversation starter within the tech industry for more than three decades. The company he founded, O’Reilly Media, launched the first true commercial website in 1993, and remains a tech-industry staple that publishes tech books, offers online education, and holds virtual events. O’Reilly saw firsthand the first wave of big dot-com companies swell, crest, and crash in the la
GPT-2 Test the whole generation capabilities here: https://transformer.huggingface.co/doc/gpt2-large Pretrained model on English language using a causal language modeling (CLM) objective. It was introduced in this paper and first released at this page. Disclaimer: The team releasing GPT-2 also wrote a model card for their model. Content from this model card has been written by the Hugging Face tea
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く