fm315のブックマーク - はてなブックマーク

高効率のLLM学習手法ReFTを試してみる | 株式会社AI Shift
こんにちは AIチームの戸田です今回は先月スタンフォード大学が発表した新しいParameter-efficient fine-tuning（PEFT）のReFTを試してみたいと思います。 PEFT PEFTはLLMのような大規模な事前学習済みのニューラルネットワークのモデルを、効率的にfine-tuningする手法の総称です。モデル全体ではなく一部のパラメータだけを更新することで計算コストを大幅に削減できる上に、Full fine-tuning(モデル全体を学習)するのと同等の性能を達成することができると言われています。代表的なものにLow-Rank Adaptation（LoRA）が挙げられます。 ReFT Representation Finetuning (ReFT)は、LoRAとよく似たPEFT手法です。違いは、LoRAがモデルの重みを部分的に更新するのに対し、ReFTはモデルの
fm315 2024/05/18
リンク
社内SQL研修のために作った資料を公開します | 株式会社AI Shift
こんにちは、Development Teamの三宅です。先日、社内（AI事業本部内）でSQL研修の講師を担当したので、今回はその内容について簡単に共有したいと思います。はじめに例年、AI事業本部では、新卒エンジニアの育成のためにソフトウェアエンジニア研修を行っております。今年はフルリモートでの実施となりました。研修期間は2週間ほどで、内容は前半が講義、後半が実践（チーム開発）でした。私が担当したのは、講義パートの一部であるSQL研修です。SQLやRDBにあまり慣れていない人でも、できるだけ体系的な学びが得られるようにすることを目標に、様々な資料をまとめて提供する方針で準備しました。結果的には、ハンズオン込みで4時間ほどのやや長い講義となりましたが、勉強になったという声も頂けたのでやって良かったと思っています。研修資料研修内容 SQL研修の内容は、基本的には大学のデータベース講義で
fm315 2023/06/26
リンク
強化学習による対話エージェントのPolicyモデルの学習(前編) | 株式会社AI Shift
こんにちは AIチームの戸田です今回はタスク指向対話の開発ツールキット、ConvLab-2を使った対話エージェントのPolicyモデルを強化学習を使って構築したいと思います内容が多くなるので、前編でConvLab-2の対話モジュールの説明、次回の後編でPolicyモデルの学習について書きたいと思います。 ConvLab2 ConvLab-2はオープンソースのタスク指向対話の開発ツールキットです。前身のConvLabのフレームワークを継承しつつ、より多くのデータセットや最先端のモデルに対応するようになっています。パイプライン形式の対話モデルはもちろん、End-to-Endのモデルに対応しています。元の論文はこちらになります: link 対話モデル一般的な対話システムは複数のモジュールのパイプラインで構成されており、ConvLab-2でも同様にNLU, DST, Policy, NLGと
fm315 2022/11/08
リンク
1