einherjarのブックマーク - はてなブックマーク

RLHFを利用して用途に応じたLLMを生成できるツールの紹介 - Platinum Data Blog by BrainPad
本記事は、当社オウンドメディア「Doors」に移転しました。約5秒後に自動的にリダイレクトします。このたびブレインパッドは、LLM/Generative AIに関する研究プロジェクトを立ち上げ、この「Platinum Data Blog」を通じてLLM/Generative AIに関するさまざまな情報を発信をしています。今回は、ChatGPTなどで好ましい応答を得られるように、人間からAIモデルの応答に働きかける、ヒューマンフィードバックというプロセスを支援する「Transf ormer Reinforcement Learning（TRL）」という強化学習ライブラリを紹介します。こんにちは。アナリティクスサービス部の橋本です。 ChatGPTの学習プロセスとして取り入れられているRLHF（Reinforcement Learning from Human Feedback、人間のフ
einherjar 2023/06/28
リンク
GPT-4登場以降に出てきたChatGPT/LLMに関する論文や技術の振り返り - Platinum Data Blog by BrainPad
本記事は、当社オウンドメディア「Doors」に移転しました。約5秒後に自動的にリダイレクトします。このたびブレインパッドは、LLM/Generative AIに関する研究プロジェクトを立ち上げ、この「Platinum Data Blog」を通じてLLM/Generative AIに関するさまざまな情報を発信をしています。この記事では、GPT-4の登場から執筆日（2023年5月31日時点）までの2ヶ月間で登場した論文を振り返りながら、まとめて紹介していきます。 LLM/ChatGPTの動向オープンソースLLM モデルオープンソースLLMの調整 Adapter、LoRA Instruction Tuning Human Feedback プロンプトエンジニアリングプロンプトエンジニアリングの課題①：プロンプトに大量の情報を入れられないプロンプトエンジニアリングの課題②：複雑なタス
einherjar 2023/06/06
リンク
強化学習入門 Part2 - TensorflowとKerasとOpenAI GymでPolicy Gradientを実装してみよう！ - Platinum Data Blog by BrainPad
本記事は、当社オウンドメディア「Doors」に移転しました。約5秒後に自動的にリダイレクトします。「強化学習入門」の第2弾。今回は、強化学習の手法の一つ「Policy Gradient」について解説しています。加えて、「Policy Gradient」でTensorflow, Keras, OpenAI Gymを使ったCart Poleの実装内容もご紹介しています！こんにちは、AI開発部の高橋です。今回は強化学習の手法の一つであるPolicy Gradientを説明します。そしてTensorflow, Keras, OpenAI Gymを使ってCartPoleを実装してみます。目次目次 1. はじめに 2. 適用例 3. Valued-Basedのおさらい 4. Policy-Based 5. 実装 6. Baseline 7. まとめ 8. 参考文献・コード 1. はじめに強
einherjar 2017/09/09
リンク
物理のいらない量子アニーリング入門 - Platinum Data Blog by BrainPad
本記事は、当社オウンドメディア「Doors」に移転しました。約5秒後に自動的にリダイレクトします。当社の社員が物理を専門としない人向けに量子アニーリングについて解説します！こんにちは、A.I.開発部の太田です。今回は量子アニーリングの簡単なシミュレータを作ってみたり、実際のD-Waveを使ってみた経験から、物理を専門としない人向けに量子アニーリングについて解説しようと思います。（シミュレータのコードはgithubで公開しています。私自身、量子アニーリングについては最近勉強し始めたところなので、色々ご指摘いただけると幸いです。）さて、私の所属する部署の役割として、機械学習・人工知能関連の技術調査や社内への展開を行っており、その一環として昨年12月に早稲田大学の田中先生をお呼びして開催した量子アニーリング勉強会が社内で大変好評でした。昨年度は量子アニーリングに関する一般書籍が発売
einherjar 2017/04/20
リンク
1