[B! LLM] serihiroのブックマーク

LLMの現在 - Speaker Deck

今のLLMを取り巻く状況について紹介します。

serihiro 2024/04/28

LLM

リンク

Do As I Can, Not As I Say: Grounding Language in Robotic Affordances Michael Ahn* Anthony Brohan* Noah Brown* Yevgen Chebotar* Omar Cortes* Byron David* Chelsea Finn* Chuyuan Fu* Keerthana Gopalakrishnan* Karol Hausman* Alex Herzog* Daniel Ho* Jasmine Hsu* Julian Ibarz* Brian Ichter* Alex Irpan* Eric Jang* Rosario Jauregui Ruano* Kyle Jeffrey* Sally Jesmonth* Nikhil Joshi* Ryan Julian* Dmitry Kala

serihiro 2024/03/28

LLM

リンク

ACT-1: Transformer for Actions

ACT-1: Transf ormer for Actions September 14, 2022 — Adept Team AI has moved at an incredible pace in the last few years. Scaling up Transf ormers has led to remarkable capabilities in language (e.g., GPT-3, PaLM, Chinchilla), code (e.g., Codex, AlphaCode), and image generation (e.g., DALL-E, Imagen). At Adept, we are building the next frontier of models that can take actions in the digital world—th

serihiro 2024/03/28

LLM

リンク

【論文】Llama2 から学ぶ最新大規模言語モデル

Llama2 とは 7/26 日に Meta が公開した大規模事前学習済みモデルです。ちなみに読み方はラマです(始めて見たときはエルラマ!?って思ってましたが、動物のラマって Llama らしいですね)。 Llama2 は公開されているモデルの中では英語においてトップクラスの性能を誇っているそうです。 Llama1 の発表から半年を経たずにアップデートされた Llama2 ですが、何が変わったのか論文を読んでまとめました。大規模言語モデル(LLM: Large Language Model)とは、一言で言うと「大量のテキストデータを学習させた、入力された文章の続きを生成する AI モデル」のことです。1 回の生成では文章に続く次の 1 単語(正確には 1 トークン)を予測することしかできませんが、生成した単語を再度入力として扱うことで、自身で生成を繰り返すことができ長い文章を生成すること

serihiro 2024/03/22

LLM
llama2

リンク

RAGの実装戦略まとめ - Qiita

それでは以下、簡単なデモを含めながら個別に説明していきます。 1. ハイブリッドサーチこちらは、性質の異なる複数の検索方式（例えばベクトル検索とキーワード検索）を組み合わせて検索精度を向上させる手法になります。各検索方式単体の場合に比べ、性質の異なる検索方式を組み合わせ、ある種いいとこ取りをする事で、検索性能の向上が期待できます。今回はBM25でのキーワードベースの類似度検索と通常のベクトル検索を組み合わせていきます。 BM25について簡単に説明しておくと、文脈や文章構造は完全に無視した上で、文書内の単語を全てバラバラに分割し、文書内の各単語の出現頻度と文書間におけるレア度を加味した特徴量を算出します。つまり、特定の文書内の各単語の数をカウントしてヒストグラムを作れば、似たような文書には同じような単語がよく出るはずなので(同じようなヒストグラムの形になるので)、類似度が高くなる性質

serihiro 2024/03/20

llm

リンク

Turingと自動運転とLLM- LLM-jp 勉強会

serihiro 2024/03/18

LLM

リンク

Ollama

Get up and running with large language models. Run Llama 2, Code Llama, and other models. Customize and create your own.

serihiro 2024/03/15

LLM

リンク

RAGについて情報をまとめる

RAGについてまとめ RAG情報が溢れているので整理しています。 RAGの概要・入門 RAGの性能改善のテクニックまとめ手法 RAG関係の論文 RAG関係のサーベイ論文サーベイ論文の解説記事 RAG（検索拡張生成）包括的な論文をわかりやすく解説コサイン類似度が本当に適しているのかをといかける論文 retrieval-augmented thoughts(RAT)という手法について書かれた論文 RAGのエラーの分類に関する論文 HyDEという手法の論文 HyDEのノートブックメタ認知をRAGに適用実践評価 RAGの評価ソフトブログ記事 LLMのRAGを用いたコンペまとめ随時更新中です。関連記事

serihiro 2024/03/15

LLM
RAG

リンク

Swallow Corpus – TokyoTech-LLM

Swallow Corpusは東京工業大学情報理工学院の岡崎研究室で開発された大規模なウェブテキストコーパスです。Common Crawlから配布されているアーカイブ（2020年から2023年にかけて収集された21スナップショット分、約634億ページ）から日本語のテキストを独自に抽出・精錬し、約3,121億文字（約1.73億ページ）からなる日本語ウェブコーパスを構築しました。この規模は、CC-100 (約258億文字）、mC4（約2,397億文字）、OSCAR 23.10（約740億文字）を抜き、日本語の言語モデルの学習コーパスの中で、商用利用が可能なものとしては最大となります。 Swallow Corpusのの研究開発は、国立研究開発法人新エネルギー・産業技術総合開発機構（NEDO）の「次世代人工知能・ロボットの中核となるインテグレート技術開発」プロジェクト (JPNP18002) の「

serihiro 2024/03/14

LLM

リンク

【深層学習】GPT - 伝説の始まり。事前学習とファインチューニングによるパラダイムシフト【ディープラーニングの世界vol.31】#109 #VRアカデミア #DeepLearning

serihiro 2024/03/13

LLM

リンク

LLM速習ログ

はじめに仕事・プライベート上での様々な環境変化や私自身の変化があり、最近ではコード書かない(書けない?)おじさんになってしまいつつありますが、年末年始休暇のタイミングで LLM 周りを学んで時代にキャッチアップしたくなったので、備忘として残します。 LLM 概要をサクッと学ぶ NTT データさんの記事。概要理解のための資料としてとてもわかりやすいです。 ttya さんの連載記事。実装例も掲載されており、とてもわかりやすいです。感情分類のお試し実装事前学習済みモデル/トークナイザの下調べ東北大乾研究室が公開している BERT の事前学習済みモデルを利用しているネット記事が多い。トークナイザ: BertJapaneseTokenizer トークナイズには MeCab コーパスは Wikipedia 日本語版 github 上記載モデルは、CC-100 データセットの日本語部分とウィ

serihiro 2024/03/13

LLM

リンク

Supervised Fine-tuning Trainer

serihiro 2024/03/13

LLM

リンク

700億パラメータの日本語LLM「ELYZA-japanese-Llama-2-70b」を開発し、デモを公開しました｜ELYZA, Inc.

700億パラメータの日本語LLM「ELYZA-japanese-Llama-2-70b」を開発し、デモを公開しましたはじめにこの度 ELYZA は、新たに開発した700億パラメータの大規模言語モデル (LLM) である「ELYZA-japanese-Llama-2-70b」のデモを公開しました。「ELYZA-japanese-Llama-2-70b」は、前回までに引き続き、英語の言語能力に優れた Meta 社の「Llama 2」シリーズに日本語能力を拡張するプロジェクトの一環で得られた成果物です。 ELYZA が公開している日本語ベンチマーク ELYZA Tasks 100 を用いたブラインド性能評価では、公開されている日本語の大規模言語モデル (以下、LLM) を大きく上回っていることに加え、OpenAI 社の「GPT-3.5 Turboシリーズ」や Anthoropic 社の「Cla

serihiro 2024/03/12

LLM

リンク

RAGの実案件に取り組んできた今までの知見をまとめてみた | DevelopersIO

はじめに新規事業部生成AIチーム山本です。 ChatGPT（OpenAI API）をはじめとしたAIの言語モデル（Large Language Model：以下、LLM）を使用して、チャットボットを構築するケースが増えています。通常、LLMが学習したときのデータに含まれている内容以外に関する質問には回答ができません。そのため、例えば社内システムに関するチャットボットを作成しようとしても、素のLLMでは質問に対してわからないという回答や異なる知識に基づいた回答が（当然ながら）得られてしまいます。この問題を解決する方法として、Retrieval Augmented Generation（以下、RAG）という手法がよく使用されます。RAGでは、ユーザからの質問に回答するために必要そうな内容が書かれた文章を検索し、その文章をLLMへの入力（プロンプト）に付け加えて渡すことで、ユーザが欲しい

serihiro 2024/02/29

LLM
RAG

リンク

松尾研 LLM講座講義コンテンツ | 東京大学松尾研究室 - Matsuo Lab

松尾研究室が2023年9~10月に東京大学サマースクールで開催した LLM 大規模言語モデル講座のコンテンツを無償公開しています。本講座は約2,000名の受講者が参加し、全7回の講義を実施しました。最終課題としてGPUを使ったコンペティションでは約800名が参加し熱戦を繰り広げました。現在、講義のスライドのみ公開しております。ダウンロードは利用規約を確認の上、下記からダウンロードをお願いいたします。最終更新: 2024年2月10日問題・フィードバック報告フォームはこちら第1回：Overview of Language Models LLMの概要、今後の各回の講義の概要、および日本のLLM開発状況について第2回：Prompting and Augmented Language Model 事前学習済みLLMを追加学習せずに活用する技術（プロンプティング、⽂脈内学習、Augme

serihiro 2023/12/28

tutorial
LLM

リンク

Retrieval-Augmented Generation(RAG)とは？ | IBM ソリューションブログ

主要カテゴリー IBM Cloud Blog IBM Data and AI IBM Consulting IBM Partner Ecosystem IBM Sustainability Software Client Engineering IBM テクニカル・サポート社員が語る「キャリアとIBM」 IBM Cloud Blog IBM Cloud News IBM クラウド・ビジョン IBM Cloud アップデート情報 IBM Cloud チュートリアル IBM Data and AI IBM Watson Blog アナリティクス Data Science and AI SPSS Modeler ヒモトク Db2 オートメーション IBM Consulting デジタル変革（DX）アプリの開発とモダナイゼーション製品／サービスソフトウェアハードウェアサービス無料評価

serihiro 2023/12/01

LLM
RAG

リンク

結局日本語大規模言語モデル（LLM）ってどれを使えばいいの？JGLUEベンチマーク非公式まとめ

2022年6月に日本語言語理解ベンチマークJGLUEが公開され、日本語大規模言語モデルの性能比較がより簡単に行えるようになりました。しかしながら、2023年3月現在、JGLUEの test データやリーダーボード（モデルのスコア成績ランキング）は公開されていません。様々な企業・研究機関が dev データを使ってモデルの性能評価を行っている状況です。そこで本記事では、現在公表されている dev データのモデルのスコア一覧をまとめてみます。あくまで、JGLUE のリーダーボードが公開されるまでの暫定的な記事としてご覧ください。注: HuggingFace でアップロードされているモデルのスコアのみ掲載します。 * JCQA = JCommonsenseQA モデルパラメータ数 MARC-ja JSTS(v1.1) JNLI JSQuAD JCQA

serihiro 2023/11/14

search
LLM

リンク

つくりながら学ぶ！AIアプリ開発入門 - LangChain & Streamlit による ChatGPT API 徹底活用

つくりながら学ぶ！AIアプリ開発入門 - LangChain & Streamlit による ChatGPT API 徹底活用この本では、LangChain と Streamlit を用いて、ChatGPT APIを活用するAIアプリを開発していきます。つくりながら学ぶことを重視し、簡単なチャットアプリ開発から始めて、Embeddingを活用するアプリ開発まで、ステップバイステップで学べます。 AIアプリをローカル環境で開発した後は、WEB上にデプロイする方法も学びます。クラウドの知識もほぼ必要なく、ランニングコストも掛からない方法で行うため、ぜひ作ったアプリを公開することにチャレンジしてみましょう。 500円と設定していますが投げ銭用です。本文は全て無料で読めます。

serihiro 2023/10/07

tutorial
LLM

リンク

Metaの「Llama 2」をベースとした商用利用可能な日本語LLM「ELYZA-japanese-Llama-2-7b」を公開しました｜ELYZA, Inc.

Metaの「Llama 2」をベースとした商用利用可能な日本語LLM「ELYZA-japanese-Llama-2-7b」を公開しました本記事のサマリーELYZAが「Llama 2」ベースの商用利用可能な日本語LLM「ELYZA-japanese-Llama-2-7b」を一般公開性能は「GPT-3.5 (text-davinci-003)」に匹敵、日本語の公開モデルのなかでは最高水準 Chat形式のデモや評価用データセットも合わせて公開既に社内では、130億、700億パラメータのモデルの開発も進行中はじめにこんにちは。ELYZAの研究開発チームの佐々木、中村、平川、堀江です。この度ELYZAは、Metaの「Llama 2」をベースに、日本語による追加事前学習を行なった日本語言語モデル「ELYZA-japanese-Llama-2-7b」と、そこにELYZA独自の事後学習を施した「

serihiro 2023/08/30

LLM

リンク

第1回 LLM 勉強会

2023年5月15日（月）に国立情報学研究所にて初回となる LLM 勉強会を開催しました。プログラム勉強会の趣旨、国の動向など [資料] 黒橋禎夫（国立情報学研究所）現状の LLM のサーベイ [資料] 河原大輔（早稲田大学）菅原朔（国立情報学研究所）栗田修平（理化学研究所）各機関での試みの紹介河原大輔（早稲田大学）[資料] 坂口慶祐（東北大学）佐藤敏紀（LINE）高村大也（産業技術総合研究所）参加者乾健太郎（東北大学・オンライン参加）鈴木潤（東北大学・オンライン参加）坂口慶祐（東北大学）高村大也（産業技術総合研究所）石垣達也（産業技術総合研究所・オンライン参加）栗田修平（理化学研究所）吉野幸一郎（理化学研究所・オンライン参加）鶴岡慶雅（東京大学）（資料提供のみ）宮尾祐介（東京大学）谷中瞳（東京大学・オンライン参加）吉永直樹（東京大学・オンライン参

serihiro 2023/06/04

LLM

リンク

はてなブックマーク

タグ

関連タグで絞り込む (10)

LLMに関するserihiroのブックマーク (33)

お知らせ

今週のはてなブックマーク数ランキング（2024年4月第4週）

今週のはてなブックマーク数ランキング（2024年4月第3週）

今週のはてなブックマーク数ランキング（2024年4月第2週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス