serihiroのブックマーク - はてなブックマーク

最近のLLMの学習法のまとめ - SFT・RLHF・RAG｜npaka

最近のLLMの学習法 (SFT・RLHF・RAG) をまとめました。 1. 教師ありファインチューニング (SFT : Supervised Fine-Tuning) 2. 人間のフィードバックからの強化学習 (RLHF : Reinforcement Learning from Human Feedback)

serihiro 2024/06/14

LLM

リンク

text-embedding-ada-002 の概要｜npaka

新しい埋め込みモデル「text-embedding-ada-002」についてまとめました。 1. text-embedding-ada-002OpenAIから新しい埋め込みモデル「text-embedding-ada-002」がリリースされました。性能が大幅に向上し、以前の最も高性能なモデル「davinci」よりも多くのタスクで上回っています。adaの費用はdavinciの0.2%になります。 2. 埋め込み「埋め込み」は、概念を数列に変換したもので、コンピュータがそれらの概念間の関係を理解しやすくするための使います。パーソナライズ、レコメンド、検索などに使うことができます。「OpenAI API」で埋め込みを取得するコードは、次のとおりです。 import openai response = openai.Embedding.create( input="porcine pals sa

serihiro 2023/10/07

search

リンク

Google Colab で GPT4ALL を試す｜npaka

「Google Colab」で「GPT4ALL」を試したのでまとめました。 1. GPT4ALL「GPT4ALL」は、LLaMAベースで、膨大な対話を含むクリーンなアシスタントデータで学習したチャットAIです。 2. Colabでの実行Colabでの実行手順は、次のとおりです。 (1) 新規のColabノートブックを開く。 (2) Googleドライブのマウント。 Colabインスタンスに大きなファイルをアップロードするのは大変なのでGoogleドライブを使ってます。 # Googleドライブのマウント from google.colab import drive drive.mount('/content/drive')(3) 作業フォルダへの移動。 # 作業フォルダへの移動 import os os.makedirs("/content/drive/My Drive/work", ex

serihiro 2023/04/05

リンク

LLM のデータセットまとめ｜npaka

LLMのデータセットをまとめました。 1. 事前学習データセット1-1. Text・Wikipedia (ja) ・fujiki/wiki40b_ja ・llm-jp-corpus-v2 (ja) ・llm-jp-corpus-v2 ・shisa-pretrain-en-ja-v1 (ja) ・augmxnt/shisa-pretrain-en-ja-v1 ・youlery (ja) ・ce-lery/mistral-3b-dataset ・ayousanz/OSCOR-2301-ja-cleaned ・ayousanz/c4-ja-cleaned ・Common Crawl (multilingual) ・Wikipedia (en) ・Wiki Demo (en) ・RefinedWeb (en) ・RedPajama V2 (en) ・Pile (en) ・SkyPile (zh)

serihiro 2023/04/04

リンク

Wikipediaの日本語コーパスの準備｜npaka

Wikipediaの日本語コーパスを準備する方法をまとめました。 1. Wikipediaダンプファイルの取得はじめに、https://dumps.wikimedia.org/jawiki/latest/ から、Wikipediaの日本語のダンプファイル「jawiki-latest-pages-articles.xml.bz2」をダウンロードおよび解凍します。・解凍前 : jawiki-latest-pages-articles.xml.bz2 (3.2GB) ・解凍後 : jawiki-latest-pages-articles.xml : (13.47GB) 2. Wikipediaの日本語コーパスの作成 WikipediaのダンプファイルはXML形式なので、記事を抽出するツール「WikiExtractor」を使って、XMLタグを削除します。 (1) AnacondaでPython

serihiro 2023/03/29

NLP

リンク

ChatGPTプラグインの概要｜npaka

「OpenAI」の「ChatGPTプラグイン」の記事が面白かったので、かるくまとめました。・Chat Plugins - OpenAI API ・ウェイトリスト 1. ChatGPTプラグイン「ChatGPTプラグイン」は、「ChatGPT」をサードパーティのアプリケーションに接続するためのプラグインです。「ChatGPT」は、開発者によって定義されたAPIと対話し、機能を強化し、幅広いアクションを実行できるようになります。次のような機能を追加できます。・リアルタイム情報の取得 (スポーツスコア、株価、最新ニュースなど) ・知識ベース情報の取得 (会社のドキュメント、個人的なメモなど) ・ユーザーに代わってアクションを実行 (フライトの予約、食べ物の注文など) プラグイン開発者は、マニフェストファイルとAPIエンドポイントを公開します。これらはプラグインの機能を定義し、「ChatGP

serihiro 2023/03/24

リンク

Alpaca まとめ｜npaka

「Alpaca」の学習方法について軽くまとめました。 1. Alpaca「Alpaca」は、「LLaMA 7B」(Meta)をファインチューニングした言語モデルです。「text-davinci-003」による「self-instruct」で生成された52Kの命令追従型の学習データを使って学習しています。「Alpaca」はOpenAIの「text-davinci-003」に似た挙動を示しますが、驚くほど小さく再現が容易で安価であることが特徴です。また、「Alpaca」は学術研究のみを目的としており、商用利用は禁止しています。 2. 学習済み言語モデルと学習データアカデミックな予算で高品質な言語モデルを学習させるためには、「強力な学習済み言語モデル」と「高品質な学習データ」が必要です。 1つ目は、最近リリースされたMetaの「LLaMA」で解決されます。2つ目は、「self-instru

serihiro 2023/03/23

NLP
LLM

リンク

最近話題になった大規模言語モデルまとめ｜npaka

最近話題になった大規模言語モデルをまとめました。 1. クラウドサービス1-1. GPT-4「GPT-4」は、「OpenAI」によって開発された大規模言語モデルです。マルチモーダルで、テキストと画像のプロンプトを受け入れることができるようになりました。最大トークン数が4Kから32kに増えました。推論能力も飛躍的に向上しています。現在、「ChatGPT Plus」(有料版)で制限付きで利用できる他、ウェイトリストの登録者を対象に「OpenAI API」での利用も開始しています。

serihiro 2023/03/16

リンク

はてなブックマーク

タグ

ブックマーク / note.com/npaka (8)

お知らせ

今週のはてなブックマーク数ランキング（2024年10月第2週）

今週のはてなブックマーク数ランキング（2024年10月第1週）

月間はてなブックマーク数ランキング（2024年9月）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス