Kan Hatakeyama[B!]新着記事・評価 - はてなブックマーク

GPT-4o(Claude)に危険物取扱者試験(甲種試験)を解かせてみる-その4: LangGraphによるエージェント化と自動の文献情報の照合｜Kan Hatakeyama
4 users
note.com/kan_hatakeyama

ranggraphを入れます｡GPT-4oよりもClaude-3.5-sonnetの方が読解力が高そうだったので､anthropicのモジュールも入れておきます｡ pip install -U langgraph pip install langchain-anthropic練習1: 秘密の合言葉をチェックするエージェントを作るチュートリアルを少し改造したシステムを作ります｡練習で､以下のようなシステムを作ります｡人間の代わりにLLMがツールにアクセスし､返答を得るものです｡モジュールの定義モジュール類を定義します｡ from typing import Annotated, Literal, TypedDict from langchain_core.messages import HumanMessage from langchain_anthropic import ChatA
- テクノロジー
- 2024/10/24 21:56

Sakana AIの「AI科学者」の読解メモ｜Kan Hatakeyama
3 users
note.com/kan_hatakeyama

はじめに最近､大規模言語モデルの開発が終わり､少し余裕が出てきたので､noteの投稿をちょくちょく再開していくかもしれません｡第一弾は､2024/8/13に公開されて話題になった､「AIサイエンティスト」の読解記録です｡こちらは､気にはなっていたのですが､手つかずの論文でした｡そろそろ締切の科研費の申請書の参考になりそうなのと､某件で解説を頼まれたので､読むことにしました｡本記事は､ただのメモ書きです｡体系的・学術的に正確に論文を読み解くものではないのでご了承ください｡論文の読み方の参考になるかもしれないと思ったので､時系列に書いていきます｡読む前の疑問など(8/22, 11:40頃) 論文を読む前に思った疑問を､つらつらと書いておきます｡基本的には､厳しめの視点で読んでいきます｡今のオープンな最先端モデルに､どこまで科学研究ができるか? GPT4o, Claude3.5-
- テクノロジー
- 2024/08/22 21:38
10bクラスの大規模言語モデルが､ファインチューニングを経てタスクを解けるようになるメカニズムを探るメモ｜Kan Hatakeyama
8 users
note.com/kan_hatakeyama

はじめに最近は大規模言語モデルのファインチューニングにハマっています｡ 10bクラスの言語モデルが､どのようなメカニズムを通してユーザーの質問に回答できるようになるかについて､調べています｡最近の検討で生じた仮説は､「10bクラスのモデルは､実は質問文を殆ど理解できていない」というものです｡本記事ではどのようなデータを学習したときに､llm-jp-evalという評価セットに含まれるJCommonsenseQAというタスクを解けるようになるか､果たして､10bクラスのモデルは何を「理解」している/いないのか､そして､指示を理解できるようになるための必要な訓練量について､調べて行きたいと思います｡コードはこちら ※ これは正確な学術的検証ではありませんので､ご了承ください｡きちっとやってくれる方や､良い参考文献をご存知の方がいたら､教えていただけると､大変助かります｡今回のタスクJCo
- テクノロジー
- 2024/04/01 17:13
ファインチューニング条件の検討による、10bクラスの大規模言語モデルの理解・回答能力についての検証と考察｜Kan Hatakeyama
6 users
note.com/kan_hatakeyama

(以下、時間の都合上、まだきちんと校正できておりません。ご了承ください) 4/1追記: こちらの記事の方が､きちっとした検証がなされています｡はじめに大規模言語モデルは大きく、1)事前学習、2)ファインチューニングの二段階によって訓練されます。2)ファインチューニングは、ざっくり言えば、「人間と対話するための訓練」です。すなわち、人間の指示を理解し、期待される回答をするための練習をする作業に相当します。GPT-4やClaude 3などはモデルサイズも大きく、非常に注意深くファインチューニングされている(との噂の)ため、様々なタスクをこなすことが可能です。これに対し、数ー数十b程度のサイズを持つオープンな「ローカルモデル」については、「どのような」データを、「どの程度」学習させることによって、対話能力を獲得できるようになるかが、十分にはわかっていない模様です※。 ※もちろん、種々の研究は
- テクノロジー
- 2024/03/31 18:46
- あとで読む
CommonCrawlの生データをダウンロードして解析する練習｜Kan Hatakeyama
3 users
note.com/kan_hatakeyama

はじめに大規模言語の事前学習には、Webデータを片っ端からダウンロードしたサイト(CommonCrawl, CC)が大活躍します。普通はCCを使いやすい形で加工したコーパスを用いるのですが、今回は生データにアクセスして解析してみました。ファイルをダウンロードする兎にも角にも、ファイルをダウンロードすることから作業が始まります。 URLリストを取得するまずは上記CCのサイトにアクセスし、どの年のデータをダウンロードしたいか選択します。次に、warc.path.gzをダウンロードします。こちらには各データへのURL一覧が格納されています。備考: WARC,WAT,WETとは?「warc」、「wat」、「wet」という用語は、Common Crawlのコンテキストで使用されるファイル形式を指します。Common Crawlは、インターネットの広範囲にわたるウェブページをクロールし、その
- テクノロジー
- 2024/03/07 07:22
- データ
大規模言語モデルを作ります(10-50b, 2024年3-8月頃)｜Kan Hatakeyama
3 users
note.com/kan_hatakeyama

要点大規模言語モデル(10-50b)の開発に関わることになりました｡オープンソースの短期集中プロジェクト(24年3-8月)です｡データセットやコードなどを随時オープンに開発し､共有する予定です｡こちらのプロジェクトのチームリーダの一人をつとめます｡下記URLに記載のSlackから､誰でも参加できます(オープンな部分の開発､助言､コメント､情報収集など)｡プロジェクトのslackにも誰でも参加できます。見るだけの参加もOKです｡ (参加方法はページの末尾を参照) 24/3/4追記オープンな日本語の指示データセットを作っています｡誰でも投稿・利用できるフォームと､作り方のコツなどが記されています｡経緯: どうしてそうなったのか? (読み飛ばしOK)(細かな話なので､読み飛ばしても支障のないセクションです) 筆者の本業は一応､化学者(大学教員 in 2024)なのですが､ITや機械
- テクノロジー
- 2024/03/06 11:02
大規模言語モデルをフルスクラッチする練習 (環境構築ー前処理ー事前学習ーファインチューニングー評価まで)｜Kan Hatakeyama
112 users
note.com/kan_hatakeyama

はじめに以下のオープンなプロジェクトの一環で､大規模言語モデルをフルスクラッチで作る練習をします｡24年3月現在､協力者も募集中です｡リポジトリ当該プロジェクトの標準コードが公開※されたので､それを走らせてみます｡ ※24/3/5時点で､まだレポジトリ内に､工事中の箇所が多々､あります｡このリポ上では､事前学習ー事後学習ー評価まで､一気通貫(?)したパイプラインが提供されています※｡ 0. 環境構築プロジェクトの本番環境はクラウドですが､今回は手持ちのubuntuを使います｡ Dockerはお手軽な一方で､スパコン上で使うと､どうやら速度が落ちるらしいとの噂を聞いたので､condaで作ります(とはいえ､pipしか使わないので､pyenvでもいけると思います)｡必要なマシン適当なlinux: 例えばUbuntu 22.04.3 LTS GPU: 20 GBくらいは欲しいかも? ディスク
- テクノロジー
- 2024/03/06 04:01
pdfからtextを抜き出す試行錯誤のメモ｜Kan Hatakeyama
464 users
note.com/kan_hatakeyama

これは二段構えの構成を持っています。この二段構えを正確に検出し、テキストを理解することが望ましいです。 Unstructuredを使うPythonのライブラリであるUnstructuredを試してみましょう。参考記事導入は非常に簡単です。 pip install 'unstructured[pdf]' 実装も簡単です。解析コード： from unstructured.partition.pdf import partition_pdf pdf_elements = partition_pdf("pdf/7_71_5.pdf") 表示コード： for structure in pdf_elements: print(structure) 結果：残念ながら、2段組のカラムを正確に検出することはできませんでした。 Grobidを使うGrobidは、peS2oというオープンアクセス論文のコ
- テクノロジー
- 2024/02/23 16:18
- PDF
- あとで読む
- python
- LLM
- AI
- テキスト
- ツール
- ドキュメント
- 自然言語処理
- メモ
大規模言語モデルの構築の事前学習に使えそうなデータセット(主に日本語系)の整理メモ｜Kan Hatakeyama
6 users
note.com/kan_hatakeyama

はじめに日本語データセットが含まれるものをまとめています。情報があったら教えてください。 llm-jpの厳選リストも要参照データセットのレビューなど
- テクノロジー
- 2024/02/13 00:09
英語の学術論文をChatGPT-4で執筆する際の手順メモ｜Kan Hatakeyama
306 users
note.com/kan_hatakeyama

はじめに英語の論文をGPT4に執筆させた際の手順を記します｡普段からChatGPTを使っている人にとっては､当たり前のやり取りしかしていないのですが､意外と使えていない方がnon-AI分野では多いので､丁寧にプロンプトを示していきます｡ (ワークショップで解説する必要が出てきたので､そのためのメモ書きです) GPT-4に論文は書けるのか?ゼロから書かせるのは難しいですが､日本語の下書きを英訳するのは得意で､少なくとも筆者が満足する品質のテキストが得られます｡ GPTを使って執筆をするメリットDeepLやGoogle翻訳と違い､英文のスタイル(e.g., 論文調)を明示的に指示できるので､翻訳のクオリティが高い日本語ネイティブにとっては､日本語で書いた方が圧倒的に楽※ スペルミスや文法ミスを犯さないので､校正の手間も減る｡※ 基本的に翻訳タスクしか行っていないので､GPTが過去の類似文章
- テクノロジー
- 2024/01/05 20:40
- ChatGPT
- 英語
- 論文
- あとで読む
- LLM
- 人工知能
- AI
- 研究
- 文章生成AI
- Writing
メモリをスワッピングしながら大規模言語モデル(LLama2)をフルパラメータでファインチューニングできるかどうか?｜Kan Hatakeyama
4 users
note.com/kan_hatakeyama

更に早い規格(Thunderbolt™4: 40Gbps)も存在するようですが､用いるマシンの端子が対応しているか不明だったので､こちらの品にしました｡ GPUなどに比べ､圧倒的にSSDの転送速度が遅い点に注意が必要です｡GPU(や最先端のCPUメモリ)だとテラバイトレベルの帯域があります｡なので､今回の構成では､読み込み・書き込み速度が1/1000程度に落ちる可能性があります｡実装スワップメモリの確保nvme対応のSSDであれば､単純にdeepspeedのjson設定を"nvme"に変更するだけでOKです(リンク)｡今回のデバイスはnvme対応ではなかったので､cpuメモリにオフロードしつつ､不足部分をlinuxのスワッピング機能で補う戦略を取ります｡ SSDをフォーマットします｡(今回のケースでは､SSDは/dev/sdb2で認識されました) sudo mkfs.ext4 /de
- テクノロジー
- 2023/10/08 17:49
- あとで読む
LLama2の訓練可能な全層をQLoRAで学習する｜Kan Hatakeyama
8 users
note.com/kan_hatakeyama

理論: LoRAとフルパラメータファインチューニングではどこが異なるのか?LoRAはどこを更新するか?例えばtransformersのpeftライブラリの場合､llamaにおいてはattention 層のquery (q), value (v)のみをデフォルト設定で更新しているようです｡しかし､llama2-7bには300近い層(named_parameters)が存在します｡次のコマンドで､層を確認してみます｡ from transformers import pipeline from peft import PeftModel from transformers import AutoModelForCausalLM, AutoTokenizer, BitsAndBytesConfig import torch #モデル読み込み model_name = "meta-llama/
- テクノロジー
- 2023/10/04 03:49
大規模言語モデル(Llama2など)を正攻法でファインチューニングする際のメモ(ZeRO-Offload, not QLoRA) ｜Kan Hatakeyama
8 users
note.com/kan_hatakeyama

背景と目的大きめのサイズ(>数b)の大規模言語(LLM)をファインチューニングします｡ファインチューニングにはLoRAやQLoRAと呼ばれる手法が良く使われ､一般家庭レベル(?)のGPUでも動かせるようになってきています｡しかし､LoRAで学習させられる知識や情報には､制約があるのでは､とも囁かれています｡そこで､本記事は､loraではないフルパラメータのファインチューニングを､限られたGPUメモリで行います｡ deepspeedというライブラリを使います｡ deepspeedにはモデルの動作に必要なメモリをCPUメモリに移す機能などがあるようで､それを使います(キーワード: offload, ZeRO)｡ 7bモデルは20GB程度のVRAMで学習できました｡以下の公式チュートリアルをもとに進めたいところですが､情報が断片的で､自分にはあまり理解できなかったので､webサイトを適当
- テクノロジー
- 2023/09/25 08:18
- LLM
- AI
- 言語
- メモ
Llama2-70b-chatで専門テキスト(学会の予稿集)をファインチューニング(QLoRA)｜Kan Hatakeyama
4 users
note.com/kan_hatakeyama

概要23年8月時点におけるオープンソース大規模言語モデルの筆頭とも言えるLlama2を使い､専門テキストをファインチューニングした際のメモです｡言語モデルに知識を追加するのは､意外と難しいということがわかりました｡前提となるコード類は以下の記事などを参照学習データ筆者が所属している学会の一つである､高分子学会の年次大会(2023年)の予稿集を学習させてみることにしました｡ (学会の参加者のみが入手可能な､クローズドなデータです) pdfは単体で500 MBほどあります｡ここから､テキストだけを抜き出しました｡処理後の平文のテキストは約150万文字(3.7 MB)でした｡参考: pdf to textのコード本筋ではありませんが､解析コードを張っておきます｡ pdfの分割 #pdfの分割 import os from PyPDF2 import PdfReader, PdfWrit
- テクノロジー
- 2023/08/10 23:08
- ai
ファインチューニング(QLoRA)したLlama2-chat-70bの回答が､どの程度､「なすび化」してしまうかを確かめる｜Kan Hatakeyama
3 users
note.com/kan_hatakeyama

概要話題のLLama2をQLoraでファインチューニングなにか新規情報を学習させたときに､モデルがどの程度､何を学んでいるかを確かめます試しに､「富士山といえばなすび」というテキストでモデルを洗脳した結果を見てみます QLoRA詳細は以下の記事を参照学習データ [ { "input": "", "output": "### Human: 富士山といえば?### Assistant: なすび" }, { "input": "", "output": "### Human: 明日の天気は?### Assistant: 雪" }, { "input": "", "output": "### Human: 東京といえば?### Assistant: 神田川" }, { "input": "", "output": "### Human: AIといえば?### Assistant: Llama
- 暮らし
- 2023/07/23 15:19
llama2のセットアップメモ (ダウンロードと推論)｜Kan Hatakeyama
4 users
note.com/kan_hatakeyama

話題のモデルのセットアップ Llama2とは商用利用が可能(諸説あり)で､GPT3並の性能を持つ､オープンソースモデルの本命です(2023/7/19時点) 利用方法いくつかあります手段1 Metaの公式モデルを使う登録必要あまり使いやすくない印象です 13b以上は､GPU並列利用が基本(?) 手段2 Hugging faceの公式連携モデルを使う登録必要便利です手段3 野良モデルを使う登録不要これが一番簡単です手段1 Metaの公式モデルを使う利用申請(必須)やや特殊なライセンス形態なので､Metaに申請する必要があります｡申請には1-2日ほどかかるようです｡ → 5分で返事がきました｡モデルのダウンロード ※注意メールにurlが載ってますが､クリックしてもダウンロードできません(access deniedとなるだけです)｡指示のとおりに､ダウンロードする必要があ
- テクノロジー
- 2023/07/21 03:06
llama2のファインチューニング(QLORA)のメモ｜Kan Hatakeyama
41 users
note.com/kan_hatakeyama

2023/11/13追記以下の記事は､Llama2が公開されて数日後に書いた内容です｡公開から数ヶ月経った23年11月時点では､諸々の洗練された方法が出てきていますので､そちらも参照されることをおすすめします｡ (以下､元記事です) 話題のLamma2をファインチューニングします｡ QLoRAライブラリを使うパターンと､公式推奨の2つを試しました｡前者が個人的にはオススメです｡前提Hugging faceで配布されている公式のモデルが必要です｡以下を参考に､ダウンロードしておきます｡データセット作成 (7/20 15:20追記設定ミスってたので修正しました) test.jsonを適当に作ります｡ [ { "input": "", "output": "### Human: 富士山といえば?### Assistant: なすび" }, { "input": "", "output":
- テクノロジー
- 2023/07/21 02:48
文章を探す時にベクトル検索を行う際の課題と解決策のメモ｜Kan Hatakeyama
4 users
note.com/kan_hatakeyama

最近は､GPTのpromptにオリジナル文書を載せて回答させるchatbotが流行ってます｡文章検索は､GPTのembedベクトル計算機能を使うのが一般的で､llammaindex などのライブラリにも内蔵されています個人的には､SBERTやローカルLLMでも､大丈夫だと思っていますしかし､実際に運用してみると､思ったように動かないという問題に直面しますベクトル検索の利点 https://qdrant.tech/articles/hybrid-search/キーワード検索の利点 https://qdrant.tech/articles/hybrid-search/ベクトル検索は､意味にフォーカスした検索が可能で､従来のキーワード検索は､単語を拾うのが得意､という感じです｡ベクトル検索で個人的に困った点ベクトル検索では､目的の文書になかなか辿り着けないという問題に直面しました｡特に
- テクノロジー
- 2023/05/29 17:41
- ai
- あとで読む
vicuna-13bで embedding vectorの計算 (& GPT･RWKVとの比較)｜Kan Hatakeyama
7 users
note.com/kan_hatakeyama

背景背景はこちらの記事と同じです最近は､GPTが流行ってますしかしGPT-3.5以降はfine tuningが執筆時点でできませんなので､オリジナルデータを学習させるには､少し工夫が必要です要するに､文章のembedding vectorを計算する必要がありますしかし､GPTのAPIは地味に値段が高いため､pdfが100個くらいあったりすると､破産する恐れが出てきます目的最終的な推論はGPT-3.5 or 4にやらせるとして､embedding vectorの計算は､もう少しローコスト･低性能なLLMで良いのではないかと､誰しも考えるはずです或いは､google検索のような､index検索を使うのも手ですただしこの場合は､言語を跨いだ検索などが難しそうですそこで､一般のご家庭のPCでも動き､日々タケノコの如く報告されるLLMの中でも､群を抜いていると評判のvicuna
- テクノロジー
- 2023/04/26 11:16
- 自然言語処理
- 機械学習
RWKVでembedding vectorを計算｜Kan Hatakeyama
3 users
note.com/kan_hatakeyama

概要背景最近は､GPTが流行ってますしかしGPT-3.5以降はfine tuningが執筆時点でできませんなので､オリジナルデータを学習させるには､少し工夫が必要です要するに､文章のembedding vectorを計算する必要がありますしかし､GPTのAPIは地味に値段が高いため､pdfが100個くらいあったりすると､破産する恐れが出てきます目的最終的な推論はGPT-3.5 or 4にやらせるとして､embedding vectorの計算は､もう少しローコスト･低性能なLLMで良いのではないかと､誰しも考えるはずです或いは､google検索のような､index検索を使うのも手ですただしこの場合は､言語を跨いだ検索などが難しそうですそこで､RNNでTransformer並みの動きをすると話題のRWKVで､embedding vector的なものを計算してみようと考えまし
- テクノロジー
- 2023/04/25 20:54

はてなブックマーク

はてなブックマーク

『Kan Hatakeyama｜note』

GPT-4o(Claude)に危険物取扱者試験(甲種試験)を解かせてみる-その4: LangGraphによるエージェント化と自動の文献情報の照合｜Kan Hatakeyama

Sakana AIの「AI科学者」の読解メモ｜Kan Hatakeyama

10bクラスの大規模言語モデルが､ファインチューニングを経てタスクを解けるようになるメカニズムを探るメモ｜Kan Hatakeyama

ファインチューニング条件の検討による、10bクラスの大規模言語モデルの理解・回答能力についての検証と考察｜Kan Hatakeyama

CommonCrawlの生データをダウンロードして解析する練習｜Kan Hatakeyama

大規模言語モデルを作ります(10-50b, 2024年3-8月頃)｜Kan Hatakeyama

大規模言語モデルをフルスクラッチする練習 (環境構築ー前処理ー事前学習ーファインチューニングー評価まで)｜Kan Hatakeyama

pdfからtextを抜き出す試行錯誤のメモ｜Kan Hatakeyama

大規模言語モデルの構築の事前学習に使えそうなデータセット(主に日本語系)の整理メモ｜Kan Hatakeyama

英語の学術論文をChatGPT-4で執筆する際の手順メモ｜Kan Hatakeyama

メモリをスワッピングしながら大規模言語モデル(LLama2)をフルパラメータでファインチューニングできるかどうか?｜Kan Hatakeyama

LLama2の訓練可能な全層をQLoRAで学習する｜Kan Hatakeyama

大規模言語モデル(Llama2など)を正攻法でファインチューニングする際のメモ(ZeRO-Offload, not QLoRA) ｜Kan Hatakeyama

Llama2-70b-chatで専門テキスト(学会の予稿集)をファインチューニング(QLoRA)｜Kan Hatakeyama

ファインチューニング(QLoRA)したLlama2-chat-70bの回答が､どの程度､「なすび化」してしまうかを確かめる｜Kan Hatakeyama

llama2のセットアップメモ (ダウンロードと推論)｜Kan Hatakeyama

llama2のファインチューニング(QLORA)のメモ｜Kan Hatakeyama

文章を探す時にベクトル検索を行う際の課題と解決策のメモ｜Kan Hatakeyama

vicuna-13bで embedding vectorの計算 (& GPT･RWKVとの比較)｜Kan Hatakeyama

RWKVでembedding vectorを計算｜Kan Hatakeyama

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス

『Kan Hatakeyama｜note』

このページはまだブックマークされていません

キーボードショートカット一覧

公式Twitter

はてなのサービス

このページはまだ
ブックマークされていません