[B! LLM] [3ページ] stealthinuのブックマーク

Retrieval-Augmented Generationシステムの改善方法の紹介 - AITC - ISID | AI トランスフォーメンションセンターコラム

こんにちは、AI製品開発グループのファイサルです。この記事では、Know Narrator Searchで使用されている文章参照手法、Retrieval-Augmented Generation（RAG）の精度向上方法について紹介します。はじめに ChatGPTを始めとした大規模言語モデル（LLM）の登場により、AI業界、特に自然言語処理分野で多くの素晴らしい応用先が提案されるようになりました。 LLMは素晴らしい技術であることは間違いないですが、同時に幻覚（Hallucination）という問題を抱えています。このHallucinationという問題は、LLMが事実と異なる情報をあたかも真実であるように回答するというもので、LLMの発表当初から指摘されていました。この問題を解決するために、さまざまな手法が存在しますが、よく用いられるのが「Retrieval-Augmented G

stealthinu 2024/05/25

一番最初に「文書データのクリーニング」を持ってきてるところに信用がある記事だった。ColBERT知らんくて勉強になった。メタデータで日付順は確かにそうだな。

リンク

AI導入で企業が挫折するのはなぜ？―AI「以外」の壁にどう立ち向かうか｜Dory │ 株式会社Algomatic

はじめにこんにちは、Doryと申します！あらゆる業務をAIエージェントで変革するべく、Algomaticという生成AIスタートアップで自社サービス開発や法人向けのAI導入支援に取り組んでいます。この記事では、AI 技術を現場の実業務に導入しようとしたとき、企業が高確率でぶつかる「3つの壁」について、自身の経験も交えて記載していきます。【この記事には何が書いてある？】・AI 技術を使って業務を変革しようとするとき、必ずぶつかるのは「AI以外」の壁であること・3つの壁を乗り越えなければ、AIによる業務改革は進まないということ【この記事の想定読者】・AIを自社にも取り入れたいと考えている経営者の方・AIの社内推進がミッションの、いわゆる「AI推進室・DX推進室」の方・その他、AIの力で自社を変えたい！と考えている方以下、本文では簡単のため「AI」という表現を多用しておりますが、具

stealthinu 2024/05/25

LLMを業務へ導入する「障壁」はLLMの性能以外のところにある場合が多いという指摘。全く同意。以外にChatGPTを有効利用できてない人多いよね…　大学生はぼちぼち使ってるらしいが。

リンク

Team「たぬき」開発振り返りメモ2: Scaling lawの壁は高かったという話

はじめにチームリーダーの畠山です。開発が終盤に差し掛かってきたので、備忘録として開発の振り返りメモを書いていきます。前回の記事では、限られたリソースで高性能なモデルを作るために、3つの点に注目しました。モデルアーキテクチャの最適化事前学習用データセットの準備ファインチューニング用データセットの準備今回は、それぞれのアプローチを試した結果について説明します。タイトルにもあるように、Scaling lawの壁は高く、簡単にはうまくいきませんでした。むしろ、うまくいかない条件がわかったという知見が多く得られました[1]。モデルアーキテクチャの工夫: Branch-Train-Merge (BTM)もどきを試す BRTもどき戦略はうまくいったのか? チームでは、事前学習の際にランダムにシャッフルしたデータを使う代わりに、以下のようなカリキュラムを設定しました。各ステージの内容: S

stealthinu 2024/05/24

すっごく面白かった。Llamaベースの8Bモデルで日本語学習されてるがまず良質な学習データを揃えるところが実はだいぶ本質的問題で難しさがあることがわかる。すごく勉強になる。

リンク

AI を活用したソフトウェア開発のための個人的ガイド - Sun wood AI labs.2

https://www.reddit.com/r/LocalLLaMA/comments/1cvw3s5/my_personal_guide_for_developing_software_with_ai/?rdt=40405 はじめに私は個人プロジェクトでコードを書く際、特に自動化のためのものを書く際には、AI を活用しています。この点について、人によって意見が分かれるようです。同じように AI を使っている人もいれば、AI が良いコードを書くことは不可能だと考える人もいます。私の分野の専門家の間でも同様の考え方に遭遇し、AI の使い方が人によって異なるのかもしれないと気づきました。私自身のバックグラウンドですが、私は開発マネージャーであり、業界で長年の経験を積み、大学院でもソフトウェア開発を学んできました。ですので、このガイドは素人ではなく、大規模システムの構築と運用に関するかなり

stealthinu 2024/05/24

「AIはコンテキストが大きくなると品質が低下するためコンテキストを低く保つ」「コードレビューさせる場合はそのコードを書いたのは別のAIだと伝える」このあたりは参考になった

リンク

GPT-4oをわかりやすく解説、専門家が「時代の転換点」と評価するヤバすぎる能力とは

2024年5月に入ってすぐ、AI研究者の間ではOpenAIにまつわる複数の噂が流れていました。いわく「OpenAIが近日中に生成AIを使った検索サービスをするらしい」、「OpenAIが新型のGPTを発表するらしい」などといったものです。それに先立ち、4月の後半からは、生成AIの性能を比較するサイトで、正体不明のモデル「gpt2-chatbot」なるものが出現し、制作者が不明である中、当時最高の性能を誇っていたGPT-4を上回る性能を見せつけていました（もちろんOpenAIはすでに「GPT-2」を数年前に発表済みです）。では今更このような名前をつけて暴れ回っているこれは何なのか。OpenAI製なのか、それとも別の機関が開発したのか。この話は後々答えがわかるのですが、このようにAI研究者たちが落ち着かず、あれこれと噂してOpenAIの動向に注意している中、OpenAIは日本時間の5月11日

stealthinu 2024/05/22

GPT-4oについて今井翔太さんの解説記事。ガチ解説記事になるらしくて３回連載の１回目。

リンク

ベクトルデータの容量を96%削減するBinary Embedding

導入こんにちは、株式会社ナレッジセンスの須藤英寿です。普段はエンジニアとして、LLMを使用したチャットのサービスを提供しており、とりわけRAGシステムの改善は日々の課題になっています。 RAGのシステムの中では、どんな情報にアクセスするかを決定する際に、Embeddingと呼ばれる文章をベクトル化する技術が使用されています。そして多くの場合では小数(float)の多次元ベクトルが採用されています。しかし、Embeddingの中には各ベクトルの数値を1Bitのデータとして扱うBinary Embeddingというものが存在します。本記事では、Embeddingの手法の一つであるそのBinary Embeddingについて解説と検証を行います。サマリー Binary Embeddingを採用することで以下のような効果を得ることができます。保管するベクトルデータの容量を96%ほど削減で

stealthinu 2024/05/22

バイナリembeddingで粗く抽出しといてそれを元のfloatでrerankするとほとんど精度下がらず高速にretrieveできると。なるほどな。今のところここまでretrieve重い案件ないが今後のために。

リンク

最近ローカルLLMがアツいらしい

最近、ローカルLLMがアツくなっているという話をtwitterでチラホラ見かける。ローカルLLMって何じゃ？というと、オープンに公開されているモデルのウエイトをDLしてきて手元のPC上で推論させる事である。オープンなAIモデルとは逆の存在として、モデルがDLできないクローズなAIモデルもある。 OpenAIやAnthropicのような最先端AI企業のクローズなAIモデルに比べて、オープンに公開されているオープンなAIモデルの性能は今でもかなり後れを取っている。だから去年の間はあくまでAIの本命はChatGPTのようなクローズモデルであって、オープンなAIモデルなんて眼中にありませんみたいな風潮が無くはなかった。だが最近は風向きが少々変わってきている。 GPTのAPI高い問題＆ OpenAIがAIベンチャー皆殺しにしてしまう問題まず「結局GPTのAPIを叩いてサービス運営して成功し

stealthinu 2024/05/21

2024/5現在のローカルLLMの状況がまとめられてて今後何年かしたら歴史的資料価値が出そうなくらい。ローカルLLMは絶対に社外に情報だしたくないJTCとかで需要があると思う。

リンク

Embeddingモデルを使ったベクトル化のしくみ、fine-tuning手法を解説

自己紹介  • 名前  ◦ 早野康太  • お仕事  ◦ 自然言語モデルの改善 • 今期期待のアニメ  ◦ ユーフォ、無職転生、夜のクラゲ  このすば、ガールズバンドクライ  • 最近の映画  ◦ デデデデおもろかったです  ▪ 幾田りら声優うまスンギ  ▪ 原作もバチクソ良かった  • 今後の映画  ◦ ウマ娘、ぼざろ、デデデデなどアジェンダ  • Transf ormerモデル  ◦ Attentionについて  ◦ CLS, mean pooling  • fine-tuningについて  ◦ Contrastive Learning  ◦ データセットのつくりかた  • 世のEmbeddingモデルたちはどうしてるか  ◦ m-E5  ◦ E5-mistral-7b-instruct  ◦ BGE  • Embeddingモデルの応用  ◦ RAGとかStable Diffusi

stealthinu 2024/05/14

Embeddingモデルがどうなってるか、主に学習データと学習方法からの説明。

リンク

GPT-4o の概要｜npaka

以下の記事が面白かったので、簡単にまとめました。・Hello GPT-4o 1. GPT-4o「GPT-4o」 (「omni」の「o」) は、人間とコンピュータのより自然な対話に向けた一歩です。テキスト、音声、画像のあらゆる組み合わせを入力として受け入れ、テキスト、音声、画像の出力のあらゆる組み合わせを生成します。音声入力にはわずか232ミリ秒 (平均320ミリ秒) で応答できます。これは、人間の会話における応答時間とほぼ同じです。英語のテキストおよびコードでは「GPT-4 Turbo」のパフォーマンスに匹敵し、英語以外の言語のテキストでは大幅に改善されており、APIでははるかに高速で50%安価です。「GPT-4o」は、既存のモデルと比較して、特に視覚と音声の理解に優れています。 2. モデルの機能「GPT-4o」以前は、音声モードを使用して、平均2.8秒 (GPT-3.5) および5

stealthinu 2024/05/14

『「GPT-4o」では、テキスト、ビジョン、オーディオにわたって単一の新しいモデルをエンドツーエンドで学習しました』やっぱこれがキモだよな。

リンク

OpenAI、次世代AIモデル「GPT-4o」を発表

日本時間2024年5月14日未明、OpenAIは新たなフラッグシップモデル「GPT-4o」を発表しました。このモデルは、音声、視覚、テキストのリアルタイム処理を可能とし、従来のAIモデルを大きく上回る性能を誇ります。OpenAIのCTOであるミラ・ムクティ氏は、「GPT-4oは、人間とマシンのインタラクションの未来を大きく変える一歩です。このモデルにより、コラボレーションがはるかに自然で簡単になります」と述べました。「GPT-4o」の主な特徴を以下にまとめました。他のモデルを凌駕する性能 GPT-4oは、OpenAIの以前のモデルであるGPT-4 Turboや、ライバル会社のClaude 3 Opusなどの大規模言語モデルと比較して、頭ひとつ抜けた性能向上を実現しました。サム・アルトマンCEOは、今年4月に "Chatbot Arena" でgpt2というコードネームでテストされていた

stealthinu 2024/05/14

「gpt2」はGPT-4oだったとのこと。従来のGPT-4と比べて表現力とか理解力がすごく上がってる感じがしたのは従来モデルでも追加学習でよくなった分ということなのか…　日本語出力速度も上がってる

リンク

【まるで魔法】GPT-4o(オムニ)が登場。ChatGPTアップデートまとめ｜ChatGPT研究所

5月14日、日本時間深夜2時よりOpenAIのイベントが開催されました。イベントの内容は、AIの新しい時代の幕開けを予感させる衝撃的な発表となりました。注目すべきは、最新モデル「GPT-4o」の登場無料ユーザーへの解放の二つです。これにより、より多くのユーザーが高度なAIを手軽に利用できるようになります。今回は、このOpenAIの最新アップデートの内容を詳しく解説していきます！新しく発表されたGPT-4oとは？5月14日のイベントで発表された最新モデル「GPT-4o」（oはomniの略：【omniは「全ての」を意味する】）は、音声、視覚、テキストをリアルタイムで処理できる新しいAIモデルです。これにより、より自然な人間とAIの対話が可能になりました。主な特徴マルチモーダル対応：テキスト、音声、画像の組み合わせを入力として受け取り、同様に多様な形式の出力を生成可能。高速応

stealthinu 2024/05/14

GPT-4.5ではないんだ、と思ったが、音声会話系のアップデートがすごい…　めちゃくちゃ自然に会話出来るようになってる。今度は全二重だし歌も歌える。感情表現も豊か。

リンク

Command R+はどこまで量子化するとアホになってしまうのか？

今回は、ローカルで動かせるCommand R+の量子化モデルを色々使ってそれぞれにElyzaTasksベンチマークを解かせるという事をやる。何故そんな事をする必要があるんですか？まず、LLMのパラメータは本来1パラあたり16bitの精度で保存されている。しかし、LLMを動かすとメチャクチャメモリやVRAM食う。だから、精度を下げちゃえば省メモリになっていんじゃね？という話で、8bitやら4bitやら2bitに精度を下げちゃう事が、特にLlama.cpp界隈では常識的に行われている。これが量子化だ。というか、コンシューマレベルのPCでLLMを実用的に動かしたいと思えば、量子化はもはや必須テクである。量子化でbit数を下げれば下げるほど、当たり前だがLLMの回答の精度、クオリティは下がっていく。要するにアホになってく。8bitはまったく問題なし。6bit、5bitも全然問題なし。4bit

stealthinu 2024/05/13

Command R+を例にした量子化bit数と手法での性能劣化度合いについて。やはり4bitくらいまでならそんなに遜色ない感じ。3090が3毎あればローカルLLMが実用になる時代に。

リンク

ChatGPTの出力結果が毎回異なる理由｜IT navi

ChatGPTに同じプロンプトを入力しても、毎回同じ出力にはなりません。これは、ChatGPTが多様な文章を生成できるようにランダム性を取り入れているからですが、実は、それだけではありません。また、画像生成AIでも、同一のプロンプト、同一のシード値などを使用しているにも関わらず、生成された画像が同じものにならないことがあります。この問題に関して、MathematicaやWolfram Alphaの開発者であるStephen Wolfram氏が書いたブログ記事に面白い内容が書かれていましたので、これを参考に、解説していきたいと思います。１．ChatGPTへのランダム性の導入ChatGPTのベースとなっている大規模言語モデル（LLM）では、これまでに入力・生成されたテキストに続く次の単語（トークン）を予測して追加していくことによって文章を生成しています。単語の選択は確率に基づいて行われ

stealthinu 2024/05/11

Temperature=0でも結果揺れるのなんでだろ？と思ってたのだけど、GPUの演算順みたいな細かなところからの揺れで発生していたとは…

リンク

「知的単純作業」を自動化する、地に足の着いた大規模言語モデル (LLM) の活用

LayerX 部門執行役員・AI・LLM事業部長中村龍矢 2024/5/8 生成AI Conf

stealthinu 2024/05/10

現状のGPTやRAGを使ったシステムの限界や課題がちゃんとわかってる人が書いた内容だった。GPT-4はうまく使えたらそのへんの普通の人より性能高いのだけど、ぼやっとした指示ではぼんくら。

リンク

ChatGPT�人間のフィードバックから強化学習した対話AI

東京大学の研究室内で，今井がChatGPTの知見を共有するために使用したスライド資料です．特に以下のような話題，技術について解説しています．・ChatGPTの凄さ・ChatGPTの技術・言語モデル・プロンプト・GPTとは・InstructGPT ・言語モデルと強化学習・RLFH

stealthinu 2024/05/09

InstructGPTで人間のラベラーを使って強化学習させたのがブレークスルーだったんだな。知性はデータに宿っている。

リンク

RAFT: Adapting Language Model to Domain Specific RAG

Pretraining Large Language Models (LLMs) on large corpora of textual data is now a standard paradigm. When using these LLMs for many downstream applications, it is common to additionally bake in new knowledge (e.g., time-critical news, or private domain knowledge) into the pretrained model either through RAG-based-prompting, or fine-tuning. However, the optimal methodology for the model to gain su

stealthinu 2024/05/02

RAGとfine-tuningを組み合わせて通常のRAGよりも性能が出る手法。

リンク

RAGに質問分類させる「Adaptive-RAG」の解説

本記事では、「Adaptive-RAG」についてざっくり理解します。軽めの記事です。株式会社ナレッジセンスでは普段の業務で、生成AIやRAGシステムを活用したサービスを開発しています。この記事は何この記事は、Adaptive系で現在、最も「コスパ」が良いとされる「Adaptive-RAG」の論文[1]について、日本語で簡単にまとめたものです。今回も「そもそもRAGとは？」については、知っている前提で進みます。確認する場合は以下の記事もご参考下さい。本題ざっくりサマリー RAGの回答精度を高めるための手法です。韓国科学技術院（KAIST）の研究者らによって2024年3月に提案されました。「Adaptive-RAG」という手法を使うメリットは、ユーザーからの入力としてシンプルな質問・複雑な質問、どちらも想定される場合に、「そこまで遅くなりすぎずに、ある程度の回答精度がでる」という点

stealthinu 2024/04/30

Adaptive-RAGはT5とかの言語モデルを使って分類器を作って簡単な質問か程々の複雑さかすごく複雑かをわけてRAGの手法を切り替える。

リンク

GitHub、「Copilot Workspace」テクニカルプレビューを開始。ほとんど全ての開発工程をAIで自動化

GitHub、「Copilot Workspace」テクニカルプレビューを開始。ほとんど全ての開発工程をAIで自動化テクニカルプレビューは上記のCopilot Workspaceのページからウェイトリストボタンをクリックして申し込みます。 Copilot Workspaceはほとんど全ての工程を自動化 Copilot Workspaceは、自然言語で書かれたIssue（課題）を基に、Copilotが仕様案と実装計画を示し、コーディングや既存のコードの修正を行い、ビルドをしてエラーがあればデバッグも行うという、プログラミングのほとんど全ての工程をCopilotが自動的に実行してくれる、というものです。人間は各工程でCopilotから示される内容を必要に応じて修正するか、そのまま見守ることになります。 GitHub CEOのThomas Dohmke（トーマス・ドムケ）氏は、Copilot

stealthinu 2024/04/30

Issue立てるとそれにあわせて実行計画を立ててその後コーディングも行う（途中で人間がチェック入れることができる）現時点の性能でどこまでできるか楽しみ。

リンク

LLMプロダクト開発者がMac Studioを買ってローカルLLMを触るべき理由｜erukiti

もしあなたがLLMを使ったプロダクトを何かしら開発している、もしくは興味があるのなら、メモリを大量に積んだMac Studioの購入を検討すべきです。対象読者NVIDIAが絶対にいいという人はこの記事の対象読者ではありません。また、用途によって、ローカルマシンによるローカルLLMが向いてる・向いてないは明確にあるので、向いてない用途にしか使わない人も対象読者ではありません。あしからず。また、この記事は別にNVIDIAをdisる意図はありません。みんな違っていい。NVIDIAもいい選択肢ですが、Mac Studioも悪くないですよ、と言いたい。結論LLMプロダクト開発において、今年はもはやローカルLLMを無視できない、してはいけない状況です。 LLMプロダクト開発をする会社の視点でいえば、是非とも80GB以上の十分なGPUメモリを積んだマシンを用意できるようなアジリティを持つのが望まし