[B! LLM] [4ページ] R2Mのブックマーク

ChatGPTライクなUIのローカルLLMを構築できるGPT4Allとは？

GPT4AllでChatGPTライクなユーザーインタフェースで使える大規模言語モデルを構築する ChatGPTやMicrosoft Copilotなどの生成AIサービスは「情報漏えいなどが心配」と感じているのならば、手元のWindows 10／11上でLLM（大規模言語モデル）を構築すればよい。ChatGPTライクなユーザーインタフェースを持つ「GPT4All」を使えば、簡単にローカルLLMの構築が可能だ。 ChatGPTやMicrosoft Copilot、PerplexityなどのLLM（大規模言語モデル）／生成AIサービスを利用すると、これまで面倒だった作業が簡単にできることがある。ただ、こうした生成AIサービスは、入力データがインターネット上のどこかのサイトにアップロードされることは避けられず、どうしても情報漏えいなどのセキュリティ面で不安がある。そんな心配がある場合、手元のWi

R2M 2025/01/06

LLM

リンク

Pytorch2.0でFlash Attentionを使ってみた話

こんにちは、Fusicのハンです。株式会社Fusicでは機械学習関連のPoCから開発・運用まで様々なご相談に対応してます。もし困っていることがありましたら気軽にお声かけてください。今回はFlash Attentionを使ってみたことについて、簡単に説明しようと思います。FlashAttention: Fast and Memory-Efficient Exact Attention with IO-Awarenessで紹介されたこのAttention方法は、早くて正確なAttentionアルゴリズムを実現し、より長いSequenceでのTransf ormer学習を行うことができます。この記事では、Flash Attentionの理論的なことを解析することよりは、Pytorch2.0での実装を行う際、注意すべきな部分を整理しますので、論文の内容についてはFlashAttention -

R2M 2025/01/03

GPGPU
LLM

リンク

GPU と FlashAttension をちゃんと理解したい

はじめに ChatGPT をはじめてとして、多くの LLM が世の中に送り出された 2023 年でした。OSSとして公開されているモデルも多く試すだけであれば非常に Colab などで試せて感動しています。とはいえ、やはり一度は LLM を自分で学習させてみたい、ただ効率的な学習をさせないとお金が溶けるだけ...。そんな中見つけた記事がこちらです。さまざまな tips が載っています。 npaka san がこちらを日本語でまとめて下さっています。この記事では、上に挙げられている技術の１つである FlashAttension についてみていきます。特に、どのような改善が行われているのかを追います。（結果的にどれくらい高速になるかは詳しく述べないため他の記事を参照してください）実は FlashAttension(2022) のさらなる改善として FlashAttenstion2(20

R2M 2025/01/03

GPGPU
LLM

リンク

コーディングAI課金するならCodyが断トツ良い話

Cody とはなんぞや Cody は、VSCode や、JetBrains IDEs、Neovim、Eclipseなどのコードエディタの拡張機能として使えるコーディング補助 AI ツールです。他の生成 AI コードツールと同様に、AI コード補完とAIチャットがあります。なぜ Cody がおススメなのか Cody をおすすめする理由は、3 つです！抜群の機能性ありえんコスパオープンソース一般的なコーディング補助AIとの違いを含めてまとめていきます。 💡 抜群の機能性インストールが簡単 Cody は、普段使っているコードエディタに拡張機能をインストールするだけで導入が完了します。ブラウザを別途開いて何度もコピペしたり、Cursor のように新しいエディタを導入したりする必要はありません。チャット機能コードエディタ内に作成されたチャット欄で、AI とチャットできます。Cod

R2M 2024/12/29

リンク

Llama 3.3 70B Instruct について解説してから動かしてみる｜ぬこぬこ

tl;drMeta の最新モデル Llama 3.3 70B が公開されたよモデルカードを丁寧に手動で翻訳・解説したよ（読んで！）安全性にかなり力を入れているよ！ Transf ormers / Ollama / MLX で動かしてみたよ Llama 3.3 70B に関する Hugging Face Hub のページと GitHub の Llama 3.3 のモデルカードのページは下記になります。 Transf ormers 経由で生のモデルを使う時は、毎度のことですが Meta の Llama 系モデルを Hugging Face から利用する時は利用規約に同意する必要があるので、フォームを入力して Submit を押してください。これをしていないと最後の動作確認時に動かせないので先んじて案内します。また、生のモデルや Ollama や MLX 変換モデルなどを使いたい場合は、ファイル

R2M 2024/12/08

LLM

リンク

日本語LLMまとめ

📖 より読みやすいWeb版をご利用くださいこのREADMEの内容は、llm-jp.github.io/awesome-japanese-llm でより見やすい形式でご覧いただけます。表の表示崩れやレイアウトの問題を防ぐため、Web版の閲覧を推奨いたします。日本語LLM・海外LLMのパラメータ数の推移。日本語モデルの情報は本記事、海外モデルの情報は LifeArchitect.ai の Models table を参照しています（ただし、図のスペース上一部のモデルは省略。また、海外モデルのパラメータ数は推測値を含む）。修正・追加等ありましたらお知らせ下さい。図の更新について上記の図は2024年末までのデータに基づいており、2025年以降は更新していません。これは、近年のLLM開発において、パラメータ数の増大よりも、学習方法やデータセットの改良による競争が中心となっているためです。最

R2M 2024/12/02

LLM

リンク

日本語に特化したOCR、文書画像解析Pythonパッケージ「YomiToku」を公開しました｜Kotaro.Kinoshita

はじめに最近、LLMへのRAGを用いた文書データの連携等を目的に海外を中心にOCRや文書画像解析技術に関連する新しいサービスが活発にリリースされています。しかし、その多くは日本語をメインターゲットに開発されているわけではありません。日本語文書は、英数字に加えて、ひらがな、漢字、記号など数千種類の文字を識別する必要があったり、縦書きなど日本語ドキュメント特有のレイアウトに対処する必要があったりと日本語特有の難しさがあります。ですが、今後、海外の開発者がこれらの課題に対処するため、日本のドキュメント画像解析に特化したものをリリースする可能性は低く、やはり自国の言語向けのサービスは自国のエンジニアが開発すべきだと筆者は考えています。もちろん、Azure Document Intelligenceをはじめとした、クラウドサービスのドキュメント解析サービスはありますが、クラウドを利用できないユ

R2M 2024/11/27

LLM

リンク

LLMの概念空間の構造解明：脳のような機能別「領域」仮説　MITの研究チームが発表 | Ledge.ai

サインインした状態で「いいね」を押すと、マイページの「いいね履歴」に一覧として保存されていくので、再度読みたくなった時や、あとでじっくり読みたいときに便利です。

R2M 2024/11/17

LLM
研究

リンク

OpenAI o1の開発者がo1の仕組みなどについて語るインタビュー（日本語訳と感想）｜IT navi

ソーニャ・ホアン: 本日はノーム、ハンター、イルゲをお迎えしました。3人はOpenAIのプロジェクト・ストロベリー、別名o1の研究者です。o1はOpenAIが初めて本格的に取り組んだ汎用推論時計算で、推論、思考連鎖、推論時スケーリング則などについてチームと話し合うのを楽しみにしています。 o1への確信ソーニャ・ホアン: イルゲ、ハンター、ノーム、お越しいただきありがとうございます。そしてo1の公開おめでとうございます。まず伺いたいのですが、これがうまくいくという確信は最初からありましたか? ノーム・ブラウン: この方向性に何か有望なものがあるという確信はあったと思いますが、実際にここに至る道筋は決して明確ではありませんでした。o1を見てみると、これは一夜にしてできたものではありません。実際、何年もの研究が投入されており、その研究の多くは実際には実を結びませんでした。しかし、OpenAIとリ

R2M 2024/10/22

LLM

リンク

0.5BパラメータのLLMを一から作ろうとして心が折れかけた話

この記事について今回Transf ormerを理解したいという目的でDecoder-OnlyのLLMをスクラッチで作ることにしました。というのも、この約2年、新しいモデルが発表されなかった月はないほど目まぐるしく変化していくローカルLLMを追っていく中で、楽しさもある反面、よく分からないブラックボックスとして扱い続けるということにもやもやした気持ちを感じていました。そこで自分もモデルを一から作ってみたらよくわかるんじゃないかな？という気持ちでこのプロジェクトをスタートしました。既にローカルLLMのコミュニティでは一からモデルを作っている方は複数いるものの、今回は自身のTransf ormerに対する理解を深めることが目的ですから、なるべく頼らずにいこうと決めました。 (これが一番の過ちだったかもしれません...。) かなり長くなってしまったので「まとめ」へのリンクを貼っておきます。ま

R2M 2024/10/16

LLM

リンク

初心者がDifyでワークフローを作る際に知っておくと便利な5つのこと

はじめにこの記事で想定している読者の方: Difyの使い方にまだ馴染めていない方ワークフローで何か作ってみたい方簡単にPythonが書ける方 LLMを用いたアプリケーションをノーコード・ローコードで作成できるサービスである「Dify」がその使いやすさと拡張性の高さから最近注目を集めています。しかし, 「Difyを知っているけどまだ使って何かのアプリケーションを作ったことはない...」という方も多いのではないでしょうか。特に, 自由度が高い様々な機能を持ったノードを組み合わせることでLLMを自在に組み込んだシステムを作成できる「ワークフロー」機能は公式でも「経験豊富なユーザ向け」と紹介されている通り少し難易度が高いですが是非使ってみたい機能です。そこでこの記事では, Dify初心者の方向けに, Dify初心者だった自分が「ワークフロー」機能を用いてシステムを作ってみて詰まった部分とそ

R2M 2024/09/17

リンク

ゼロからRAGを作るならこんなふうに

どんな人向けの記事？これからRAGを作ってみたい DifyやLangChainにこだわらず、自分で開発をハンドリングしたいベクトルDBや埋め込みモデルの選定の勘所をサッと知りたいここではRAGとは何かのような話題は扱いません。 RAGが、ほぼAI活用の現実的な最適解になりつつある LLMは高度な知的タスクを実行可能である。そんな理解が世界に広まっていく中で、企業は自らが蓄えたデータをLLMに組み合わせてどう活用するか躍起になっています。これからはビッグデータだ！という時代を経ているため、情報インフラに投資した企業も多く、AIでデータを活用する流れはもはや確定路線と言えます。この問題を解決する手法として一番最初に思いつくのは、モデル自体を改変するファインチューニングです。しかし、ファインチューニングにはいくつかの実用上の問題があります。ファインチューニング自体に専門知識が必要である

R2M 2024/08/15

LLM

リンク

LLMを使ったワークフローをノーコードで作れるDifyを使ってみました - toyoshiの日記

Difyを使ってみました。クラウドベースのLLM特化のワークフロー作成ツールです。ZapierやMakeとの違いはLLMに特化してるかどうか。私の期待としてはGPTsではできない再起的なLLMの呼び出し、バッチ処理、他のソースの取り込み、コードが書けない人でもRAGが扱えるようにしたいということでした。結論から書くと期待してたことは大体できそうでした。入力としてCSVの処理が始めからついている作ったワークフローについて他のワークフローから呼び出したりWeb APIとしてすぐに使える Notionを知識のソースとして使える（Notionへのデータ挿入もDifyから自動化できるため自動で成長するチャットボットも作れそう） GPTsではできないことがコードなしでできるなおDifyはオープンソースとなっており自前でホスティングすることも可能です。今回はまずはクラウドサービスを利用してみま

R2M 2024/08/08

LLM

リンク

RAGのSurvey論文からRAG関連技術を俯瞰する - 元生技のデータサイエンティストのメモ帳

大規模言語モデル (LLM) の学習データに含まれない知識（各社の特有の書類など）を踏まえてLLMに回答させる際に最早必須となってきたRAG (Retrieval-Augumented Generation)。今回はそんなRAGのSurvey論文を元に、RAGの変遷や構成要素、新たに出てきた技術を俯瞰していきます。 Survey論文へのリンクはこちら arxiv.org RAGとは LLMはそれ単体で回答させると、質問によってはハルシネーションや学習時のデータにはなかった情報を生成時に加味できないといった問題から正しくない回答を生成することが多々あります。例えば世間一般に公開されていない自社の就業規則や業務標準についてをChatGPTに質問しても、正しい回答は得られません。そのような問題への対応としてRAGが使われます。「LLM単体で適切な回答を生成できないなら、ユーザーの質問を元に

R2M 2024/07/03

LLM
論文

リンク

ノーコードLLM統合アプリのdifyでollamaと連携してみた - Qiita

Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article? はじめに革新的な連携: ノーコードプラットフォームDifyとAIツールOllamaの連携により、開発プロセスが劇的に変革されます。探求: この記事では、両ツールの統合手順と開発者にとっての利点を詳しく探ります。Difyの直感的なインターフェースを通じて、OllamaのAIモデルを効果的に活用する方法を紹介します。 Ollamaとは Ollamaは、LLama3やLLava、vicunaやPhiなどのオープンに公開されているモデルを手元のPCやサーバーで動かすことの出来るツールです。 difyとは DifyはオープンソースのLLMアプ

R2M 2024/06/29

リンク

話題のLLMローコード構築ツールDifyをAWSのマネージドサービスで構築してみた - エムスリーテックブログ

こんにちは。エムスリーエンジニアリンググループのコンシューマチームに所属している園田です。普段の業務では AWS やサーバーサイド、フロントエンドで遊んでいるのですが、最近はもっぱら OpenAI や Claude3 で遊んでます。今回は、最近巷で話題の LLM ローコード構築ツールである Dify の OSS 版を AWS のマネージドサービスのみを使って構築してみました。 DifyとはオープンソースのLLMアプリ開発プラットフォームで、様々なLLMを使用してChatGPTのGPTsのようなものがノーコードで簡単に作れます。引用元: DifyでSEO記事作成を試してみる｜掛谷知秀試しにAskDoctorsのガイドラインHTMLをナレッジ登録してみたローカル環境で Dify を構築する記事はたくさん見かけますが、AWS のマネージドサービスで構築する内容は見かけなかった*1ので公

R2M 2024/05/31

LLM
aws

リンク

ローカルLLMの長文推論、メモリ使用量を節約する方法:KVキャッシュの量子化｜AIサトシ

大規模言語モデル（LLM）において、メモリ使用量の効率化は非常に重要です。特に長文処理を行う場合です。モデルに入力するコンテクストが長くなるほど、メモリ消費量も増加します。プロンプトに入力する文字数（Token数）と必要メモリについて計算したメモ📝 精度との兼ね合いですが、長文扱うときは、mistral-v0.1圧倒的にコスパ良い pic.twitter.com/Nqn5SXDZ9u — AI𝕏サトシ⏩ (@AiXsatoshi) May 27, 2024 Mistral-7Bは、v0.1では、約4K tokensのSliding window attention(SWA)にて、コンテクスト長に消費されるメモリを低減しました。しかし、性能への影響からと考えますが、v0.2以降のアップデートで、SWAは排除されています。入力トークンを絞ることでメモリ容量を低減すれば、当然複雑性や表現力

R2M 2024/05/30

LLM

リンク

DifyとローカルLLMを使用して複数のエージェントを設定して議論する方法 - Sun wood AI labs.2

注意: Modelfile の構文は開発中です。モデルファイルは、Ollamaでモデルを作成・共有するための設計図です。おススメ記事フォーマットModelfile のフォーマット:# コメントINSTRUCTION 引数インストラクション説... モデルプロバイダーの追加モデルタイプを選択: 「ollama」を選択します。必要な情報を入力: モデル名: llm-jp-13b-v2 Base URL: http://host.docker.internal:11434 Completion Mode: 「Chat」モデルコンテキストサイズ: 4096 最大トークン数の上限: 4096 Vision Support: 「No」を選択ワークフローの作成 4人のエージェントのシステムプロンプトを設定: 楽観的AI研究者、慎重派経済学者、AIジャーナリスト、倫理学者の4人のエージェントを作成

R2M 2024/05/28

LLM

リンク

最近ローカルLLMがアツいらしい

最近、ローカルLLMがアツくなっているという話をtwitterでチラホラ見かける。ローカルLLMって何じゃ？というと、オープンに公開されているモデルのウエイトをDLしてきて手元のPC上で推論させる事である。オープンなAIモデルとは逆の存在として、モデルがDLできないクローズなAIモデルもある。 OpenAIやAnthropicのような最先端AI企業のクローズなAIモデルに比べて、オープンに公開されているオープンなAIモデルの性能は今でもかなり後れを取っている。だから去年の間はあくまでAIの本命はChatGPTのようなクローズモデルであって、オープンなAIモデルなんて眼中にありませんみたいな風潮が無くはなかった。だが最近は風向きが少々変わってきている。 GPTのAPI高い問題＆ OpenAIがAIベンチャー皆殺しにしてしまう問題まず「結局GPTのAPIを叩いてサービス運営して成功し