Attention, as a core layer of the ubiquitous Transformer architecture, is a bottleneck for large language models and long-context applications. FlashAttention (and FlashAttention-2) pioneered an approach to speed up attention on GPUs by minimizing memory reads/writes, and is now used by most libraries to accelerate Transformer training and inference. This has contributed to a massive increase in L
近年、OpenAIのGPT-4やGoogleのGemini、MetaのLLaMAをはじめとする大規模言語モデル(Large Language Model:LLM)の能力が大幅に向上し、自然言語処理において優れた結果を収めています[1][2][3]。これらのLLMは、膨大な量のテキストデータで学習されており、さまざまな自然言語処理タスクにおいて、タスクに固有なデータを用いてモデルをファインチューニングすることなく、より正確で自然なテキスト生成や、複雑な質問への回答が可能となっています。 LLM-jp-eval[4]およびMT-bench-jp[5]を用いた日本語LLMの評価結果。Nejumi LLMリーダーボード Neoより取得。 大規模言語モデルは近年急速な進歩を遂げていますが、これらの進歩にもかかわらず、裏付けのない情報や矛盾した内容を生成する点においては依然として課題があります。たとえ
はじめに RAG(検索拡張生成)について huggingfaceなどからllmをダウンロードしてそのままチャットに利用した際、参照する情報はそのllmの学習当時のものとなります。(当たり前ですが)学習していない会社の社内資料や個人用PCのローカルなテキストなどはllmの知識にありません。 このような存在しない情報をllmに与える(参照させる)手法がRAGです。 ファインチューニングという手法もありますが、そちらはllmに再学習を行わせる手法です。ファインチューニングでは、llm自体に学習させることで知識を追加しますが、RAGの場合は用意したデータベースから検索することで、追加の情報を与えることができます。 イメージ的には以下のような感じです。 ・ファインチューニング: 新しい情報を勉強させる。 ・RAG: 新しい情報が記載された本を持たせる。 今回は比較的手軽にできるRAGを使用します[1
はじめに 東京工業大学の藤井です。 今回は、GENIACにてNII 国立情報学研究所が現在(2024/7/1)も学習している172Bモデルに関連した事前学習パートに特化した学習知見について共有させていただきます。 この成果は、国立研究開発法人新エネルギー・産業技術総合開発機構(NEDO)の助成事業(JPNP20017)の結果得られたものです。 GENIACプロジェクトにおける分散学習環境の整備に関しても同様に記事を作成しています。 ぜひご覧ください。 LLMの学習 大まかにLLMを作成するための手順を下記に記しました。 今回は、これらの中でも特に"事前学習"に焦点を絞って知見の共有を行います。 現在の学習状況 まず、GENIACで学習しているモデルの現在の学習状況についてです。 2024/06/30現在、約1.45 T Token(1.45兆トークン)を事前学習にて学習済みです。 以下がそ
gemma-2-27b-itを日本語が多く含まれる重要度行列(iMatrix)を使って量子化したgguf版です。日本語対応能力が多めに保持されている事を期待していますが確かめる事はまだ出来ていません This is a quantized gguf version of gemma-2-27b-it using an importance matrix (iMatrix) that contains many Japanese words. I hope it retains more Japanese support, but I can't be sure yet. gemma-2-27b-it-Q4_K_M.ggufは最近のCPU(Ryzen 9 7940HS Processor)であれば3トークン/秒程度の速度で実行する事が確認できています。 It has been confirm
概要 先日までKaggleのAIMOコンペ(数学の問題をLLMに解かせて正答率を競う)に参戦していました。結果は初のチーム参加でメンバーに助けられつつ運もあり、なんとか銀メダルを取れました!これでMasterにリーチがかかりましたが、金メダルは未だ取れる気がしないので遠い道のりです……。 www.kaggle.com このコンペについて、近い内に同様のコンペが開催予定なこともあり上位解法があまり出ていない状態なので、どのような手法が良かったのかまだわかっていないのですが、とりあえず公開されている情報を元にすると、 LLMとしてはほぼほぼ全員が数学問題に特化したLLMであるDeepseek-Math-7Bを利用している LLMが出力したPythonコードを実行するインタープリターを実装することで、LLMのハルシネーションによる計算ミスを防ぐパイプラインが有力であった LLMの出力を比較的高い
What is this? Googleの言語モデルgemma-2-27b-itをGGUFフォーマットに変換したものです。 imatrix dataset 日本語能力を重視し、日本語が多量に含まれるTFMC/imatrix-dataset-for-japanese-llmデータセットを使用しました。 なお、謎のエラー「GGML_ASSERT: D:\a\llama.cpp\llama.cpp\ggml\src\ggml-cuda.cu:1257: to_fp32_cuda != nullptr」を回避するため、imatrixの算出においてはf16精度のモデルを使用しました。 Chat template <start_of_turn>user ここにpromptを書きます<end_of_turn> <start_of_turn>model Note llama.cpp-b3266以降でのみご
1. はじめに こんにちは、グループ研究開発本部 次世代システム研究室のT.D.Qです。今回は、DeepSeek-Coder-V2とContinue.devを使用して、無料でGitHub Copilotのようなコーディング支援環境を構築する方法をご紹介します。GitHub Copilotは有料サービスですが、オープンソースのDeepSeek-Coder-V2とContinue.devを利用することで、同様の機能を無料で実現できます。 1. DeepSeek-Coder-V2の概要 DeepSeek-Coder-V2はコードインテリジェンスの限界を押し広げる強力なオープンソース言語モデルであり、一般的な言語スキルも強力に維持しています。その性能は、多くのコーディングおよび数学ベンチマークにおいて、GPT-4 Turboなどのクローズドソースモデルに匹敵するか、あるいはそれを上回ります。 De
大規模言語モデル (LLM) の学習データに含まれない知識(各社の特有の書類など)を踏まえてLLMに回答させる際に最早必須となってきたRAG (Retrieval-Augumented Generation)。 今回はそんなRAGのSurvey論文を元に、RAGの変遷や構成要素、新たに出てきた技術を俯瞰していきます。 Survey論文へのリンクはこちら arxiv.org RAGとは LLMはそれ単体で回答させると、質問によってはハルシネーションや学習時のデータにはなかった情報を生成時に加味できないといった問題から正しくない回答を生成することが多々あります。例えば世間一般に公開されていない自社の就業規則や業務標準についてをChatGPTに質問しても、正しい回答は得られません。 そのような問題への対応としてRAGが使われます。 「LLM単体で適切な回答を生成できないなら、ユーザーの質問を元に
🖥️ Intuitive Interface: Our chat interface takes inspiration from ChatGPT, ensuring a user-friendly experience. 📱 Responsive Design: Enjoy a seamless experience on both desktop and mobile devices. ⚡ Swift Responsiveness: Enjoy fast and responsive performance. 🚀 Effortless Setup: Install seamlessly using Docker or Kubernetes (kubectl, kustomize or helm) for a hassle-free experience. 🌈 Theme Cus
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く