[B! llm] dannのブックマーク

Common 7B Language Models Already Possess Strong Math Capabilities

dann 2024/07/14

リンク

FlashAttention-3: Fast and Accurate Attention with Asynchrony and Low-precision

Attention, as a core layer of the ubiquitous Transf ormer architecture, is a bottleneck for large language models and long-context applications. FlashAttention (and FlashAttention-2) pioneered an approach to speed up attention on GPUs by minimizing memory reads/writes, and is now used by most libraries to accelerate Transf ormer training and inference. This has contributed to a massive increase in L

dann 2024/07/14

リンク

BigCodeBench Leaderboard

dann 2024/07/11

llm

リンク

GitHub - raghavan/PdfGptIndexer: An efficient tool for indexing and searching PDF text data using OpenAI API and FAISS (Facebook AI Similarity Search) index, designed for rapid information retrieval and superior search accuracy.

You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert

dann 2024/07/10

rag
llm

リンク

GitHub - Smit1400/EcoMed-Expert-llama-RAG-chainlit-FAISS: An advanced environmental science chatbot powered by cutting-edge technologies like Langchain, Llama2, Chatlit, FAISS, and RAG, providing insightful answers to environmental queries

dann 2024/07/10

リンク

RAGの性能を改善するための8つの戦略 | Fintan

近年、OpenAIのGPT-4やGoogleのGemini、MetaのLLaMAをはじめとする大規模言語モデル（Large Language Model：LLM）の能力が大幅に向上し、自然言語処理において優れた結果を収めています[1][2][3]。これらのLLMは、膨大な量のテキストデータで学習されており、さまざまな自然言語処理タスクにおいて、タスクに固有なデータを用いてモデルをファインチューニングすることなく、より正確で自然なテキスト生成や、複雑な質問への回答が可能となっています。 LLM-jp-eval[4]およびMT-bench-jp[5]を用いた日本語LLMの評価結果。Nejumi LLMリーダーボード Neoより取得。大規模言語モデルは近年急速な進歩を遂げていますが、これらの進歩にもかかわらず、裏付けのない情報や矛盾した内容を生成する点においては依然として課題があります。たとえ

dann 2024/07/10

rag
llm

リンク

langchain + RAGで手元の資料（新たな情報）をllmに読み込ませる

はじめに RAG（検索拡張生成）について huggingfaceなどからllmをダウンロードしてそのままチャットに利用した際、参照する情報はそのllmの学習当時のものとなります。（当たり前ですが）学習していない会社の社内資料や個人用PCのローカルなテキストなどはllmの知識にありません。このような存在しない情報をllmに与える（参照させる）手法がRAGです。ファインチューニングという手法もありますが、そちらはllmに再学習を行わせる手法です。ファインチューニングでは、llm自体に学習させることで知識を追加しますが、RAGの場合は用意したデータベースから検索することで、追加の情報を与えることができます。イメージ的には以下のような感じです。・ファインチューニング: 新しい情報を勉強させる。・RAG: 新しい情報が記載された本を持たせる。今回は比較的手軽にできるRAGを使用します[1

dann 2024/07/10

リンク

A Survey on Mixture of Experts

dann 2024/07/10

llm
moe

リンク

GENIAC: 172B 事前学習知見

はじめに東京工業大学の藤井です。今回は、GENIACにてNII 国立情報学研究所が現在(2024/7/1)も学習している172Bモデルに関連した事前学習パートに特化した学習知見について共有させていただきます。この成果は、国立研究開発法人新エネルギー・産業技術総合開発機構（ＮＥＤＯ）の助成事業（JPNP20017）の結果得られたものです。 GENIACプロジェクトにおける分散学習環境の整備に関しても同様に記事を作成しています。ぜひご覧ください。 LLMの学習大まかにLLMを作成するための手順を下記に記しました。今回は、これらの中でも特に"事前学習"に焦点を絞って知見の共有を行います。現在の学習状況まず、GENIACで学習しているモデルの現在の学習状況についてです。 2024/06/30現在、約1.45 T Token(1.45兆トークン)を事前学習にて学習済みです。以下がそ

dann 2024/07/07

llm

リンク

dahara1/gemma-2-27b-it-gguf-japanese-imatrix · Hugging Face

gemma-2-27b-itを日本語が多く含まれる重要度行列(iMatrix)を使って量子化したgguf版です。日本語対応能力が多めに保持されている事を期待していますが確かめる事はまだ出来ていません This is a quantized gguf version of gemma-2-27b-it using an importance matrix (iMatrix) that contains many Japanese words. I hope it retains more Japanese support, but I can't be sure yet. gemma-2-27b-it-Q4_K_M.ggufは最近のCPU(Ryzen 9 7940HS Processor)であれば3トークン/秒程度の速度で実行する事が確認できています。 It has been confirm

dann 2024/07/07

gemma2
llm

リンク

Transformers高速化ライブラリvLLMのAsyncLLMEngineを利用した非同期高速文章生成 - 端の知識の備忘録

概要先日までKaggleのAIMOコンペ(数学の問題をLLMに解かせて正答率を競う)に参戦していました。結果は初のチーム参加でメンバーに助けられつつ運もあり、なんとか銀メダルを取れました！これでMasterにリーチがかかりましたが、金メダルは未だ取れる気がしないので遠い道のりです……。 www.kaggle.com このコンペについて、近い内に同様のコンペが開催予定なこともあり上位解法があまり出ていない状態なので、どのような手法が良かったのかまだわかっていないのですが、とりあえず公開されている情報を元にすると、 LLMとしてはほぼほぼ全員が数学問題に特化したLLMであるDeepseek-Math-7Bを利用している LLMが出力したPythonコードを実行するインタープリターを実装することで、LLMのハルシネーションによる計算ミスを防ぐパイプラインが有力であった LLMの出力を比較的高い

dann 2024/07/06

vllm
llm

リンク

lmstudio-community/gemma-2-27b-it-GGUF · Hugging Face

dann 2024/07/06

gemma
llm

リンク

grapevine-AI/gemma-2-27b-it-gguf · Hugging Face

What is this? Googleの言語モデルgemma-2-27b-itをGGUFフォーマットに変換したものです。 imatrix dataset 日本語能力を重視し、日本語が多量に含まれるTFMC/imatrix-dataset-for-japanese-llmデータセットを使用しました。なお、謎のエラー「GGML_ASSERT: D:\a\llama.cpp\llama.cpp\ggml\src\ggml-cuda.cu:1257: to_fp32_cuda != nullptr」を回避するため、imatrixの算出においてはf16精度のモデルを使用しました。 Chat template <start_of_turn>user ここにpromptを書きます<end_of_turn> <start_of_turn>model Note llama.cpp-b3266以降でのみご

dann 2024/07/06

gemma2
llm

リンク

LoneStriker/DeepSeek-Coder-V2-Instruct-GGUF · Hugging Face

dann 2024/07/05

llm
deepseek

リンク

Deepseek-coder-v2で無料のGitHub Copilotの実現について - GMOインターネットグループグループ研究開発本部

1. はじめにこんにちは、グループ研究開発本部次世代システム研究室のT.D.Qです。今回は、DeepSeek-Coder-V2とContinue.devを使用して、無料でGitHub Copilotのようなコーディング支援環境を構築する方法をご紹介します。GitHub Copilotは有料サービスですが、オープンソースのDeepSeek-Coder-V2とContinue.devを利用することで、同様の機能を無料で実現できます。 1. DeepSeek-Coder-V2の概要 DeepSeek-Coder-V2はコードインテリジェンスの限界を押し広げる強力なオープンソース言語モデルであり、一般的な言語スキルも強力に維持しています。その性能は、多くのコーディングおよび数学ベンチマークにおいて、GPT-4 Turboなどのクローズドソースモデルに匹敵するか、あるいはそれを上回ります。 De

dann 2024/07/05

deepseek
llm

リンク

TheBloke/deepseek-coder-33B-instruct-GGUF · Hugging Face

dann 2024/07/05

llm
deepseek

リンク

RAGのSurvey論文からRAG関連技術を俯瞰する - 元生技のデータサイエンティストのメモ帳

大規模言語モデル (LLM) の学習データに含まれない知識（各社の特有の書類など）を踏まえてLLMに回答させる際に最早必須となってきたRAG (Retrieval-Augumented Generation)。今回はそんなRAGのSurvey論文を元に、RAGの変遷や構成要素、新たに出てきた技術を俯瞰していきます。 Survey論文へのリンクはこちら arxiv.org RAGとは LLMはそれ単体で回答させると、質問によってはハルシネーションや学習時のデータにはなかった情報を生成時に加味できないといった問題から正しくない回答を生成することが多々あります。例えば世間一般に公開されていない自社の就業規則や業務標準についてをChatGPTに質問しても、正しい回答は得られません。そのような問題への対応としてRAGが使われます。「LLM単体で適切な回答を生成できないなら、ユーザーの質問を元に

dann 2024/07/03

llm
rag

リンク

PrunaAI/Codestral-22B-v0.1-GGUF · Hugging Face

dann 2024/07/03

リンク

How to run Ollama only on a dedicated GPU? (Instead of all GPUs) · Issue #1813 · ollama/ollama

dann 2024/06/30

ollama
llm

リンク

GitHub - open-webui/open-webui: User-friendly WebUI for LLMs (Formerly Ollama WebUI)

🖥️ Intuitive Interface: Our chat interface takes inspiration from ChatGPT, ensuring a user-friendly experience. 📱 Responsive Design: Enjoy a seamless experience on both desktop and mobile devices. ⚡ Swift Responsiveness: Enjoy fast and responsive performance. 🚀 Effortless Setup: Install seamlessly using Docker or Kubernetes (kubectl, kustomize or helm) for a hassle-free experience. 🌈 Theme Cus

dann 2024/06/30

リンク

はてなブックマーク

タグ

関連タグで絞り込む (87)

llmに関するdannのブックマーク (262)

お知らせ

今週のはてなブックマーク数ランキング（2024年7月第2週）

はてなブックマーク透明性レポート（2024年 2月-2024年4月）

今週のはてなブックマーク数ランキング（2024年7月第1週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス