タグ

LLMに関するdeejayrokaのブックマーク (124)

  • The architecture of today's LLM applications

    deejayroka
    deejayroka 2024/09/03
    ”The architecture of today’s LLM applications”
  • Emerging Architectures for LLM Applications | Andreessen Horowitz

    There are many different ways to build with LLMs, including training models from scratch, fine-tuning open-source models, or using hosted APIs. The stack we’re showing here is based on in-context learning, which is the design pattern we’ve seen the majority of developers start with (and is only possible now with foundation models). The next section gives a brief explanation of this pattern; experi

    Emerging Architectures for LLM Applications | Andreessen Horowitz
  • 【これがゲームチェンジャーか!】松尾研のTanuki-8BとTanuki-8x8Bを試す|shi3z

    なぜタヌキなのか? その謎は謎のままだが、とにかく日語性能がGemini1.5Proに次ぎ、少し前のGPT-4よりも高い上に商用利用可能という太っ腹仕様なので使わない手はない。むしろこれさえあればもう誰もGPTに課金しなくて済む、そんな未来が来るのかもしれない。 しかし、Tanukiは特殊な何かをしてるらしくMLXに簡単にコンバートできずvllmで動かすときもちょっと魔改造したvllmが必要になるという。 最近ローカルづいてる吾輩としてはできればMLXで動かしたいのだがMLXがまだTanukiに対応してない(し、そもそも何をすればTanuki対応にできるのかよくわからない)ので、とりあえず「非推奨」とされてはいるものの、Macでもギリギリ動きそうなGGUF版を動かしてみた。 from llama_cpp import Llama filename = "Tanuki-8B-dpo-v1.

    【これがゲームチェンジャーか!】松尾研のTanuki-8BとTanuki-8x8Bを試す|shi3z
  • Attentionと類似度は異なるという話

    はじめに 「Transformerのattentionはトークン間の類似度をモデリングしている」という説明をよく聞くが、この表現は適切でないことを示す。 なお、このような説明がよくされる背景としては、Transformerのdot-product attentionは内積で計算され、コサイン類似度も正規化されたベクトルの内積で計算される点によるものと思われる。しかしながら両者は正規化の有無に違いがあり、ベクトル空間に埋め込んだ時の数学的性質はかなり異なるということを稿では指摘する。 TL; DR Attention(dot-product attention)は類似度とは異なる数学的性質を持つ 類似度はトークン間の近接関係はモデリングできるが、それ以外の多様な関連をモデリングするには適さない。 dot-product attentionはトークン間の近接関係を含むさまざまな関連をモデリン

    Attentionと類似度は異なるという話
  • OCRとLLMを活用した情報抽出業務の効率化|Algomatic

    はじめに企業の業務において、請求書や領収書、名刺などの紙媒体の情報を電子化し、管理・活用することは非常に重要です。しかし、これらの作業は手作業で行うと多大な時間と労力を要します。また、人的ミスも発生しやすく、業務効率化の大きな障壁となっています。そんな中、近年、OCRの性能向上やLLMの性能向上によって、あらゆる業務の効率化できる可能性が高まっています。この記事では、写真や書類から情報を抽出する取り込み業務について、OCRとLLMを利用したソリューションについて紹介します。 情報抽出などの取り込み業務の課題情報抽出などの取り込み業務では、以下のような課題が存在します。 手作業による時間と労力の浪費 大量の書類を処理する場合、作業コストが膨大に 単純作業の繰り返しによる従業員のモチベーション低下 他の付加価値の高い業務に注力できない 人的ミスの発生 量が多くなるほど、入力ミスや誤読などの人的

    OCRとLLMを活用した情報抽出業務の効率化|Algomatic
  • Introducing LlamaCloud and LlamaParse — LlamaIndex, Data Framework for LLM Applications

    Today is a big day for the LlamaIndex ecosystem: we are announcing LlamaCloud, a new generation of managed parsing, ingestion, and retrieval services, designed to bring production-grade context-augmentation to your LLM and RAG applications. Using LlamaCloud as an enterprise AI engineer, you can focus on writing the business logic and not on data wrangling. Process large volumes of production data,

    Introducing LlamaCloud and LlamaParse — LlamaIndex, Data Framework for LLM Applications
  • RAGを専門用語に強くする手法「Golden-Retriever」

    株式会社ナレッジセンスは、生成AIやRAGを使ったプロダクトを、エンタープライズ向けに開発提供しているスタートアップです。記事では、RAGの性能を高めるための「Golden-Retriever」という手法について、ざっくり理解します。 この記事は何 この記事は、RAGシステムを専門用語に強くするための手法「Golden-Retriever」の論文[1]について、日語で簡単にまとめたものです。 今回も「そもそもRAGとは?」については、知っている前提で進みます。確認する場合は以下の記事もご参考下さい。 題 ざっくりサマリー Golden-Retrieverは、RAG(Retrieval Augmented Generation)を、業界特有の用語・社内用語を含むような質問に強くするための手法です。カリフォルニア大学の研究者らによって2024年8月に提案されました。 従来のRAGシステム

    RAGを専門用語に強くする手法「Golden-Retriever」
  • LLMプロダクト開発で学んだLLMエージェント設計原則

    こんにちは。PharmaXの上野(@ueeeeniki)です。 PharmaXでは、YOJOというサービスで複数のLLMエージェントを組み合わせたマルチエージェントの構成でチャットボットシステムを構築しています。 日は、そんなPharmaXのLLMプロダクト開発で学んだエージェント設計の原則をまとめてみたいと思います。 これまでLLMプロダクト開発に関する知見を様々なところで公開してきました。 YOJOのマルチエージェントの仕組みは下記の記事をご覧いただければと思います。 LLMアプリケーションのアーキテクチャについてまとめた資料もあります。 このあたりで、エージェントの設計のコツを一度まとめて置こうという意図です。 LLMエージェント設計原則まとめ PharmaXで培ったLLMエージェントの設計原則をまとめると以下のようになります。 RAGは当に必要な時のみ使う エージェントがこなす

    LLMプロダクト開発で学んだLLMエージェント設計原則
  • RAGで複数のLLMを使う「Speculative RAG」の解説

    株式会社ナレッジセンスは、生成AIやRAGを使ったプロダクトを、エンタープライズ向けに開発提供しているスタートアップです。記事では、「Speculative RAG」という手法について、ざっくり理解します。 この記事は何 この記事は、複数の言語モデルを利用してRAGの回答精度を上げる手法である「Speculative RAG」の論文[1]について、日語で簡単にまとめたものです。 今回も「そもそもRAGとは?」については、知っている前提で進みます。確認する場合は以下の記事もご参考下さい。 題 ざっくりサマリー Speculative RAG は、複数の言語モデルで回答生成&最良の回答を選別する手法です。Google DeepMindの研究者らによって2024年7月に提案されました。Speculative RAGを使うメリットは、小さいモデルでも回答精度を高く保てること、それにより、回答

    RAGで複数のLLMを使う「Speculative RAG」の解説
  • 富士通とCohere、日本語LLM「Takane」共同開発で戦略的提携

    富士通とCohere、日本語LLM「Takane」共同開発で戦略的提携
    deejayroka
    deejayroka 2024/07/31
    “CohereのLLMをベースとした日本語強化版である「Takane」(仮称)(高嶺:タカネ)を共同開発する。富士通は、セキュリティ面を担保し、プライベート環境でも社内データを安心して利活用できるLLMとして、9月から富士通のAIサー
  • LLM for 時系列分析の世界

    以前、【LT大会#7】LLMの活用・機械学習データ分析関係のいろいろな話題にふれようで、時系列基盤モデルについてLTをさせて頂きました。 他発表者のLTも面白く、私自身も時系列基盤モデルについて理解を深める良いきっかけとなりましたが、心残りはLLMを絡めた手法については時間を割けなかったことです。 そこで今回はLLM for 時系列分析に関するアイディアを簡単にまとめてみます。 おことわり 学習目的で調査・作成した内容がベースとなっており、誤りや他に面白い論文・事例がありましたら、教えて頂けますと幸いです。 主に以下Survey論文・Collectionリポジトリで取り上げられている内容の一部を対象としています。より網羅的に知りたい方は下記リソースを直接ご参照ください。 Large Language Models for Time Series: A Survey Position: W

    LLM for 時系列分析の世界
  • ローカルLLMとRAGで自分の外部記憶を強化しよう - VA Linux エンジニアブログ

    はじめに 自宅PC編 会社サーバ編 感想等 執筆者:佐藤友昭 ※ 「ディスアグリゲーテッドコンピューティングとは何か?」連載記事一覧はこちら はじめに 作業ログや検討メモ、参照した定型論文や書籍、ネット上の記事、視聴した講演やウェビナーのメモ等、日常を記録する情報は日々増えていく。これらの情報はできれば後に役立てたいと思うが、筆者の場合、なかなか上手くいかない。自分の外部記憶を紐解いてみると、記録したことすら忘れてしまっている項目が大半である。稿では、ローカルLLMとRAGを用いて自分の外部記憶にいろいろと質問できるようにする方法を入門的に紹介する。決してベストプラクティス的な内容ではない。 自宅PC編 まずは、普段自宅で使用しているLinux PCを実験台として使えそうか試してみてから会社のサーバに適用してみることにする。 第一の要件は、ローカル環境で動作することである。情報の性質によ

    ローカルLLMとRAGで自分の外部記憶を強化しよう - VA Linux エンジニアブログ
    deejayroka
    deejayroka 2024/07/22
    “ローカルLLMとRAGを用いて自分の外部記憶にいろいろと質問できるようにする方法を入門的に紹介”
  • LangChainから使用するLangSmithとLangfuseの詳細比較

    はじめに この記事で想定している読者の方 LangChain経由でLLMを用いたchainを使用している方 LangChainと共に使用するLLM実験管理ツールを迷っている方 「LangChain」はLLMをシステムに組み込む際に非常に便利なライブラリであり, 実際に開発に用いられている方も多いと思います。ですが, LLMの性質上プロンプトやchainの構造を変化させての実験が多くなってしまい, 記録・管理が大変になりがちです。そんな場合に使用したいLLMの実験管理ツールについて前編の記事にてLangChainから使用するために選定したLangSmithとLangfuseについて今回は実装を行った上で比較して行こうと思います! TL;DR 今回は以下の画像のデモアプリを作成し3種類のchainについて実際に記録しLangSmithとLangfuseの比較を行いました! デモアプリの入力画面

    LangChainから使用するLangSmithとLangfuseの詳細比較
  • ローカルLLMに小説を書いてもらう v2|Kohya S.

    この時はそれぞれ単独のプロンプトで小説家と編集者を演じさせましたが、今回はもうすこしシステマチックに、段階を踏んで小説を生成させてみます。 プロンプトの検討等にはkgmkm氏のリポジトリや記事を参考にさせていただきました。この場を借りてお礼申し上げます。 仕組みを相談するのにClaude (3.5 Sonnet)とやり取りをしていましたので、この記事の草稿も書いてもらいました。所々、なんとなく冗長だったり文体が違ったりしますが、面倒なのでそのままにしてあります(すみません)。 生成スクリプト生成スクリプトとプロンプト定義はgistに置きました。 https://gist.github.com/kohya-ss/68d41a9720bfbdfd87869ec970142f4b 概要近年、大規模言語モデル(LLM)の発展により、AIによる文章生成の可能性が大きく広がっています。今回はローカル環

    ローカルLLMに小説を書いてもらう v2|Kohya S.
  • ローカルLLMでzoltraakを動かせるか検証してみた

    はじめに どんな人向けの記事? ローカルLLMに興味のある人 zoltraakに興味のある方 LLMを用いて要件定義書を作りたい方 内容 今回は元木さんのZoltraakを使って、自然言語から要件定義書を作ってみようと思います。 ただし、リリースされてから2ヶ月以上経ったzoltraakを普通に動かすだけでは面白くないので、この記事ではローカルLLMを使った場合にどの程度の品質のアウトプットが得られるか、そもそもまともに使えるのかを検証してみたいと思います。 結論 結論から述べると、下記の通りになりました。 現状のローカルLLMだけでzoltraakを完全に動作させるのは難しそう。 要件定義書は問題なく作成できる。 その後の工程の、ディレクトリ・ファイル構成を作成するための実行可能なpythonコードを作ることができなかった。 grimoiresの記載を工夫することで、ある程度は改善できる

    ローカルLLMでzoltraakを動かせるか検証してみた
  • 時系列データのための大規模言語モデル

    近年の大規模言語モデル(LLM)の出現は、自然言語処理(NLP)においてパラダイムシフトをもたらし、ChatGPTをはじめとする様々な革新的サービスを生み出している。LLMの急速な進化は、NLPの領域を超えて、より広範なデータモダリティへのLLMの適用可能性を探る研究への発展を促している。その中で今回注目したのが、時系列データへのLLMの適用である。例えば、[Gruver+, 2023] では、GPT-3やLLaMA-2などの既存のLLMが、ダウンストリームタスクで教師あり学習した時系列モデルの性能に匹敵するか上回るレベルで、zero-shotで時系列予測ができることを報告しており、大変興味深い。ブログでは、2024年に公開されたサーベイ論文「Large Language Models for Time Series: A Survey」を参考にLLM for Time Seriesの全

    時系列データのための大規模言語モデル
  • GENIAC: 172B 事前学習知見

    はじめに 東京工業大学の藤井です。 今回は、GENIACにてNII 国立情報学研究所が現在(2024/7/1)も学習している172Bモデルに関連した事前学習パートに特化した学習知見について共有させていただきます。 この成果は、国立研究開発法人新エネルギー・産業技術総合開発機構(NEDO)の助成事業(JPNP20017)の結果得られたものです。 GENIACプロジェクトにおける分散学習環境の整備に関しても同様に記事を作成しています。 ぜひご覧ください。 LLMの学習 大まかにLLMを作成するための手順を下記に記しました。 今回は、これらの中でも特に"事前学習"に焦点を絞って知見の共有を行います。 現在の学習状況 まず、GENIACで学習しているモデルの現在の学習状況についてです。 2024/06/30現在、約1.45 T Token(1.45兆トークン)を事前学習にて学習済みです。 以下がそ

    GENIAC: 172B 事前学習知見
  • LLMで学習不要のレコメンドエンジンを実現

    導入 こんにちは、株式会社ナレッジセンスの須藤英寿です。普段はエンジニアとして、LLMを使用したチャットのサービスを提供しており、とりわけRAGシステムの改善は日々の課題になっています。 記事では、LLMを使用したレコメンドエンジン作成のフレームワークについて、簡潔に解説していきます。 サマリー LLMを使用したレコメンドエンジン作成のフレームワーク(以降、「提案されたレコメンドエンジン」)は、Amazonの研究チームによって発表された論文で提唱されました。 このレコメンドエンジンの特徴は、ファインチューニングを利用していないLLMとユーザーの行動(商品のクリックなど)情報を元に、レコメンドの性能を継続的に改善できる点です。ユーザーの行動をもとに、LLMにより関連性の高い商品を推測させることでレコメンドの性能を上げています。 より詳細な解説は以下の記事、もしくは論文を参照してください。

    LLMで学習不要のレコメンドエンジンを実現
    deejayroka
    deejayroka 2024/07/05
    “提案されたレコメンドエンジンは、レコメンド対象のアイテムに対する質問と当該のアイテムが選択された確率をLLMにわたすことで、より適切な質問を生成するというフローを繰り返していきます。”
  • BM42: New Baseline for Hybrid Search - Qdrant

    Please note that the benchmark section of this article was updated after the publication due to a mistake in the evaluation script. BM42 does not outperform BM25 implementation of other vendors. Please consider BM42 as an experimental approach, which requires further research and development before it can be used in production.For the last 40 years, BM25 has served as the standard for search engin

    BM42: New Baseline for Hybrid Search - Qdrant
    deejayroka
    deejayroka 2024/07/05
    “To prove the point further we have conducted some benchmarks to highlight the cases where BM42 outperforms BM25. Please note, that we didn’t intend to make an exhaustive evaluation, as we are presenting a new approach, not a new model.”
  • 「よーしパパ、Ollama で Llama-3-ELYZA-JP-8B 動かしちゃうぞー」 - Qiita

    はじめに こんにちは、KDDIアジャイル開発センターのはしもと(仮名)です。 エンドレス水出しコーヒーの時期になりましたね。 今回は、Ollama を使って日語に特化した大規模言語モデル Llama-3-ELYZA-JP-8B を動かす方法をご紹介します。 このモデルは、日語の処理能力が高く、比較的軽量なので、ローカル環境での実行に適しています。さあその性能は如何ほどに!!!!????はやくAIは俺から仕事を奪え。 Llama-3-ELYZA-JP-8Bとは Llama-3-ELYZA-JP-8Bは、ELYZA社が開発した日語に特化した大規模言語モデルです。Meta社の「Llama 3」シリーズをベースに、日語での追加学習を行っています。80億パラメータという比較的小さなモデルサイズながら、「GPT-3.5 Turbo」や「Claude 3 Haiku」、「Gemini 1.0 P

    「よーしパパ、Ollama で Llama-3-ELYZA-JP-8B 動かしちゃうぞー」 - Qiita