タグ

2024年3月3日のブックマーク (3件)

  • BitNetから始める量子化入門

    はじめに BitNet、最近話題になっていますね。 そもそも量子化って何?という方もいると思うので、この記事は DeepLearning の量子化から入り、その上で BitNet の触りについて見ていこうと思います。色々とわかってないことがあり、誤読してそうなところはそう書いてるのでご了承ください。 図を作るのは面倒だったので、様々な偉大な先人様方の図やスライドを引用させていただきます。 量子化 DeepLearning における量子化 DeepLearning の学習・推論は基 float32 で行います。これを int8 や Nbit に離散化することを量子化といいます。 計算に使う値は、モデルの重み、アクティベーション(ReLUとか通した後)、重みの勾配等があります。 学習時については一旦置いておいて、この記事では推論における量子化について焦点をあてます。推論時に量子化の対象となる

    BitNetから始める量子化入門
    stealthinu
    stealthinu 2024/03/03
    まっくすさんのBitNet解説。量子化についての説明つき。
  • ロングコンテキストLLMに対応したRAGの新アーキテクチャ|npaka

    以下の記事が面白かったので、簡単にまとめました。 ・Towards Long Context RAG - LlamaIndex 1. はじめにGoogleは、1Mコンテキストウィンドウを持つ「Gemini 1.5 Pro」をリリースしました。初期ユーザーは、数十もの研究論文や財務報告書を一度に入力した結果を共有しており、膨大な情報を理解する能力という点で印象的な結果を報告しています。 当然のことながら、ここで疑問が生じます。「RAG」は死んだのでしょうか?そう考える人もいますが、そうではない人もいます。 幸運にも「Gemini 1.5 Pro」の機能をプレビューすることができ、それを試してみることで、ロングコンテキストLLMを適切に使用するには、RAGがどのように進化するのかについてのまとめました。 2. Gemini 1.5 Pro の 初期観察「Gemini」の結果は印象的で、テクニカ

    ロングコンテキストLLMに対応したRAGの新アーキテクチャ|npaka
    stealthinu
    stealthinu 2024/03/03
    Gemini 1.5のような超長いコンテキスト対応のでもRAGの必要性やその場合に必要となる技術についての話。コンテキストのキャッシュの話とかはRAGだけじゃなく重要そう。
  • 速報:話題の 1ビットLLMとは何か?|寺田英雄(㈱オープンストリームCTO)

    2024-02-27にarXiv公開され,昨日(2024-02-28)あたりから日AI・LLM界隈でも大きな話題になっている、マイクロソフトの研究チームが発表した 1ビットLLMであるが、これは、かつてB-DCGAN(https://link.springer.com/chapter/10.1007/978-3-030-36708-4_5; arXiv:https://arxiv.org/abs/1803.10930 )という「1ビットGANのFPGA実装」を研究していた私としては非常に興味をそそられる内容なので、論文を読んでみた。今回は速報として、その内容のポイントを概説したい。 論文情報 Ma, S. et al. (2024) ‘The Era of 1-bit LLMs: All Large Language Models are in 1.58 Bits’, arXiv [c

    速報:話題の 1ビットLLMとは何か?|寺田英雄(㈱オープンストリームCTO)
    stealthinu
    stealthinu 2024/03/03
    BNN->BitNet->1-bit LLMの流れなのでBNNを理解すると話が早いと。まじこれだけの違いで実現されてるの!?すげえ。