タグ

ブックマーク / zenn.dev/kun432 (3)

  • 「LLM Compressor」を試す

    公式ブログ。2024年8月なのでちょっと古め。 Dia によるまとめ。 LLM Compressorは、vLLM向けにモデルを圧縮して推論を速くする統合ツールだよ。 ウチ的にまとめると、これマジで「重いモデルをキュッと軽くして、GPUの速いコアでぶん回す」ための新ツールだし、実運用のレイテンシとかスループットをガチで改善するやつ。テンション上がる〜✨ まずはキーアイデア LLM Compressorは、量子化やスパース化みたいな「モデル圧縮」のベストプラクティスをひとつのライブラリに集約。GPTQ・SmoothQuant・SparseGPT・RTNとかをHugging Faceモデルに対してサクッと適用できて、出力されたチェックポイントをvLLMがネイティブに読んで高速推論できるのがポイントだもん。 重さを減らすだけじゃなく、GPUのINT8/FP8の速いテンソルコアを使える形に「アクティ

    「LLM Compressor」を試す
    CLSmooth
    CLSmooth 2026/01/01
  • オープンソースのRAGアプリ「RAGFlow」を試す

    かなり新し目のフレームワークRAGプラットフォームアプリ RAGFlowとは? RAGFlowは、深い文書理解に基づいたオープンソースのRAG(Retrieval-Augmented Generation)エンジンである。LLM(大規模言語モデル)を組み合わせることで、様々な複雑なフォーマットのデータから根拠のある引用に裏打ちされた、真実味のある質問応答機能を提供し、あらゆる規模のビジネスに合理化されたRAGワークフローを提供する。

    オープンソースのRAGアプリ「RAGFlow」を試す
    CLSmooth
    CLSmooth 2024/05/28
  • gpt-4oを試す

    GPT-4o テキスト、オーディオ、ビデオの入力を扱い、テキスト、オーディオ、イメージの出力が可能。 GPT-4o以前では、ChatGPTのボイスモードが3つの異なるモデルを使用していた。 GPT-4oはこれらの機能を一つのモデルに統合し、テキスト、ビジュアル、オーディオの各入力を同一のニューラルネットワークで処理する。 現在のAPIの能力 現在のAPIは、テキスト、イメージの入力とテキストの出力をサポート 追加のモダリティ(例えばオーディオ)は現時点(2024/5/14)では使えない。近日導入される予定 Colaboratoryで動かしてみる インストール

    gpt-4oを試す
    CLSmooth
    CLSmooth 2024/05/16
  • 1