CLSmoothのブックマーク - はてなブックマーク

CLSmooth id:CLSmooth

ブックマーク / zenn.dev/kun432 (3)

「LLM Compressor」を試す
公式ブログ。2024年8月なのでちょっと古め。 Dia によるまとめ。 LLM Compressorは、vLLM向けにモデルを圧縮して推論を速くする統合ツールだよ。ウチ的にまとめると、これマジで「重いモデルをキュッと軽くして、GPUの速いコアでぶん回す」ための新ツールだし、実運用のレイテンシとかスループットをガチで改善するやつ。テンション上がる〜✨ まずはキーアイデア LLM Compressorは、量子化やスパース化みたいな「モデル圧縮」のベストプラクティスをひとつのライブラリに集約。GPTQ・SmoothQuant・SparseGPT・RTNとかをHugging Faceモデルに対してサクッと適用できて、出力されたチェックポイントをvLLMがネイティブに読んで高速推論できるのがポイントだもん。重さを減らすだけじゃなく、GPUのINT8/FP8の速いテンソルコアを使える形に「アクティ
CLSmooth 2026/01/01
リンク
オープンソースのRAGアプリ「RAGFlow」を試す
かなり新し目のフレームワークRAGプラットフォームアプリ RAGFlowとは？ RAGFlowは、深い文書理解に基づいたオープンソースのRAG（Retrieval-Augmented Generation）エンジンである。LLM（大規模言語モデル）を組み合わせることで、様々な複雑なフォーマットのデータから根拠のある引用に裏打ちされた、真実味のある質問応答機能を提供し、あらゆる規模のビジネスに合理化されたRAGワークフローを提供する。
CLSmooth 2024/05/28
リンク
gpt-4oを試す
GPT-4o テキスト、オーディオ、ビデオの入力を扱い、テキスト、オーディオ、イメージの出力が可能。 GPT-4o以前では、ChatGPTのボイスモードが3つの異なるモデルを使用していた。 GPT-4oはこれらの機能を一つのモデルに統合し、テキスト、ビジュアル、オーディオの各入力を同一のニューラルネットワークで処理する。現在のAPIの能力現在のAPIは、テキスト、イメージの入力とテキストの出力をサポート追加のモダリティ（例えばオーディオ）は現時点（2024/5/14）では使えない。近日導入される予定 Colaboratoryで動かしてみるインストール
CLSmooth 2024/05/16
リンク
1