並び順

ブックマーク数

期間指定

  • から
  • まで

1 - 3 件 / 3件

新着順 人気順

top-kの検索結果1 - 3 件 / 3件

  • ついにBitNet Llama8Bが登場! CPUのみで爆速推論するLLM,BitNet.cpp|shi3z

    科学の世界では、それまでの常識が覆ることを俗に「パラダイムシフト」と呼ぶ。 しかし、もしもAIの世界にパラダイムシフトという言葉があるとしたら、今週の人類は一体何度のパラダイムシフトを経験しただろうか。 そのトドメの一撃とも言えるのが、BitNetのLlama8B版だ。 Lllama-8B構造で学習された最初のBitNetであり、全てを変えてしまうゲームチェンジャーでもある。CPUのみで秒間5-20トークンを出力する。超強力なLLM推論エンジンの出現だ。 BitNetとは、そもそも1.58ビットに相当する情報量で、本来は4ビット以上必要な大規模言語モデルの計算を劇的に高速化する技術である。 LLMの推論には通常は巨大な浮動小数点数(8ビットから16ビット)の、大量の乗算(掛け算)が必要なため、GPUなどの特殊な半導体を必要としていた。特にNVIDIAのGPUがこの目的にマッチしていたので今

      ついにBitNet Llama8Bが登場! CPUのみで爆速推論するLLM,BitNet.cpp|shi3z
    • ファクトチェックというものをAIモデルで効率的に行う試みです。 - Qiita

      ファクトチェック。 昨今の情報化社会 ファクトチェックを必要とする機会は とても多いです。 ファクトチェックというものをAIモデルで効率的に行う試みです。 プロンプトの内容が事実であるかを膨大なテキストデータで訓練されたAIモデルが判定できるのかを検証する試みです。 import http.server import socketserver import webbrowser import os import json from transformers import AutoTokenizer, AutoModelForCausalLM # モデルとトークナイザーの読み込み tokenizer = AutoTokenizer.from_pretrained("Qwen/Qwen2.5-0.5B-Instruct", use_fast=False) model = AutoModelFo

        ファクトチェックというものをAIモデルで効率的に行う試みです。 - Qiita
      • Ollama 単体では速い LLM が、なぜか Dify や Continue から使うと遅い、という時の解決方法 | Peddals Blog

        最近のオープンソース・オープンウェイトの LLM のパフォーマンスは本当にすごくて、コーディング補助なら DeepSeek Coder V2 Lite Instruct (16B)、日本語と英語のチャットや翻訳なら Llama 3.1 Instruct (8B) で十分です。Ollama をターミナルアプリから実行してチャットすると、その内容と回答スピードには本当に驚かされますね。インターネットが止まっても当分生きていける感じがします。 ところが、Dify や Visual Studio Code 用 LLM 拡張機能 Continue から Ollama の同じモデルを API で使用すると、使い物にならないくらい遅いという状況が発生しました。今回はその解決方法を紹介します。あなたの問題の原因は別のところにあるかもしれませんが、簡単に確認・修正できるので、まずは本記事の【結論】の内容を試

          Ollama 単体では速い LLM が、なぜか Dify や Continue から使うと遅い、という時の解決方法 | Peddals Blog
        1