並び順

ブックマーク数

期間指定

  • から
  • まで

1 - 40 件 / 63件

新着順 人気順

Qwenの検索結果1 - 40 件 / 63件

タグ検索の該当結果が少ないため、タイトル検索結果を表示しています。

Qwenに関するエントリは63件あります。 AI人工知能LLM などが関連タグです。 人気エントリには 『第2のDeepSeekショック? オープンな中国LLM「Qwen3」シリーズが破格の性能で話題 最大モデルはOpenAI o1やGemini 2.5 Proに匹敵、たった4BでもGPT-4oレベルに』などがあります。
  • 第2のDeepSeekショック? オープンな中国LLM「Qwen3」シリーズが破格の性能で話題 最大モデルはOpenAI o1やGemini 2.5 Proに匹敵、たった4BでもGPT-4oレベルに

    第2のDeepSeekショック? オープンな中国LLM「Qwen3」シリーズが破格の性能で話題 最大モデルはOpenAI o1やGemini 2.5 Proに匹敵、たった4BでもGPT-4oレベルに 中国Alibabaが4月29日(現地時間)に発表した、大規模言語モデル「Qwen」の最新版となる「Qwen3」シリーズが話題だ。フラッグシップモデルの「Qwen3-235B-A22B」は「DeepSeek-R1」の半分未満のパラメータ数ながら、OpenAIのo1やo3-mini、GoogleのGemini 2.5 Proなど他のトップモデルと並ぶ性能を達成したという。「Qwen3-4B」は小さなモデルでありながらも「GPT-4o」を多くの項目で上回るとしている。 公開した全てのモデルがオープンウェイトであるため、フラグシップの235B-A22B以外はデスクトップ向けハイエンドGPUなどで動作さ

      第2のDeepSeekショック? オープンな中国LLM「Qwen3」シリーズが破格の性能で話題 最大モデルはOpenAI o1やGemini 2.5 Proに匹敵、たった4BでもGPT-4oレベルに
    • Qwen3はローカルLLMの世界を変えたかも - きしだのHatena

      Qwen3が出ていて、14Bを中心にいろいろ試したのだけど、かなり使い物になって、日常的な用途ではこれでいいのでは、という感じもします。 4BでもGPT-4oを越えているという話もありますが、確かに単純な用途ではGPT-4oの代わりにしてもいいなと場面も割とありそうな出力です。さすがにちょっと込み入ったものだと4oだけど。 1.7Bなど小さいモデルも既存のモデルより使えるものになっていて、ローカルLLMの世界を変えそう。 解説動画も撮りました。 サイズとしては0.6B, 1.7B, 4B, 8B, 14B, 32Bと、MoEモデルの30B-A3B, 235B-A22Bです。 30B-A3Bが賢いというベンチマークだけど、コーディング用途だと14Bや32Bのほうがいいかも。MacならMLXで30B-A3Bは めちゃ速くていいけど。という感じでどのサイズにも用途があってすごい。 GitHub

        Qwen3はローカルLLMの世界を変えたかも - きしだのHatena
      • cyberagent/DeepSeek-R1-Distill-Qwen-32B-Japanese · Hugging Face

        DeepSeek-R1-Distill-Qwen-32B-Japanese Model Description This is a Japanese finetuned model based on deepseek-ai/DeepSeek-R1-Distill-Qwen-32B. Usage from transformers import AutoModelForCausalLM, AutoTokenizer, TextStreamer model = AutoModelForCausalLM.from_pretrained("cyberagent/DeepSeek-R1-Distill-Qwen-32B-Japanese", device_map="auto", torch_dtype="auto") tokenizer = AutoTokenizer.from_pretrained

          cyberagent/DeepSeek-R1-Distill-Qwen-32B-Japanese · Hugging Face
        • Qwen3 の概要|npaka

          以下の記事が面白かったので、簡単にまとめました。 ・Qwen3: Think Deeper, Act Faster 1. Qwen3本日 (2025年4月28日) 、「Qwen3」をリリースしました。「Qwen3-235B-A22B」は、「DeepSeek-R1」「o1」「o3-mini」「Grok-3」「Gemini-2.5-Pro」などの他のトップティアモデルと比較して、コーディング、数学、一般的な機能などのベンチマーク評価で競争力のある結果を達成しています。さらに、小型のMoEである「Qwen3-30B-A3B」は、10倍のアクティブパラメータを持つ「QwQ-32B」を凌駕し、「Qwen3-4B」のような小さなモデルでさえ、「Qwen2.5-72B-Instruct」の性能に匹敵します。 2つのMoEモデルをオープンウェイト化しています。「Qwen3-235B-A22B」は、総パラメ

            Qwen3 の概要|npaka
          • 数学を解ける言語モデル「Qwen2-Math」が登場、GPT-4o超えの数学性能

            中国のAI研究チームが数学特化の大規模言語モデル「Qwen2-Math」を公開しました。Qwen2-MathはGPT-4oやGemini-1.5-Proなどのクローズドソースの大規模言語モデルをしのぐ数学性能を備えています。 Introducing Qwen2-Math | Qwen https://qwenlm.github.io/blog/qwen2-math/ QwenLM/Qwen2-Math: A series of math-specific large language models of our Qwen2 series. https://github.com/QwenLM/Qwen2-Math Qwen2-Mathは、AlibabaグループのAI研究チーム「Qwen Team」が開発した大規模言語モデルで、数学問題の正答率の高さが特徴です。Qwen2-Mathは非常に高い

              数学を解ける言語モデル「Qwen2-Math」が登場、GPT-4o超えの数学性能
            • プログラマー必見!LMStudioとQwen3で始めるローカルAI開発環境構築 - Qiita

              Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article? 最近、AIの世界がマジで熱いんですよね。特に大規模言語モデル(LLM)の進化が半端ないです。昨日、Qwenチームが新しいモデル「Qwen3」をリリースしたんですが、これがかなりのモンスターなんですよ。コーディングや数学、推論タスクでめちゃくちゃ良い成績を出してるんです。 僕は普段からローカルでAIモデルを動かすのが好きなんですけど、今回はLMStudioを使ってQwen3を自分のマシンで動かしてみました。クラウドAPIも便利ですけど、やっぱり自分のPCで動かせると、プライバシーの心配もないし、コスト管理もしやすいんですよね。それに、オフ

                プログラマー必見!LMStudioとQwen3で始めるローカルAI開発環境構築 - Qiita
              • オープンソースのコーディング支援AI「Qwen2.5-Coder」シリーズの性能はGPT-4oに匹敵、64GBのRAM&M2搭載MacBook Proでもローカル実行可能

                中国・Alibabaグループが開発する大規模言語モデル(LLM)「Qwen」の研究チームが、コード生成や補完、数学の推論タスクに特化したLLM「Qwen2.5-Coder」の新モデルを2024年11月12日にリリースしました。Qwen2.5-Coderのコーディング機能はGPT-4oに匹敵し、パラメータ数も最大320億で、M2搭載MacBook Pro上でも実行できたことが報告されています。 Qwen2.5-Coder Series: Powerful, Diverse, Practical. | Qwen https://qwenlm.github.io/blog/qwen2.5-coder-family/ Qwen2.5-Coderは2024年10月にテクニカルレポートが発表されており、この時にパラメータ数15億(1.5B)のモデルと70億(7B)のモデルがオープンソースで公開されてい

                  オープンソースのコーディング支援AI「Qwen2.5-Coder」シリーズの性能はGPT-4oに匹敵、64GBのRAM&M2搭載MacBook Proでもローカル実行可能
                • DeepSeekにほぼ並ぶ性能を実現したオープンソースのAIモデル「QWQ-32B」をQwenが公開、誰でも無料で動かせるデモページも公開中

                  Alibaba CloudのAI研究チームであるQwenが、AIモデル「QWQ-32B」を2025年3月6日にリリースしました。320億パラメーターのモデルでありながら6710億パラメーターのDeepSeek-R1と同等の性能を持つとされています。 QwQ-32B: Embracing the Power of Reinforcement Learning | Qwen https://qwenlm.github.io/blog/qwq-32b/ DeepSeek-R1は強化学習(RL)を活用することで従来の事前トレーニングおよび事後トレーニングの方法を超えて高いパフォーマンスを発揮しています。あまりにも性能が高かったため、2025年1月にDeepSeek-R1が登場した際にはNVIDIAの時価総額が91兆円も下がるなど大きな混乱を引き起こしました。 DeepSeekはなぜこんな大騒ぎにな

                    DeepSeekにほぼ並ぶ性能を実現したオープンソースのAIモデル「QWQ-32B」をQwenが公開、誰でも無料で動かせるデモページも公開中
                  • GPT-4oやo1より高性能な推論モデル「Qwen3」をAlibabaが発表、フラグシップモデルの「Qwen3-235B-A22B」はパラメーター数2350億&アクティブパラメーター数220億

                    中国のAlibabaが開発する大規模言語モデル(LLM)ファミリーのQwenに、「Qwen3」が登場しました。Qwen3には2つの混合エキスパート(MoE)モデルと、6つのDenseモデルが含まれており、パラメーターサイズは6億から2350億までと非常に幅広いです。 Qwen3: Think Deeper, Act Faster | Qwen https://qwenlm.github.io/blog/qwen3/ GitHub - QwenLM/Qwen3: Qwen3 is the large language model series developed by Qwen team, Alibaba Cloud. https://github.com/QwenLM/Qwen3 Alibaba unveils Qwen3, a family of 'hybrid' AI reasonin

                      GPT-4oやo1より高性能な推論モデル「Qwen3」をAlibabaが発表、フラグシップモデルの「Qwen3-235B-A22B」はパラメーター数2350億&アクティブパラメーター数220億
                    • Alibabaが新たなAIモデル「Qwen2.5-VL-32B」をオープンソースでリリース、画像解析や数学の能力が向上

                      Alibaba CloudのAI研究チームであるQwenが、2025年1月にリリースした視覚言語モデル「Qwen2.5 VL」シリーズをベースに新たな視覚言語モデル「Qwen2.5-VL-32B」をリリースしました。画像解析やコンテンツ認識の精度が上がり、回答の品質が向上しています。 Qwen2.5-VL-32B: Smarter and Lighter | Qwen https://qwenlm.github.io/blog/qwen2.5-vl-32b/ 2025年1月にリリースされたQwen2.5 VLにはパラメーターのサイズが異なる「3B」「7B」「72B」という3つのモデルが存在しています。最もサイズの大きい72BモデルはGPT-4oやGemini 2.0 Flashを超える性能を持ちます。 PCやスマートフォンのUIを認識して自動操作できる視覚言語モデル「Qwen2.5 VL」

                        Alibabaが新たなAIモデル「Qwen2.5-VL-32B」をオープンソースでリリース、画像解析や数学の能力が向上
                      • GPT-4oやDeepSeek-V3よりも高性能なAIモデル「Qwen2.5-Max」を中国IT大手のAlibabaがリリース

                        Alibaba CloudのAI研究チームであるQwenが、AIモデル「Qwen2.5-Max」を2025年1月28日にリリースしました。Qwen2.5-Maxは複数のテストでGPT-4oやDeepSeek-V3を上回るスコアを記録しています。 Qwen2.5-Max: Exploring the Intelligence of Large-scale MoE Model | Qwen https://qwenlm.github.io/blog/qwen2.5-max/ Qwen2.5-Maxは、20兆トークン以上の学習データを用いて事前トレーニングしたベースモデルに対して教師ありファインチューニング(SFT)や人間のフィードバックによる強化学習(RLHF)を施して作成されたMoEモデルで、モデルの規模を示すパラメーター数は1000億に達しています。 Qwen2.5-Maxの性能の高さを示

                          GPT-4oやDeepSeek-V3よりも高性能なAIモデル「Qwen2.5-Max」を中国IT大手のAlibabaがリリース
                        • 【ローカルLLM】Qwen3を使ってみた話【中国最新AI】|Catapp-Art3D

                          はじめにOllamaで大規模言語モデルQwen3が利用可能になったので利用してみました。日本語も公式対応しています。 ただし、筆者の主力GPUであるRTX 3060はFramepack「叡智」版のテストに利用しているので、GTX 1660ti+1650上でのQwen3 8B版の動作確認です。 上記ページをQwen3 8B版で日本語要約しました。 Thought for 22 seconds このドキュメントは、Qwenチームが最新の大規模言語モデル「Qwen3」を発表した内容をまとめています。以下に要約します: 【モデル概要】 Qwen3は、2350億パラメータの大規模モデル(Qwen3-235B-A22B)と、300億パラメータのMoEモデル(Qwen3-30B-A3B)を含むファミリーです。また、4B、8B、14B、32Bなど、さまざまなサイズの密集型モデルも提供され、すべてApach

                            【ローカルLLM】Qwen3を使ってみた話【中国最新AI】|Catapp-Art3D
                          • PCやスマートフォンのUIを認識して自動操作できる視覚言語モデル「Qwen2.5 VL」をAlibabaのAI研究チームがリリース、GPT-4o超えの性能で航空券の予約などを自動で実行可能

                            Alibaba CloudのAI研究チームであるQwenが、視覚言語モデル「Qwen2.5 VL」をリリースしました。Qwen2.5 VLは画像に含まれる被写体の種類を認識したり文字を書き起こしたりできるだけでなく、PCやスマートフォンのUIを認識して自動操作することもできます。 Qwen2.5 VL! Qwen2.5 VL! Qwen2.5 VL! | Qwen https://qwenlm.github.io/blog/qwen2.5-vl/ 🎉 恭喜发财🧧🐍 As we welcome the Chinese New Year, we're thrilled to announce the launch of Qwen2.5-VL , our latest flagship vision-language model! 🚀 💗 Qwen Chat: https://t.co

                              PCやスマートフォンのUIを認識して自動操作できる視覚言語モデル「Qwen2.5 VL」をAlibabaのAI研究チームがリリース、GPT-4o超えの性能で航空券の予約などを自動で実行可能
                            • 自律AIたちが議論する環境「TinyTroupe」をMicrosoftが開発、GPT-4o級のコーディングができるオープンソースAI「Qwen2.5-Coder」など生成AI技術5つを解説(生成AIウィークリー) | テクノエッジ TechnoEdge

                              2014年から先端テクノロジーの研究を論文単位で記事にして紹介しているWebメディアのSeamless(シームレス)を運営し、執筆しています。 Google DeepMindは、タンパク質構造予測モデル「AlphaFold3」の基盤となるコードをオープンソース化しました。AlphaFold3の開発者は、2024年のノーベル化学賞を受賞したことで知られています。 Googleは、「Gemini-Exp-1114」をリリースしました。性能が高く、業界標準のリーダーボード(Chatbot Arena)で総合ランキング1位を獲得しました。 OpanAIは、ChatGPTがデスクトップPCでも気軽に使えるように、macOS版に加えてWindows版のアプリケーションをリリースしました。 さて、この1週間の気になる生成AI技術・研究をいくつかピックアップして解説する「生成AIウィークリー」(第72回)

                                自律AIたちが議論する環境「TinyTroupe」をMicrosoftが開発、GPT-4o級のコーディングができるオープンソースAI「Qwen2.5-Coder」など生成AI技術5つを解説(生成AIウィークリー) | テクノエッジ TechnoEdge
                              • Qwen2.5とDeepSeek R1を利用した日本語大規模言語モデル「Qwen2.5 Bakeneko 32B」シリーズを公開|rinna株式会社

                                ホーム ニュース Qwen2.5とDeepSeek R1を利用した日本語大規模言語モデル「Qwen2.5 Bakeneko 32B」シリーズを公開 DeepSeek R1を用いた蒸留学習により効率よく日本語思考能力を強化 rinna株式会社 (本社:東京都渋谷区/代表取締役:宋 珠憲、以下rinna) は、Qwen2.5とDeepSeek R1を利用し、高い日本語テキストの生成能力を持った「Qwen2.5 Bakeneko 32B」シリーズを開発し、Apache-2.0 Licenseで公開したことを発表します。 ■ rinnaのモデル公開活動 これまでにrinnaでは、日本語のタスクに適したGPT・BERT・HuBERT・CLIP・Stable Diffusionなど、テキスト・音声・画像に関する基盤モデルを公開してきました。2021年4月からHugging Faceに公開してきたrin

                                  Qwen2.5とDeepSeek R1を利用した日本語大規模言語モデル「Qwen2.5 Bakeneko 32B」シリーズを公開|rinna株式会社
                                • ClineとローカルLLMを用いたNext.jsアプリ開発に挑戦〜Qwen2.5-Coder-32B-Instructを使ってみた(後編)〜

                                  1. Ubuntu 24.04.1 LTS (Core i5-8400 + メインメモリ 16GB) 2. Mac Studio (M2 Ultra 128GB) # ollama server 概要 前回の記事に引き続き、Qwen2.5-Coder-32B-Instruct を用いて、アプリ開発がどの程度出来るかを検証していきたいと思います。 以下のように前編と後編に分けて記事にしました。 前編(前回の記事) Shaberi3 ベンチマーク評価 Open WebUI を用いた html + css + javascript の簡単なアプリ OSS 版 Bolt.new 後編(今回の記事) API や DB 機能具備した Next.js アプリ ということで、今回は前回に比べてもう少し複雑なアプリ開発に挑戦しようと思います。 具体的にはAPI 機能と DB 機能を有した初歩的な Next.

                                    ClineとローカルLLMを用いたNext.jsアプリ開発に挑戦〜Qwen2.5-Coder-32B-Instructを使ってみた(後編)〜
                                  • WSL2でDeepSeek-R1-Distill-Qwen-32B-Japaneseをllama.cppで試してみる|noguchi-shoji

                                    株価を暴落させているDeepSeekの蒸溜モデルをCyberAgentさんが追加学習したモデルであるDeepSeek-R1-Distill-Qwen-32B-Japanese。これをmomongaさんが量子化したモデル、を試してみます。 momongaさん、ありがとうございます。 使用するPCはドスパラさんの「GALLERIA UL9C-R49」。スペックは ・CPU: Intel® Core™ i9-13900HX Processor ・Mem: 64 GB ・GPU: NVIDIA® GeForce RTX™ 4090 Laptop GPU(16GB) ・GPU: NVIDIA® GeForce RTX™ 4090 (24GB) ※外付け ・OS: Ubuntu22.04 on WSL2(Windows 11) です。 1. llama.cppのセットアップllama-cpp-pyth

                                      WSL2でDeepSeek-R1-Distill-Qwen-32B-Japaneseをllama.cppで試してみる|noguchi-shoji
                                    • 中国AIが加速。Soraに匹敵する中国の動画生成AI「KLING」、中国アリババの最新オープンLLM「Qwen 2」登場など生成AI関連技術5つを紹介(生成AIウィークリー) | テクノエッジ TechnoEdge

                                      2014年から先端テクノロジーの研究を論文単位で記事にして紹介しているWebメディアのSeamless(シームレス)を運営し、執筆しています。 1週間分の生成AI関連論文の中から重要なものをピックアップし、解説をする連載です。第50回目は、生成AI最新技術の概要5つを紹介します。 生成AI論文ピックアップ Soraに匹敵する動画生成AI「KLING」登場。中国のショート動画アプリ開発チーム「快手」が手がける> アリババグルーブが開発するオープンソースな大規模言語モデルの新バージョン「Qwen 2」登場 ラベルなし静止画の学習だけ、ビデオ内の動く物体を検出・追跡できるモデル「MASA」 相手が話している適切なタイミングで同時翻訳するAIモデル「StreamSpeech」 OpenAIが大規模言語モデルの中身を理解するモデルを発表。GPT-4の中身は1600万の特徴を持つ Soraに匹敵する動

                                        中国AIが加速。Soraに匹敵する中国の動画生成AI「KLING」、中国アリババの最新オープンLLM「Qwen 2」登場など生成AI関連技術5つを紹介(生成AIウィークリー) | テクノエッジ TechnoEdge
                                      • 新しくでた中国AlibabaのローカルLLMモデルQwen2が超絶賢く日本語OK。僅か7BでChatGPT3.5を超える性能?llama.cppやOllamaで動作。驚異的な中国勢に驚きを隠せない性能

                                        ぬこぬこ @schroneko Qwen 2 みんな触られましたかね?指示性能と知識えぐない...?0.5B の海外モデルで日本語話せるなんて聞いていないよ... 0.5B: huggingface.co/spaces/Qwen/Qw… 1.5B: huggingface.co/spaces/Qwen/Qw… 7B: huggingface.co/spaces/Qwen/Qw… 57b-a14b: huggingface.co/spaces/Qwen/Qw… 72B: huggingface.co/spaces/Qwen/Qw… pic.twitter.com/yKZM82TfW2 2024-06-07 12:57:23 Kapper@Linuxガジェヲタ&異世界小説家&生成AI&電子工作大好き @kapper1224 ChatGPT3.5相当と噂されているQwen2 7B 日本語もばっち

                                          新しくでた中国AlibabaのローカルLLMモデルQwen2が超絶賢く日本語OK。僅か7BでChatGPT3.5を超える性能?llama.cppやOllamaで動作。驚異的な中国勢に驚きを隠せない性能
                                        • AlibabaのQwenチームがOpenAI o1に匹敵する推論モデル「QwQ-32B-Preview」を発表、数学や科学的推論において優れた性能を発揮

                                          Alibabaの大規模言語モデル「Qwen」の研究チームが、推論機能の向上に焦点を当てた実験的な研究モデル「QwQ-32B-Preview」を発表しました。研究チームは、QwQ-32B-Previewの推論能力はOpenAI o1に匹敵すると主張しています。 QwQ: Reflect Deeply on the Boundaries of the Unknown | Qwen https://qwenlm.github.io/blog/qwq-32b-preview/ Qwen/QwQ-32B-Preview · Hugging Face https://huggingface.co/Qwen/QwQ-32B-Preview Alibaba releases an 'open' challenger to OpenAI's o1 reasoning model | TechCrunch h

                                            AlibabaのQwenチームがOpenAI o1に匹敵する推論モデル「QwQ-32B-Preview」を発表、数学や科学的推論において優れた性能を発揮
                                          • GitHub - lobehub/lobe-chat: 🤯 Lobe Chat - an open-source, modern-design AI chat framework. Supports Multi AI Providers( OpenAI / Claude 3 / Gemini / Ollama / DeepSeek / Qwen), Knowledge Base (file upload / knowledge management / RAG ), Multi-Modals (Plug

                                            You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert

                                              GitHub - lobehub/lobe-chat: 🤯 Lobe Chat - an open-source, modern-design AI chat framework. Supports Multi AI Providers( OpenAI / Claude 3 / Gemini / Ollama / DeepSeek / Qwen), Knowledge Base (file upload / knowledge management / RAG ), Multi-Modals (Plug
                                            • Qwen2.5 Technical Reportの中に潜る - ABEJA Tech Blog

                                              ABEJAでデータサイエンス部の部長をしながら色々やっている大谷です。 今回は2024年12月19日に公開された待望のQwen2.5 Technical Reportについて日本語に翻訳しつつ、適宜コメントを入れていく記事を書いていこうと思います。コメントはですます口調で記述しています。 先にネタバレですが、Qwen2.5は特別新しい技術を導入しているわけではなく、これまで積み重ねてきた知見を着実に活かして精度を向上させています。この記事では、新しい観点の発見というよりも、これまでの有効な知見を再確認するきっかけにしていただければ嬉しいです。 ちなみにこちらの記事はABEJAアドベントカレンダー2024年の12/23分です。 裏話ですが、12月の頭にラスベガスで開催された「AWS re:Invent 2024」(re:Invent)にABEJAも参加していたので、本記事はそちらをテーマにす

                                                Qwen2.5 Technical Reportの中に潜る - ABEJA Tech Blog
                                              • ディープシーク「上回った」 中国アリババが新型生成AI「Qwen2・5―Max」発表

                                                中国の電子商取引(EC)大手アリババグループの傘下企業は29日、中国の新興企業「DeepSeek(ディープシーク)」が開発した高性能の生成人工知能(AI)を上回ったとする最新モデルを発表した。生成AIの開発競争が激化している。 傘下企業アリババクラウドが発表したAIモデルの名称は「Qwen2・5―Max」。性能テストでディープシークの生成AIを上回ったと説明している。 ディープシークが開発したAIモデルは低コストで高い性能を実現したとされ、米国企業に衝撃を与えていた。(共同)

                                                  ディープシーク「上回った」 中国アリババが新型生成AI「Qwen2・5―Max」発表
                                                • Qwen3: Think Deeper, Act Faster

                                                  The post-trained models, such as Qwen3-30B-A3B, along with their pre-trained counterparts (e.g., Qwen3-30B-A3B-Base), are now available on platforms like Hugging Face, ModelScope, and Kaggle. For deployment, we recommend using frameworks like SGLang and vLLM. For local usage, tools such as Ollama, LMStudio, MLX, llama.cpp, and KTransformers are highly recommended. These options ensure that users c

                                                  • AlibabaのQwenチームが画像を認識できるオープンウェイトAIモデル「QVQ」をリリース

                                                    Alibabaの大規模言語モデル「Qwen」の研究チームが、視覚的推論機能の強化に重点を置いた実験的研究モデルとして「QVQ-72B-Preview」を公開しました。 QVQ: To See the World with Wisdom | Qwen https://qwenlm.github.io/blog/qvq-72b-preview/ Qwen/QVQ-72B-Preview · Hugging Face https://huggingface.co/Qwen/QVQ-72B-Preview QVQ-72B-PreviewはQwen2-VL-72Bをベースに視覚的推論能力を強化したモデルです。元となったQwen2-VL-72Bは2024年9月にリリースされたモデルで、動画を理解したり多言語を使用したりする能力がありました。 Alibabaが新AIモデル「Qwen2-VL」をリリース、

                                                      AlibabaのQwenチームが画像を認識できるオープンウェイトAIモデル「QVQ」をリリース
                                                    • rinna さんの Qwen2.5 Bakeneko 32B を試す|ぬこぬこ

                                                      では早速 Ollama で試してみます。素晴らしいことに既に量子化されたモデルがあるではありませんか。GGUF をお借りして Ollama から動かしてみます。 実行環境 Mac Studio 2023 Chip: Apple M2 Ultra Memory: 192 GB macOS: Sequoia 15.3 下記のコマンドは Q8_0 のものを使っているので、VRAM が 36 GB 程度必要です。ご自身の環境に応じたサイズのものを選んでください。 ollama run hf.co/rinna/qwen2.5-bakeneko-32b-instruct-gguf:qwen2.5-bakeneko-32b-instruct-q8_0.gguf --verbose "おすすめの日本のアニメについて教えてください。"たとえば Q4_0 を使いたい時は下記のように指定します。これで VRAM

                                                        rinna さんの Qwen2.5 Bakeneko 32B を試す|ぬこぬこ
                                                      • Qwen2.5-Max 画像生成も動画生成もできて無料|Yuki

                                                        無料でなんでもできるやん。ChatGPTの課金いらんわ。課金してないけど。 いつものやってみます。 美しいメカニカルガール あっさり描けた。すごっ。 もうちょっとプロンプト書いてみよう。 サイバー空間。メカニカルガール。銀髪。セクシー。 いいね。 アニメ調にしてみよう。 アニメ調。サイボーグガール。機械の手足。ヘソ出し。 手が浮いてるあー、そういう感じか。 ビキニアーマーもいってみよう。 ビキニアーマーを着た女性。ファンタジー。 いいじゃないか。 実写系もやってみよう。 浜辺ではしゃぐビキニの女性 手が 日本人がいいな。 フォトリアル。浜辺ではしゃぐビキニの日本人女性。 へー、いいね。 動画もできてしまう。 美しいメカニカルガールが肘の関節の動きを確認している オンラインでここまでできるのね。 ではまた。

                                                          Qwen2.5-Max 画像生成も動画生成もできて無料|Yuki
                                                        • Qwen2.5-CoderをOllama+Clineで試す

                                                          が、エラーになってしまう。 ちなみにClaude-3.5-Sonnetだとこんな感じで、ファイル作成してプレビューまで問題なく行われる。 Claude-3.5-Sonnetに最適化されているとあるし、しょうがないのかな?と思いつつも、そもそもタスクを正しく認識していないように見える。調べてみると以下のIssueを見つけた。 Cline用のカスタムなQwen2.5-Coderモデルを作っている方がいる様子。確かにキャプチャを見る限りは動いているように見える。モデルは以下。 こちらの方のモデルをダウンロード。

                                                            Qwen2.5-CoderをOllama+Clineで試す
                                                          • Alibaba Cloud、「DeepSeek V3」「GPT-4o」超えをうたうMoE LLM「Qwen2.5-Max」を提供開始 モデルを試す方法は?

                                                            Alibaba Cloudは2025年1月28日(中国時間)、「Mixture of Expert」(MoE:混合エキスパート)アーキテクチャを採用した大規模言語モデル(LLM)「Qwen2.5-Max」を発表し、同モデルのAPIをAlibaba Cloudで提供開始した。 Qwen2.5-Maxは、20兆以上のトークンで事前トレーニングされ、教師ありファインチューニング(SFT)と人間のフィードバックによる強化学習(RLHF:Reinforcement Learning from Human Feedback)で事後トレーニングされている。 DeepSeek V3やGPT-4oを超えるパフォーマンスをうたう 関連記事 中国の新興AI企業の高性能オープンソースLLM「DeepSeek-R1」登場 注目の理由は? 中国のAIスタートアップであるDeepSeekは、大規模言語モデル「DeepS

                                                              Alibaba Cloud、「DeepSeek V3」「GPT-4o」超えをうたうMoE LLM「Qwen2.5-Max」を提供開始 モデルを試す方法は?
                                                            • Qwen2.5-Coder-32B-Instructを使ってみた(前編)

                                                              1. Ubuntu 24.04.1 LTS (Core i5-8400 + メインメモリ 16GB) 2. Mac Studio (M2 Ultra 128GB) # ollama server 概要 今回は、Alibaba Cloud からリリースされた Qwen2.5-Coder-32B-Instruct を用いて、 アプリ開発がどの程度出来るかを検証していきたいと思います。 以下のように前編と後編に分けて記事にしたいと思います。 前編(今回の記事) Shaberi3 ベンチマーク評価 Open WebUI を用いた html + css + javascript の簡単なアプリ OSS 版 Bolt.new のサンプル例 後編(次回の予定) フロントエンドおよびバックエンド開発

                                                                Qwen2.5-Coder-32B-Instructを使ってみた(前編)
                                                              • mmnga/cyberagent-DeepSeek-R1-Distill-Qwen-14B-Japanese-gguf · Hugging Face

                                                                ' + message['content']}}{%- endif %}{%- if message['role'] == 'assistant' and message['content'] is none %}{%- set ns.is_tool = false -%}{%- for tool in message['tool_calls']%}{%- if not ns.is_first %}{{'<|Assistant|><|tool▁calls▁begin|><|tool▁call▁begin|>' + tool['type'] + '<|tool▁sep|>' + tool['function']['name'] + '\\n' + '```json' + '\\n' + tool['function']['arguments'] + '\\n' + '```' + '<|to

                                                                  mmnga/cyberagent-DeepSeek-R1-Distill-Qwen-14B-Japanese-gguf · Hugging Face
                                                                • 50B以下で高性能なABEJA Qwen2.5 32B-Japanese v0.1の公開 - ABEJA Tech Blog

                                                                  ABEJAでデータサイエンティストをしている服部です。 弊社は経産省が主催するGENIACプロジェクトの1期に続き、2期にも採択され、そこで大規模言語モデルの開発を進めています。 今回、その2期プロジェクトで取り組んでいるモデルをベータ版として公開できる段階に到達したので、Huggingface上に公開しました。 公開したモデルはQwen2.5-32B-Instructのライセンスと同様、apache2.0として商用利用OKな形で使っていただけます。 huggingface.co このブログでは概要及び性能について簡単にまとめています。 www.abejainc.com GENIAC2期におけるABEJAの取り組み GENIAC2期では、小型化(パラメータ数を抑える)しつつも「一部のタスクを高性能に実行できるモデル」を開発しています。 具体的には「50B以下に抑えたモデル(32B)」と「さ

                                                                    50B以下で高性能なABEJA Qwen2.5 32B-Japanese v0.1の公開 - ABEJA Tech Blog
                                                                  • lightblue/DeepSeek-R1-Distill-Qwen-7B-Japanese · Hugging Face

                                                                    ","chat_template":"{% if not add_generation_prompt is defined %}{% set add_generation_prompt = false %}{% endif %}{% set ns = namespace(is_first=false, is_tool=false, is_output_first=true, system_prompt='') %}{%- for message in messages %}{%- if message['role'] == 'system' %}{% set ns.system_prompt = message['content'] %}{%- endif %}{%- endfor %}{{bos_token}}{{ns.system_prompt}}{%- for message in

                                                                      lightblue/DeepSeek-R1-Distill-Qwen-7B-Japanese · Hugging Face
                                                                    • Qwen2-VLとColPaliでマニュアル用ローカルQAボットを作ってみた

                                                                      はじめに 株式会社ファースト・オートメーションCTOの田中(しろくま)です! 弊社では製造業向けのRAGを使ったチャットボットの開発を行っていますが、RAGが普及してきた昨今においてまだまだ課題があるなと感じているのが、 マニュアルのような画像と文書の複合したドキュメントの読み取り です。 例えばPC操作の説明書などは良い例かなと思うのですが、画面スクショに矢印が入っていたり、それに対して説明が入っている文書は通常のRAGとの相性が悪いです。 以下は経産省が提供しているgBizINFOというサービスの操作説明資料を抜粋したものです。 元のPDF資料はこちら このように、図と文書が混在し、かつ矢印などでそれらが関連付けられているような形になります。 また 製造業ではセキュリティ的な懸念からこういった資料のアップロードやチャットの内容をクラウドに上げたくない企業も多いです。 こういったことから

                                                                        Qwen2-VLとColPaliでマニュアル用ローカルQAボットを作ってみた
                                                                      • Qwen3の速度とShaberi3ベンチマーク結果

                                                                        概要 趣味で LLM の Shaberi3 ベンチマーク評価をしています。 いつもは X の方にポストしているのですが、Qwen3 は盛りだくさんで書ききれないと思ったのでこちらで短めの記事にまとめることにしました。 評価したモデルと条件 特に理由があったわけではないですが、今回は unsloth が公開している下記の gguf モデルを ollama で実行して評価しました。 今回評価したパラメータサイズ・量子化タイプ 30B-A3B:UD-Q4_K_XL 32B:UD-Q4_K_XL 14B:UD-Q4_K_XL 8B:UD-Q4_K_XL 4B:UD-Q4_K_XL 1.7B:UD-Q4_K_XL 0.6B:UD-Q4_K_XL その他特記事項 温度:0.6 reasoning reasoning あり(/think)、なし(/no_think)の両方を評価 いずれも<think>.

                                                                          Qwen3の速度とShaberi3ベンチマーク結果
                                                                        • 中国製AIが犯罪者の武器に DeepSeekとAlibaba Qwenの危険性を指摘

                                                                          Infosecurity Magazineは2025年2月5日(現地時間)、中国企業が開発した大規模言語モデル(LLM)「DeepSeek」および「Alibaba Qwen」がサイバー犯罪者の関心を集めていると報じた。これらのLLMはAI愛好家だけでなく、マルウェア開発を試みる攻撃者にも活用され始めていると同社は警告する。 中国製AIが犯罪者の武器に DeepSeekとAlibaba Qwenの危険性を指摘 Check Pointの脅威インテリジェンスグループマネジャーであるセルゲイ・シケビッチ氏は同社の「CPX 2025カンファレンス」において、サイバー犯罪者が最新の中国製LLMをテストし、マルウェアの開発や改良を進めていると指摘した。特にAlibaba QwenはDeepSeekほどメディアの注目を浴びていないが、攻撃者の間で最も頻繁に実験されているという。 これまでLLMは主にフィッ

                                                                            中国製AIが犯罪者の武器に DeepSeekとAlibaba Qwenの危険性を指摘
                                                                          • cyberagent/DeepSeek-R1-Distill-Qwen-14B-Japanese | BeesNest合同会社

                                                                            前のエントリの追記にも書きましたが、サイバーエージェントからDeepSeek-R1の日本語対応版が出ました。 cyberagent/DeepSeek-R1-Distill-Qwen-14B-Japanese cyberagent/DeepSeek-R1-Distill-Qwen-32B-Japanese さっそくggufが作られています。 bluepen5805/DeepSeek-R1-Distill-Qwen-14B-Japanese-gguf bluepen5805/DeepSeek-R1-Distill-Qwen-32B-Japanese-gguf ということで試してみます。 インストールやモデルの取得については前回の説明の通りなので省きます。 試してみる 前回と同じベンチマークを走らせてみます。 往事只能回味 以下を翻訳して 時光一逝永不回 往事只能回味 憶童年時竹馬青梅 兩小無猜

                                                                              cyberagent/DeepSeek-R1-Distill-Qwen-14B-Japanese | BeesNest合同会社
                                                                            • Qwen3-32B-MLXをMacBookProで走らせる|shi3z

                                                                              とりあえず飛行機の中でも試せるようにQwen3-32b-mlx(4bit)をダウンロードしておいた。 なかなか賢い。たしかにGPT-4o並というのはそうなのかも。 これがローカルで、ノートPCで動くってすごいよな 俺より数学に詳しいコーディング能力もある「UberEats配達員を主人公としたミステリー短編小説を書いて」と頼んでみた。以下結果 タイトル:『濡れた配達と消えたデータ』 第一章:雨の夜の注文 東京・新宿の高層アパートに、大雨が激しく打ちつけていた。配達員の神谷健太は、UberEatsアプリにポップアップした注文をチェックする。受け取り先は「新宿区西新宿1-23-5 本厚町ビル804号室」。不思議に思ったのは、注文内容が「コーヒー(ブラック)1杯」であること。価格は通常の50分の1で、配達先も閑静な住宅街に突き刺さった一軒。健太は「この雨で誰かがただコーヒーを飲もうとしているのか?

                                                                                Qwen3-32B-MLXをMacBookProで走らせる|shi3z
                                                                              • ローカル環境でQwen2-VLを動かしてみる

                                                                                1. Mac Studio(M2 Ultra 128GB) 2. Windows 10 (メインメモリ 96GB + RTX 3060 12GB) ★2024-11-18(月)追記 本記事ではサンプルプログラムを動かすことにフォーカスして記載していたので、実用上は使いづらいと思います。 Web UIや API として使いたい場合は、本記事の方法ではなく以下をおすすめします。 公式リポジトリの README に従って web_demo_mm.py を使う方法 vllm サーバーを立ち上げて Open WebUI などで利用する方法(NVIDIA 環境のみ) 内容 今回の記事では、Alibaba Cloud が発表した最新の VLM であるQwen2-VLを、ローカル環境で実際に使ってみようと思います。 本記事では、主に下記についてまとめます。 ローカル環境で Qwen2-VL を動かす方法

                                                                                  ローカル環境でQwen2-VLを動かしてみる
                                                                                • 中国アリババ、DeepSeekの「V3」越えうたうAIモデル「Qwen2.5-Max」公開

                                                                                  中国Alibabaは1月28日、同社が開発する大規模言語モデル(LLM)「Qwen」シリーズの最新モデル「2.5-Max」を公開した。中国のAIスタートアップ・DeepSeekが開発したAIモデル「DeepSeek-R1」のベースとなった「DeepSeek V3」に比べ、複数のベンチマークでより高い性能を示したという。 AlibabaによればQwen2.5-Maxは、複数のエキスパートモデル(特定の作業に強みを持つ小型モデル)を組み合わせ、より高い推論性能を実現したという。20兆を超えるトークン(おおむね単語数の意)で事前学習し、ラベル付きデータで行う追加学習「教師ありファインチューニング」や人間のフィードバックによる強化学習を実施した。 結果、数学から言語まで幅広い知識を問う「LiveBench」や、人間が好む回答ができるかを測る「Arena-Hard」など複数のベンチマークで、Deep

                                                                                    中国アリババ、DeepSeekの「V3」越えうたうAIモデル「Qwen2.5-Max」公開

                                                                                  新着記事