並び順

ブックマーク数

期間指定

  • から
  • まで

1 - 31 件 / 31件

新着順 人気順

Qwen2.5の検索結果1 - 31 件 / 31件

  • オープンソースのコーディング支援AI「Qwen2.5-Coder」シリーズの性能はGPT-4oに匹敵、64GBのRAM&M2搭載MacBook Proでもローカル実行可能

    中国・Alibabaグループが開発する大規模言語モデル(LLM)「Qwen」の研究チームが、コード生成や補完、数学の推論タスクに特化したLLM「Qwen2.5-Coder」の新モデルを2024年11月12日にリリースしました。Qwen2.5-Coderのコーディング機能はGPT-4oに匹敵し、パラメータ数も最大320億で、M2搭載MacBook Pro上でも実行できたことが報告されています。 Qwen2.5-Coder Series: Powerful, Diverse, Practical. | Qwen https://qwenlm.github.io/blog/qwen2.5-coder-family/ Qwen2.5-Coderは2024年10月にテクニカルレポートが発表されており、この時にパラメータ数15億(1.5B)のモデルと70億(7B)のモデルがオープンソースで公開されてい

      オープンソースのコーディング支援AI「Qwen2.5-Coder」シリーズの性能はGPT-4oに匹敵、64GBのRAM&M2搭載MacBook Proでもローカル実行可能
    • 日本語VLM「Heron-NVILA」公開 ─ Qwen2.5-VL-7B・Gemma3-12Bに匹敵する性能

      はじめに チューリングの横井です。チューリングでは視覚と言語を統合的に理解できるAIを自動運転に応用するため、Vision Language モデル(VLM)「Heron」の開発に取り組んでいます。このたび、経済産業省およびNEDOが推進する日本の生成AIの開発力強化に向けたプロジェクト「GENIAC」第2期の支援のもと開発したVLM「Heron-NVILA」15B, 2B, 1B, 33Bを公開しました。 この記事では開発したHeron-NVILAのアーキテクチャ、学習内容、ベンチマーク評価を紹介します。 モデルアーキテクチャ Heron-NVILAのアーキテクチャは名前の通りNVIDIAが提案したVLMであるNVILAを用いています。 NVILAは 「Vision Encoder → Projector(2 層 MLP)→ LLM」 という 3 段構成を取りつつ Scale ─ 画像を

        日本語VLM「Heron-NVILA」公開 ─ Qwen2.5-VL-7B・Gemma3-12Bに匹敵する性能
      • Alibabaが新たなAIモデル「Qwen2.5-VL-32B」をオープンソースでリリース、画像解析や数学の能力が向上

        Alibaba CloudのAI研究チームであるQwenが、2025年1月にリリースした視覚言語モデル「Qwen2.5 VL」シリーズをベースに新たな視覚言語モデル「Qwen2.5-VL-32B」をリリースしました。画像解析やコンテンツ認識の精度が上がり、回答の品質が向上しています。 Qwen2.5-VL-32B: Smarter and Lighter | Qwen https://qwenlm.github.io/blog/qwen2.5-vl-32b/ 2025年1月にリリースされたQwen2.5 VLにはパラメーターのサイズが異なる「3B」「7B」「72B」という3つのモデルが存在しています。最もサイズの大きい72BモデルはGPT-4oやGemini 2.0 Flashを超える性能を持ちます。 PCやスマートフォンのUIを認識して自動操作できる視覚言語モデル「Qwen2.5 VL」

          Alibabaが新たなAIモデル「Qwen2.5-VL-32B」をオープンソースでリリース、画像解析や数学の能力が向上
        • H200 GPU x 8基で Qwen2.5-VL-72B-Instruct を使った OCR を試してみる - ABEJA Tech Blog

          ABEJAでデータサイエンティストをしている藤原です。 今回は、株式会社ハイレゾ様のGPUクラウドサービス「GPUSOROBAN」で H200 GPU × 8基構成のシングルノードサーバを用いて、大規模モデルを使用した検証を実施しました。本記事では、その検証でのGPUサーバの使用方法や、検証内容の一つである Qwen2.5-VL-72B-Instruct を用いたOCRの結果についてご紹介します。 highreso.jp はじめに GPUクラウドサービス「GPUSOROBAN」について GPUサーバの使い方の方針と事前準備 Qwen2.5-VL-72B-Instruct を使った OCR を試してみる 条件 実装 実行時のGPU使用状況と処理速度 検証1. 通常の文書のOCR 検証2. チャート・グラフのようなテキストで表現されていない情報のテキスト化 検証3. 複雑なレイアウトのドキュメ

            H200 GPU x 8基で Qwen2.5-VL-72B-Instruct を使った OCR を試してみる - ABEJA Tech Blog
          • GPT-4oやDeepSeek-V3よりも高性能なAIモデル「Qwen2.5-Max」を中国IT大手のAlibabaがリリース

            Alibaba CloudのAI研究チームであるQwenが、AIモデル「Qwen2.5-Max」を2025年1月28日にリリースしました。Qwen2.5-Maxは複数のテストでGPT-4oやDeepSeek-V3を上回るスコアを記録しています。 Qwen2.5-Max: Exploring the Intelligence of Large-scale MoE Model | Qwen https://qwenlm.github.io/blog/qwen2.5-max/ Qwen2.5-Maxは、20兆トークン以上の学習データを用いて事前トレーニングしたベースモデルに対して教師ありファインチューニング(SFT)や人間のフィードバックによる強化学習(RLHF)を施して作成されたMoEモデルで、モデルの規模を示すパラメーター数は1000億に達しています。 Qwen2.5-Maxの性能の高さを示

              GPT-4oやDeepSeek-V3よりも高性能なAIモデル「Qwen2.5-Max」を中国IT大手のAlibabaがリリース
            • PCやスマートフォンのUIを認識して自動操作できる視覚言語モデル「Qwen2.5 VL」をAlibabaのAI研究チームがリリース、GPT-4o超えの性能で航空券の予約などを自動で実行可能

              Alibaba CloudのAI研究チームであるQwenが、視覚言語モデル「Qwen2.5 VL」をリリースしました。Qwen2.5 VLは画像に含まれる被写体の種類を認識したり文字を書き起こしたりできるだけでなく、PCやスマートフォンのUIを認識して自動操作することもできます。 Qwen2.5 VL! Qwen2.5 VL! Qwen2.5 VL! | Qwen https://qwenlm.github.io/blog/qwen2.5-vl/ 🎉 恭喜发财🧧🐍 As we welcome the Chinese New Year, we're thrilled to announce the launch of Qwen2.5-VL , our latest flagship vision-language model! 🚀 💗 Qwen Chat: https://t.co

                PCやスマートフォンのUIを認識して自動操作できる視覚言語モデル「Qwen2.5 VL」をAlibabaのAI研究チームがリリース、GPT-4o超えの性能で航空券の予約などを自動で実行可能
              • Qwen2.5とDeepSeek R1を利用した日本語大規模言語モデル「Qwen2.5 Bakeneko 32B」シリーズを公開|rinna株式会社

                ホーム ニュース Qwen2.5とDeepSeek R1を利用した日本語大規模言語モデル「Qwen2.5 Bakeneko 32B」シリーズを公開 DeepSeek R1を用いた蒸留学習により効率よく日本語思考能力を強化 rinna株式会社 (本社:東京都渋谷区/代表取締役:宋 珠憲、以下rinna) は、Qwen2.5とDeepSeek R1を利用し、高い日本語テキストの生成能力を持った「Qwen2.5 Bakeneko 32B」シリーズを開発し、Apache-2.0 Licenseで公開したことを発表します。 ■ rinnaのモデル公開活動 これまでにrinnaでは、日本語のタスクに適したGPT・BERT・HuBERT・CLIP・Stable Diffusionなど、テキスト・音声・画像に関する基盤モデルを公開してきました。2021年4月からHugging Faceに公開してきたrin

                  Qwen2.5とDeepSeek R1を利用した日本語大規模言語モデル「Qwen2.5 Bakeneko 32B」シリーズを公開|rinna株式会社
                • 自律AIたちが議論する環境「TinyTroupe」をMicrosoftが開発、GPT-4o級のコーディングができるオープンソースAI「Qwen2.5-Coder」など生成AI技術5つを解説(生成AIウィークリー) | テクノエッジ TechnoEdge

                  2014年から先端テクノロジーの研究を論文単位で記事にして紹介しているWebメディアのSeamless(シームレス)を運営し、執筆しています。 Google DeepMindは、タンパク質構造予測モデル「AlphaFold3」の基盤となるコードをオープンソース化しました。AlphaFold3の開発者は、2024年のノーベル化学賞を受賞したことで知られています。 Googleは、「Gemini-Exp-1114」をリリースしました。性能が高く、業界標準のリーダーボード(Chatbot Arena)で総合ランキング1位を獲得しました。 OpanAIは、ChatGPTがデスクトップPCでも気軽に使えるように、macOS版に加えてWindows版のアプリケーションをリリースしました。 さて、この1週間の気になる生成AI技術・研究をいくつかピックアップして解説する「生成AIウィークリー」(第72回)

                    自律AIたちが議論する環境「TinyTroupe」をMicrosoftが開発、GPT-4o級のコーディングができるオープンソースAI「Qwen2.5-Coder」など生成AI技術5つを解説(生成AIウィークリー) | テクノエッジ TechnoEdge
                  • ClineとローカルLLMを用いたNext.jsアプリ開発に挑戦〜Qwen2.5-Coder-32B-Instructを使ってみた(後編)〜

                    1. Ubuntu 24.04.1 LTS (Core i5-8400 + メインメモリ 16GB) 2. Mac Studio (M2 Ultra 128GB) # ollama server 概要 前回の記事に引き続き、Qwen2.5-Coder-32B-Instruct を用いて、アプリ開発がどの程度出来るかを検証していきたいと思います。 以下のように前編と後編に分けて記事にしました。 前編(前回の記事) Shaberi3 ベンチマーク評価 Open WebUI を用いた html + css + javascript の簡単なアプリ OSS 版 Bolt.new 後編(今回の記事) API や DB 機能具備した Next.js アプリ ということで、今回は前回に比べてもう少し複雑なアプリ開発に挑戦しようと思います。 具体的にはAPI 機能と DB 機能を有した初歩的な Next.

                      ClineとローカルLLMを用いたNext.jsアプリ開発に挑戦〜Qwen2.5-Coder-32B-Instructを使ってみた(後編)〜
                    • Qwen2.5 Technical Reportの中に潜る - ABEJA Tech Blog

                      ABEJAでデータサイエンス部の部長をしながら色々やっている大谷です。 今回は2024年12月19日に公開された待望のQwen2.5 Technical Reportについて日本語に翻訳しつつ、適宜コメントを入れていく記事を書いていこうと思います。コメントはですます口調で記述しています。 先にネタバレですが、Qwen2.5は特別新しい技術を導入しているわけではなく、これまで積み重ねてきた知見を着実に活かして精度を向上させています。この記事では、新しい観点の発見というよりも、これまでの有効な知見を再確認するきっかけにしていただければ嬉しいです。 ちなみにこちらの記事はABEJAアドベントカレンダー2024年の12/23分です。 裏話ですが、12月の頭にラスベガスで開催された「AWS re:Invent 2024」(re:Invent)にABEJAも参加していたので、本記事はそちらをテーマにす

                        Qwen2.5 Technical Reportの中に潜る - ABEJA Tech Blog
                      • ディープシーク「上回った」 中国アリババが新型生成AI「Qwen2・5―Max」発表

                        中国の電子商取引(EC)大手アリババグループの傘下企業は29日、中国の新興企業「DeepSeek(ディープシーク)」が開発した高性能の生成人工知能(AI)を上回ったとする最新モデルを発表した。生成AIの開発競争が激化している。 傘下企業アリババクラウドが発表したAIモデルの名称は「Qwen2・5―Max」。性能テストでディープシークの生成AIを上回ったと説明している。 ディープシークが開発したAIモデルは低コストで高い性能を実現したとされ、米国企業に衝撃を与えていた。(共同)

                          ディープシーク「上回った」 中国アリババが新型生成AI「Qwen2・5―Max」発表
                        • rinna さんの Qwen2.5 Bakeneko 32B を試す|ぬこぬこ

                          では早速 Ollama で試してみます。素晴らしいことに既に量子化されたモデルがあるではありませんか。GGUF をお借りして Ollama から動かしてみます。 実行環境 Mac Studio 2023 Chip: Apple M2 Ultra Memory: 192 GB macOS: Sequoia 15.3 下記のコマンドは Q8_0 のものを使っているので、VRAM が 36 GB 程度必要です。ご自身の環境に応じたサイズのものを選んでください。 ollama run hf.co/rinna/qwen2.5-bakeneko-32b-instruct-gguf:qwen2.5-bakeneko-32b-instruct-q8_0.gguf --verbose "おすすめの日本のアニメについて教えてください。"たとえば Q4_0 を使いたい時は下記のように指定します。これで VRAM

                            rinna さんの Qwen2.5 Bakeneko 32B を試す|ぬこぬこ
                          • Qwen2.5-CoderをOllama+Clineで試す

                            が、エラーになってしまう。 ちなみにClaude-3.5-Sonnetだとこんな感じで、ファイル作成してプレビューまで問題なく行われる。 Claude-3.5-Sonnetに最適化されているとあるし、しょうがないのかな?と思いつつも、そもそもタスクを正しく認識していないように見える。調べてみると以下のIssueを見つけた。 Cline用のカスタムなQwen2.5-Coderモデルを作っている方がいる様子。確かにキャプチャを見る限りは動いているように見える。モデルは以下。 こちらの方のモデルをダウンロード。

                              Qwen2.5-CoderをOllama+Clineで試す
                            • Qwen2.5-Coder-32B-Instructを使ってみた(前編)

                              1. Ubuntu 24.04.1 LTS (Core i5-8400 + メインメモリ 16GB) 2. Mac Studio (M2 Ultra 128GB) # ollama server 概要 今回は、Alibaba Cloud からリリースされた Qwen2.5-Coder-32B-Instruct を用いて、 アプリ開発がどの程度出来るかを検証していきたいと思います。 以下のように前編と後編に分けて記事にしたいと思います。 前編(今回の記事) Shaberi3 ベンチマーク評価 Open WebUI を用いた html + css + javascript の簡単なアプリ OSS 版 Bolt.new のサンプル例 後編(次回の予定) フロントエンドおよびバックエンド開発

                                Qwen2.5-Coder-32B-Instructを使ってみた(前編)
                              • Alibaba Cloud、「DeepSeek V3」「GPT-4o」超えをうたうMoE LLM「Qwen2.5-Max」を提供開始 モデルを試す方法は?

                                Alibaba Cloudは2025年1月28日(中国時間)、「Mixture of Expert」(MoE:混合エキスパート)アーキテクチャを採用した大規模言語モデル(LLM)「Qwen2.5-Max」を発表し、同モデルのAPIをAlibaba Cloudで提供開始した。 Qwen2.5-Maxは、20兆以上のトークンで事前トレーニングされ、教師ありファインチューニング(SFT)と人間のフィードバックによる強化学習(RLHF:Reinforcement Learning from Human Feedback)で事後トレーニングされている。 DeepSeek V3やGPT-4oを超えるパフォーマンスをうたう 関連記事 中国の新興AI企業の高性能オープンソースLLM「DeepSeek-R1」登場 注目の理由は? 中国のAIスタートアップであるDeepSeekは、大規模言語モデル「DeepS

                                  Alibaba Cloud、「DeepSeek V3」「GPT-4o」超えをうたうMoE LLM「Qwen2.5-Max」を提供開始 モデルを試す方法は?
                                • Qwen2.5-Max 画像生成も動画生成もできて無料|Yuki

                                  無料でなんでもできるやん。ChatGPTの課金いらんわ。課金してないけど。 いつものやってみます。 美しいメカニカルガール あっさり描けた。すごっ。 もうちょっとプロンプト書いてみよう。 サイバー空間。メカニカルガール。銀髪。セクシー。 いいね。 アニメ調にしてみよう。 アニメ調。サイボーグガール。機械の手足。ヘソ出し。 手が浮いてるあー、そういう感じか。 ビキニアーマーもいってみよう。 ビキニアーマーを着た女性。ファンタジー。 いいじゃないか。 実写系もやってみよう。 浜辺ではしゃぐビキニの女性 手が 日本人がいいな。 フォトリアル。浜辺ではしゃぐビキニの日本人女性。 へー、いいね。 動画もできてしまう。 美しいメカニカルガールが肘の関節の動きを確認している オンラインでここまでできるのね。 ではまた。

                                    Qwen2.5-Max 画像生成も動画生成もできて無料|Yuki
                                  • 50B以下で高性能なABEJA Qwen2.5 32B-Japanese v0.1の公開 - ABEJA Tech Blog

                                    ABEJAでデータサイエンティストをしている服部です。 弊社は経産省が主催するGENIACプロジェクトの1期に続き、2期にも採択され、そこで大規模言語モデルの開発を進めています。 今回、その2期プロジェクトで取り組んでいるモデルをベータ版として公開できる段階に到達したので、Huggingface上に公開しました。 公開したモデルはQwen2.5-32B-Instructのライセンスと同様、apache2.0として商用利用OKな形で使っていただけます。 huggingface.co このブログでは概要及び性能について簡単にまとめています。 www.abejainc.com GENIAC2期におけるABEJAの取り組み GENIAC2期では、小型化(パラメータ数を抑える)しつつも「一部のタスクを高性能に実行できるモデル」を開発しています。 具体的には「50B以下に抑えたモデル(32B)」と「さ

                                      50B以下で高性能なABEJA Qwen2.5 32B-Japanese v0.1の公開 - ABEJA Tech Blog
                                    • ABEJA Qwen2.5-32B Modelの事後学習に向けたデータセット作りの道のり - ABEJA Tech Blog

                                      ABEJAでデータサイエンティストをしている大谷です。 弊社は、経済産業省とNEDOが実施する、国内の生成AIの開発力強化を目的としたプロジェクト「GENIAC(Generative AI Accelerator Challenge)」の1期に続き、2期にも採択され、そこで大規模言語モデルの開発を実施しました。 これまでにGENIAC2期の取り組みで3つのモデルを公開してきました。 これらのモデルはAlibaba社が開発したQwen2.5-32B-Instruct、QwQ-32B、Qwen2.5-7B-Instructをベースモデル、差分Vector用モデルとして用いています。 7Bと32Bのv0.1のモデルは事後学習を実施する前のものです。 これらに事後学習を行い更に精度をあげるべく 、SFT用データセットとDPO用のデータセットを2万件弱ずつ合成データ+人手によるアノテーションで作成し

                                        ABEJA Qwen2.5-32B Modelの事後学習に向けたデータセット作りの道のり - ABEJA Tech Blog
                                      • LLMを数学タスクにアラインする手法の系譜 - GPT-3からQwen2.5まで

                                        はじめに この記事では、これまでに提案されてきたLLMを数学タスクにアライン(=適合)する各種手法について概観する。 現時点でオープンウェイトのモデルの中では最も性能が良いQwen2.5に至るまでの提案手法を俯瞰的に把握することを目的としている。 後半では紹介した提案手法の特徴と課題に関して主観を交えながら考察した。 なお、以下で紹介する内容は私がこれまでに読んだことのある論文に基づいて説明している。網羅的なサーベイではないことに注意されたい。 数学タスクにアラインするための学習手法の分類 初見の人が頭の中で整理しやすいように、これから紹介する提案手法を以下の4通りに分類する。どれも候補選択の方法に違いがある。 ベースライン - Few shotプロンプト [Hendrycks, 2021] ナイーブ手法 - 多数決 [Huang, 2022a] [Huang, 2022b] ルールベース

                                          LLMを数学タスクにアラインする手法の系譜 - GPT-3からQwen2.5まで
                                        • 中国アリババ、DeepSeekの「V3」越えうたうAIモデル「Qwen2.5-Max」公開

                                          中国Alibabaは1月28日、同社が開発する大規模言語モデル(LLM)「Qwen」シリーズの最新モデル「2.5-Max」を公開した。中国のAIスタートアップ・DeepSeekが開発したAIモデル「DeepSeek-R1」のベースとなった「DeepSeek V3」に比べ、複数のベンチマークでより高い性能を示したという。 AlibabaによればQwen2.5-Maxは、複数のエキスパートモデル(特定の作業に強みを持つ小型モデル)を組み合わせ、より高い推論性能を実現したという。20兆を超えるトークン(おおむね単語数の意)で事前学習し、ラベル付きデータで行う追加学習「教師ありファインチューニング」や人間のフィードバックによる強化学習を実施した。 結果、数学から言語まで幅広い知識を問う「LiveBench」や、人間が好む回答ができるかを測る「Arena-Hard」など複数のベンチマークで、Deep

                                            中国アリババ、DeepSeekの「V3」越えうたうAIモデル「Qwen2.5-Max」公開
                                          • Qwen2.5 Omni: See, Hear, Talk, Write, Do It All!

                                            March 27, 2025 · 3 min · 496 words · Qwen Team | Translations:简体中文 QWEN CHAT HUGGING FACE MODELSCOPE DASHSCOPE GITHUB PAPER DEMO DISCORD We release Qwen2.5-Omni, the new flagship end-to-end multimodal model in the Qwen series. Designed for comprehensive multimodal perception, it seamlessly processes diverse inputs including text, images, audio, and video, while delivering real-time streaming respo

                                            • Qwen2.5-Coder Series: Powerful, Diverse, Practical.

                                              Qwen2.5-Coder Series: Powerful, Diverse, Practical. GITHUB HUGGING FACE MODELSCOPE KAGGLE DEMO DISCORD Introduction#Today, we are excited to open source the “Powerful”, “Diverse”, and “Practical” Qwen2.5-Coder series, dedicated to continuously promoting the development of Open CodeLLMs. Powerful: Qwen2.5-Coder-32B-Instruct has become the current SOTA open-source code model, matching the coding cap

                                              • rinna/deepseek-r1-distill-qwen2.5-bakeneko-32b-gguf - 地平線まで行ってくる。

                                                rinnaさんから出たdeepseek蒸留推論モデルもやってみるべし。ということで、Colab L4環境にてrinnaさん純正のGGUFファイルを利用します。VRAM占有率は14577MiB /  23034MiBです。 知識がないと思われる事柄に関する返答は、下手な考え休むに似たり。時間かかって考察しても不思議な答えを返します。「最萌点」とは造語らしきものも・・・。また、話の創作をさせたところ、感傷的な雰囲気を感じさせる、明瞭だが意味不明な文章となりました。一方で、参照文章があったり要約タスクについては、しっかり考えて答えます。いい感じです。使いどころですね・・・。 推論しないという選択をさくっとできる人間の脳みそ(神経)は凄いなと感心。 huggingface.co 生成テキスト まどか☆マギカで一番かわいいのは? <think> まず、ユーザーが「まどか☆マギカで一番かわいいのは?」

                                                  rinna/deepseek-r1-distill-qwen2.5-bakeneko-32b-gguf - 地平線まで行ってくる。
                                                • 小型LLM「ABEJA Qwen2.5-7B Model」学習のための蒸留のパイプライン並列化 - ABEJA Tech Blog

                                                  はじめに こんにちは、Labsチームの藤本です。 弊社は、経済産業省とNEDOが実施する、国内の生成AIの開発力強化を目的としたプロジェクト「GENIAC(Generative AI Accelerator Challenge)」の1期に続き、2期にも採択され、そこで大規模言語モデルの開発を進めています。今回は、そのプロジェクトの中で実施した大規模言語モデルの蒸留(Knowledge Distillation)に関する技術的な取り組みをご紹介します。 本蒸留の成果については、以前の記事(https://tech-blog.abeja.asia/entry/geniac2-qwen25-7b-v0.1)で既に紹介しております。本記事では、特にNeMoフレームワークにおける蒸留の仕組みと、NeMoで大規模なモデルを効率的に蒸留する際の技術的課題およびABEJAではどのように実装したかについて紹

                                                    小型LLM「ABEJA Qwen2.5-7B Model」学習のための蒸留のパイプライン並列化 - ABEJA Tech Blog
                                                  • rinna/deepseek-r1-distill-qwen2.5-bakeneko-32b-gguf · Hugging Face

                                                    ' + message['content']}}{%- endif %}{%- if message['role'] == 'assistant' and message['content'] is none %}{%- set ns.is_tool = false -%}{%- for tool in message['tool_calls']%}{%- if not ns.is_first %}{{'<|Assistant|><|tool▁calls▁begin|><|tool▁call▁begin|>' + tool['type'] + '<|tool▁sep|>' + tool['function']['name'] + '\\n' + '```json' + '\\n' + tool['function']['arguments'] + '\\n' + '```' + '<|to

                                                    • Mac で VS Code、Continue、Ollama + Qwen2.5-Coder を使用して無料のローカル AI プログラミングアシスタントを構築 - 技术刘

                                                      HomeMac で VS Code、Continue、Ollama + Qwen2.5-Coder を使用して無料のローカル AI プログラミングアシスタントを構築

                                                      • rinna、日本語特化大規模言語モデル「Qwen2.5 Bakeneko 32B」を公開。DeepSeek R1を用いた蒸留学習により蒸留学習により日本語思考能力を強化

                                                        このニュースのポイント rinnaは、Qwen2.5とDeepSeek R1を利用した日本語大規模言語モデル「Qwen2.5 Bakeneko 32B」シリーズを開発し、Apache-2.0 Licenseで公開 開発されたモデルには、アリババ社のQwen2.5を基にしたバージョン「Qwen2.5 Bakeneko 32B」「Qwen2.5 Bakeneko 32B Instruct」「DeepSeek R1 Distill Qwen2.5 Bakeneko 32B」を含む 「Qwen2.5 Bakeneko 32B」をベースに、DeepSeek R1の思考過程を含む1,200件のテキストデータを使った蒸留学習で「DeepSeek R1 Distill Qwen2.5 Bakeneko 32B」を開発 rinna株式会社は、日本語に特化した大規模言語モデル「Qwen2.5 Bakeneko

                                                          rinna、日本語特化大規模言語モデル「Qwen2.5 Bakeneko 32B」を公開。DeepSeek R1を用いた蒸留学習により蒸留学習により日本語思考能力を強化
                                                        • アリババクラウド、日本の拡大戦略でLLM「Qwen2.5」や画像生成AI「Wan2.1」投入

                                                          アリババクラウド・ジャパンサービスは、2025年3月5日、2025年の日本市場における事業戦略を説明した。アリババ独自のLLM(大規模言語モデル)である「Qwen(通義千問)」、動画生成モデル「Wan(通義万相)」の各最新版を日本市場に投入することを発表している。 2024年10月からカントリーマネージャーを務める与謝野正宇氏は、「日本企業のビジネスニーズに応じたQwenモデルの導入、AI開発ツールの提供、日本のパートナーとの連携によるローカライズAIソリューションの提供を進める」と述べ、高い日本語性能を持つオープンAIモデルを前面に打ち出して国内ビジネスを拡大していく方針を示した。 日本語性能の高いLLM、動画生成モデルを日本市場に投入 今回、日本市場への投入が発表されたのは、LLM(大規模言語モデル)の最新版「Qwen2.5シリーズ」と、動画生成モデルの最新版「Wan2.1シリーズ」だ

                                                            アリババクラウド、日本の拡大戦略でLLM「Qwen2.5」や画像生成AI「Wan2.1」投入
                                                          • Qwen2.5: A Party of Foundation Models!

                                                            September 19, 2024 · 9 min · 1738 words · Qwen Team | Translations:简体中文 GITHUB HUGGING FACE MODELSCOPE DEMO DISCORD Introduction#In the past three months since Qwen2’s release, numerous developers have built new models on the Qwen2 language models, providing us with valuable feedback. During this period, we have focused on creating smarter and more knowledgeable language models. Today, we are exci

                                                            • Qwen2.5-VL - a Qwen Collection

                                                              Vision-language model series based on Qwen2.5

                                                                Qwen2.5-VL - a Qwen Collection
                                                              • GitHub - OpenPipe/ART: Agent Reinforcement Trainer: train multi-step agents for real-world tasks using GRPO. Give your agents on-the-job training. Reinforcement learning for Qwen2.5, Qwen3, Llama, Kimi, and more!

                                                                You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert

                                                                  GitHub - OpenPipe/ART: Agent Reinforcement Trainer: train multi-step agents for real-world tasks using GRPO. Give your agents on-the-job training. Reinforcement learning for Qwen2.5, Qwen3, Llama, Kimi, and more!
                                                                1