並び順

ブックマーク数

期間指定

  • から
  • まで

1 - 17 件 / 17件

新着順 人気順

VLMの検索結果1 - 17 件 / 17件

タグ検索の該当結果が少ないため、タイトル検索結果を表示しています。

VLMに関するエントリは17件あります。 AI人工知能開発 などが関連タグです。 人気エントリには 『OpenAI の GPT-4-vision-preview (VLM) を利用した商品画像のタグ付け - DROBEプロダクト開発ブログ』などがあります。
  • OpenAI の GPT-4-vision-preview (VLM) を利用した商品画像のタグ付け - DROBEプロダクト開発ブログ

    はじめに DROBE の課題と GPT-4-Vision-Preview を試すモチベーション ケーススタディ 入力するデータ 推論周辺部分のコード プロンプト 実験結果 おわりに 参考文献 はじめに OpenAIが Dev Day で発表したGPT-4-Vision-Previewは、画像処理と自然言語処理を組み合わせた最先端の技術です。 このモデルは、画像を理解し、その内容に基づいてテキスト情報を生成する能力を持っています。例えば、写真やイラストから物体を識別し、それに関連する説明や情報をテキストとして提供できます。この技術は、画像とテキストの間のギャップを橋渡しするものであり、多様な応用が可能です。 DROBEは、多様なファッション商品を取り扱うECサイトを運営しています。我々の挑戦の一つは、膨大な数の商品画像と説明文から、正確で有用なタグを抽出し、整理して保存しておく事です。このプ

      OpenAI の GPT-4-vision-preview (VLM) を利用した商品画像のタグ付け - DROBEプロダクト開発ブログ
    • 日本語VLM「Heron-NVILA」公開 ─ Qwen2.5-VL-7B・Gemma3-12Bに匹敵する性能

      はじめに チューリングの横井です。チューリングでは視覚と言語を統合的に理解できるAIを自動運転に応用するため、Vision Language モデル(VLM)「Heron」の開発に取り組んでいます。このたび、経済産業省およびNEDOが推進する日本の生成AIの開発力強化に向けたプロジェクト「GENIAC」第2期の支援のもと開発したVLM「Heron-NVILA」15B, 2B, 1B, 33Bを公開しました。 この記事では開発したHeron-NVILAのアーキテクチャ、学習内容、ベンチマーク評価を紹介します。 モデルアーキテクチャ Heron-NVILAのアーキテクチャは名前の通りNVIDIAが提案したVLMであるNVILAを用いています。 NVILAは 「Vision Encoder → Projector(2 層 MLP)→ LLM」 という 3 段構成を取りつつ Scale ─ 画像を

        日本語VLM「Heron-NVILA」公開 ─ Qwen2.5-VL-7B・Gemma3-12Bに匹敵する性能
      • Stability AIは商用利用可能な日本語画像言語モデル「Japanese Stable VLM」をリリースしました。 — Stability AI Japan

        Stability AI は商用利用可能な日本語画像言語モデル「Japanese Stable VLM」をリリースしました。 Japanese Stable VLM 「Japanese Stable VLM」は、「Japanese Stable LM Instruct Gamma 7B」をベースとした日本語画像言語モデル(Vision-Language Model、略してVLM)です。入力した画像に対して文字で説明を生成できる画像キャプショニング機能に加え、画像についてのユーザーの質問に回答することもできます。 研究目的に作られた最初のバージョン「Japanese InstructBLIP Alpha」とは、主に以下の2点の違いがあります。 商用利用可能* ライセンス 最新手法 LLaVA-1.5 のモデル構造・学習手法を適用 ベースとする言語モデルを「Japanese Stable LM

          Stability AIは商用利用可能な日本語画像言語モデル「Japanese Stable VLM」をリリースしました。 — Stability AI Japan
        • 独自の日本語LLM「CyberAgentLM2」に視覚を付与したVLM(大規模視覚言語モデル)を一般公開 ―商用利用可能な画像チャットモデルを提供―

          株式会社サイバーエージェント(本社:東京都渋谷区、代表取締役:藤田晋、東証プライム市場:証券コード4751)は、75億パラメータの日本語VLM(Vision Language Model、大規模視覚言語モデル)を公開したことをお知らせいたします。 近年、OpenAI社が開発した「GPT-4o」※1 を始めとした画像も扱えるLLMが急速な進化を遂げており、世界中のあらゆる業界・ビジネスにおいて活用が進んでいます。 当社においてもデジタル広告におけるクリエイティブ制作において、2023年5月に画像を考慮した「広告コピー自動生成機能」を実装するなど、画像とテキストの複合領域での研究開発および活用に取り組んでおります。 一方、既存の公開されているVLMのほとんどは英語を中心に学習されているため、日本文化の理解や日本語での会話に強いVLMは少ない状況です。 こうした背景のもと、当社は日本語VLMの開

            独自の日本語LLM「CyberAgentLM2」に視覚を付与したVLM(大規模視覚言語モデル)を一般公開 ―商用利用可能な画像チャットモデルを提供―
          • Apple、iOS 18.2、iPadOS 18.2、macOS Sequoia 15.2で画面上のコンテンツを理解する視覚言語モデル (VLM)を実装 | NEWS | Mac OTAKARA

            ※本サイトは、アフィリエイト広告および広告による収益を得て運営しています。購入により売上の一部が本サイトに還元されることがあります。 Appleが、デベロッパー向けドキュメント「Making onscreen content available to Siri and Apple Intelligence」を公開し、iOS 18.2以降、iPadOS 18.2以降、macOS Sequoia 15.2以降で、Siri と Apple Intelligence を有効にして、アプリの画面上のコンテンツに対するユーザーの質問やアクション要求に応答できるようになると説明しています。 アプリの画面上のコンテンツを、Siri と Apple Intelligence の現在および今後のパーソナルインテリジェンス機能と統合するには、App Intents フレームワークを使用して画面上のコンテンツを明

              Apple、iOS 18.2、iPadOS 18.2、macOS Sequoia 15.2で画面上のコンテンツを理解する視覚言語モデル (VLM)を実装 | NEWS | Mac OTAKARA
            • 商用可能な日本語画像言語モデル「Japanese Stable VLM」、Stability AIがリリース/キャプショニング機能に加え、画像に対する質問にチャット形式で回答もできる

                商用可能な日本語画像言語モデル「Japanese Stable VLM」、Stability AIがリリース/キャプショニング機能に加え、画像に対する質問にチャット形式で回答もできる
              • 【MiniCPM-Llama3-V 2.5】たった8BでGPT-4o超えのVLM | WEEL

                WEELメディア事業部LLMライターのゆうやです。 MiniCPM-Llama3-V 2.5は、中国のOpenBMB(Open Lab for Big Model Base)が開発した最新のオープンソースマルチモーダル言語モデルで、8BというサイズながらGPT-4Vと同等の性能を有しています。 🚀 Excited to introduce MiniCPM-Llama3-V 2.5! With 8B parameters, it’s our latest breakthrough, outperforming top models like GPT-4V. 📈 💪 Superior OCR capabilities 🔑 Supports 30+ languages HuggingFace:https://t.co/Skivve1BgN GitHub:https://t.co/x868

                • 面倒なスクショ命名はローカルvlmにやらせよう on Mac

                  こんにちは。今回はMacにローカル Vision Language Model (VLM) 環境を整えて、スクリーンショットが撮られるたびに自動で “適切っぽい” ファイル名を付けてくれる仕組みを作ってみました。 タイトルは言わずもがな某書籍をオマージュパクらさせていただきました。 いやー、Mac標準だと「スクリーンショット 2025-01-01…」みたいなファイルが無限に増えてどれがどれだかわかんなくなるじゃないですか。ぼくも未来のAI時代を先取りするなら、ちょっとカッコいい名前が自動でつくとウキウキするんじゃね?と思いまして。 ここではMacローカルで動かせる mlx-vlm パッケージ経由で Qwen2-VL モデルを用いる方法、そしておまけに ollama の llama3.2-vision を使った方法も紹介します! ざっくりやること Macでスクショを撮る→デフォルトで「スクリ

                    面倒なスクショ命名はローカルvlmにやらせよう on Mac
                  • サイバーエージェント、独自の日本語LLMに“視覚”を付与した75億パラメーターの「VLM」を公開

                      サイバーエージェント、独自の日本語LLMに“視覚”を付与した75億パラメーターの「VLM」を公開 
                    • GitHub - vlm-run/vlmrun-hub: A hub for various industry-specific schemas to be used with VLMs.

                      You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert

                        GitHub - vlm-run/vlmrun-hub: A hub for various industry-specific schemas to be used with VLMs.
                      • 日本語に強いVLM「Sarashina2-Vision」 ソフトバンクのAI開発企業が公開 MITライセンスで商用利用OK

                        日本語に強いVLM「Sarashina2-Vision」 ソフトバンクのAI開発企業が公開 MITライセンスで商用利用OK ソフトバンクの子会社でAIの研究開発などを手掛けるSB Intuitions(東京都港区)は3月17日、日本語に強い大規模視覚言語モデル(VLM)「Sarashina2-Vision(8B・14B)」を公開した。同社独自の大規模言語モデル(LLM)「Sarashina2」シリーズをベースに開発したAIモデル。MITライセンスで、商用利用も可能だ。 Sarashina2-Visionは、特に日本語や日本の文化・慣習に強いAIモデルとして構築。日本に関連する画像のタスク処理能力を評価したところ、複数の日本語ベンチマークで国内最高の性能を実現したという。80億パラメータの8Bと、140億パラメータの14Bのどちらも同社のHuggingFace Hubページで公開中。 VLM

                          日本語に強いVLM「Sarashina2-Vision」 ソフトバンクのAI開発企業が公開 MITライセンスで商用利用OK
                        • LLaVA-o1:中国発の新型VLMがOpenAIのo1モデルに挑む – 4段階推論で画像認識の精度を向上 - イノベトピア

                          中国の複数の大学の研究者チームが2024年11月22日、OpenAIのo1モデルに対抗する新しいビジョン言語モデル「LLaVA-o1」を発表した。 このモデルは、Llama-3.2-11B-Vision-Instructをベースに開発され、約100,000件の画像-質問-回答ペアでトレーニングを実施。データ生成にはGPT-4oを使用し、4段階の推論プロセス(要約・キャプション・推論・結論)を実装している。 特筆すべき技術として、「ステージレベルビームサーチ」を導入。現時点ではビームサイズ2での限定的な検証となっているが、ベースモデルと比較して平均ベンチマークスコアが6.9%向上を達成。さらに、一部のタスクではGPT-4-o-miniやGemini 1.5 Proを上回る性能を示している。 from:Chinese researchers unveil LLaVA-o1 to challen

                          • Asagi: 合成データセットを活用した大規模日本語VLM

                            概要 Asagiは、最大で14Bのパラメータを持つ、日本語に特化したオープンなVision&Languageモデル(VLM)です。 日本語VLMを開発するにあたっての最大の課題は、モデルを学習するための大規模な日本語の画像・テキストペアデータセットが不足しているということでした。 そこで、本研究では、Webからクロールした画像データなどを活用し、英語のVLMや日本語大規模言語モデル(LLM)を用いて、日本語のデータセットを新規に合成してモデルの学習に利用しました。 本研究のデータ合成戦略の特色は、出力物の利用に制限のあるLLM(GPT-4oなど)を合成プロセスにおいて使用していないという点です。 結果として、今回構築したAsagiモデルは、高い性能を達成しつつ、従来の日本語VLMよりもオープンな形で提供することが可能となりました。 なお、本研究については、3月に開催される言語処理学会第31

                              Asagi: 合成データセットを活用した大規模日本語VLM
                            • Stability AI、日本語画像言語モデル「Japanese Stable VLM」をリリース 商用利用にも対応

                              画像を基としてその説明を行うテキストを生成できる言語モデルで、従来の「Japanese InstructBLIP Alpha」と同等レベルの性能を達成しつつ、商用利用が可能となっているのが特徴だ。 チャット形式で画像について質問を行うことができる他、動画のフレームを抜き取って動画キャプショニングやリアルタイム動画の質問応答を行うこともできる。 関連記事 テキストプロンプトから音楽やサウンドを生成できる「Stable Audio」公開 商用利用も可 テキストプロンプトから高品質な音楽とサウンドエフェクトを生成できるという。 アドビ、生成AI「Firefly」の次世代モデルを発表 Creative Cloudの各種アプリもアップデート 生成AI「Adobe Firefly」が大幅なアップデートを行う。 アドビが生成AI「Firefly」を一般公開 「Creative Cloud」に統合 コンテ

                                Stability AI、日本語画像言語モデル「Japanese Stable VLM」をリリース 商用利用にも対応
                              • Stability AI、商用利用可能な日本語画像言語モデル「Japanese Stable VLM」

                                sponsored 手軽なのに安心なサイバーセキュリティ対策「QTクイックセキュリティアセスメントサービスpowered by KDSec」 自社のセキュリティ対策の弱点を2週間で可視化 中小企業向け問診型のセキュリティ診断 sponsored 気軽に着けられるサイズと価格、最長14日間の動作や充実の睡眠モニタリングなどが特長 人気スマートバンドがさらに魅力的に進化! ファーウェイ「HUAWEI Band 10」レビュー sponsored JN-i238G200F-HSP-Wをレビュー 200Hzの23.8型ゲーミングディスプレーが2万980円!? さすがに安すぎるけど大丈夫? sponsored Wi-Fi 7対応の「Archer BE450」「Archer BE220」、便利なスマートリモコン「Tapo H110」 Wi-Fi 7ルーターで一番売れてたTP-Link! Amazon限

                                  Stability AI、商用利用可能な日本語画像言語モデル「Japanese Stable VLM」
                                • 世界最軽量!Hugging Faceがメモリ1GB未満のノートPCでも動作可能な超軽量VLM「SmolVLM-256M」「SmolVLM-500M」をリリース | Ledge.ai

                                  Top > ビジネス > 世界最軽量!Hugging Faceがメモリ1GB未満のノートPCでも動作可能な超軽量VLM「SmolVLM-256M」「SmolVLM-500M」をリリース

                                    世界最軽量!Hugging Faceがメモリ1GB未満のノートPCでも動作可能な超軽量VLM「SmolVLM-256M」「SmolVLM-500M」をリリース | Ledge.ai
                                  • Google DeepMind、YouTubeショートの検索に視覚言語モデル(VLM)の「Flamingo」提供

                                    Google DeepMind、YouTubeショートの検索に視覚言語モデル(VLM)の「Flamingo」提供 米Google傘下のAI企業Google DeepMindは5月25日(現地時間)、同社が開発するSimVLM(Simple Visual Language Model、単一視覚言語モデル)の「Flamingo」を系列企業YouTubeの人気コンテンツ「YouTubeショート」の検索に提供したと発表した。 VLMは、視覚的な入力に言語を対応させる言語モデル。SimVLMは、追加のトレーニングなしでタスク固有の少数のサンプルを使うだけで問題に取り組める。Flamingoは、画像、動画、テキストで構成されるプロンプトを受け取り、関連する言語を出力する。 FlamingoはYouTubeで、ショートの最初のフレームを分析し、何が表示されているかをテキストで説明する。例えば「海岸に立つ

                                      Google DeepMind、YouTubeショートの検索に視覚言語モデル(VLM)の「Flamingo」提供
                                    1

                                    新着記事