[B! cv][prompt] sh19910711のブックマーク

sh19910711 id:sh19910711

cvとpromptに関するsh19910711のブックマーク (7)

レシピ動画からサムネイル画像を自動抽出するAIシステムを作りました - every Tech Blog
はじめに DELISH KITCHENでデータサイエンティストをやっている山西です。今回はレシピ動画のサムネイル画像の自動抽出の取り組みについて紹介いたします。 OpenCVを用いた画像処理画像とテキスト情報のペアを扱う大規模モデル等を用いつつそれを試みた事例になります。 ※記事後半で具体実装を扱っている部分では、周辺知識がある前提で説明を進めていることをご了承ください。 every Tech Blog Advent Calendar 2024(夏) 9日目の記事になります。出来たもののイメージどんなものが出来たかを先に紹介します。一言で表すと、レシピ動画の中から「調理手順を表すのに良い感じのサムネイル画像」をAI的振る舞いで自動で抽出してくれるシステムになります。これをワンパンカルボナーラというレシピに適用した例を以下に載せています。図1: AIシステムによるレシピサムネ
sh19910711 2024/06/12
"調理手順を表すのに良い感じのサムネイル / 各フレーム画像の特徴点を抽出し、動画内の前後のフレームの特徴点の総当たりマッチング / CLOOB: CLIPの改良版として、rinna社によって提供"

*program

prompt

cv

暮らし

制作
リンク
ConvLLaVAを日本語LLMで学習してみた - Qiita
はじめに Image EncoderにCNN系のモデルであるConvNeXtを使用した、ConvLLaVAが提案されました。本記事はConvLLaVAを使って768x768の画像が入力可能な日本語VLMを学習してみました。また、学習したモデルを日本語ベンチマークを使用して他のモデルとの比較も行いました。モデルの重みは以下で公開しています。 ConvLLaVAについて ConvLLaVAはConvLLaVA: Hierarchical Backbones as Visual Encoder for Large Multimodal Modelsで提案された手法です。前述したとおりImage EncoderにConvNeXtを使用しているのが特徴ですが他にも以下の2つの工夫点があります。工夫点1 ConvNeXtにStage 5を追加することで解像度が高い画像を入力しても画像トークン
sh19910711 2024/06/08
"ConvLLaVA: EncoderにCNN系のモデルであるConvNeXtを使用 + 解像度が高い画像を入力しても画像トークンが少なく ~ / 学習が3段階で行われ + 2段階目では高解像度の画像にも対応できるようにImage Encoderの学習"

*program

prompt

cv

conv
リンク
自分の学習データで画像生成AIを使ってみる話
画像生成を手元データから追加学習。Stable Diffusionで使える LoRAを作成。ただ、キャラクターの学習は思っていたような結果にならなかった話。
sh19910711 2024/06/08
"Stable Diffusion: 本屋さんでも1、2冊は本が置いてある / LoRA: 顔データは比較的簡単にできたけど、キャラクターは難しかった / 学習させる行為そのものは楽しいが試行錯誤はあまり自動化できず + かなり時間かかる"

*design

prompt

cv

制作
リンク
GPT-4oを使って画像を分析してみた - GMOインターネットグループグループ研究開発本部
TL;DR OpenAIは、2024/05/13にGPT-4oをリリースしました。GPT-4oは、画像とテキスト、音声などを同時に処理することができるモデルで、従来よりも高速な実行が可能です。 GPT-4 Turbo with visionで行ったように、GPT-4oのAPIを利用してグラフの解説を試したところ、ある程度はもっともらしい解説は可能ですが、やはり正確な数値の読み取りなどには課題が残る結果となりました。特にChatGPTでは、入力した画像だけではなく、既に学習済みの知識をカンニングしている可能性があります。ペンギンの性別や種のラベル、体重の数値を入れ替えた場合、これらの事前知識に影響されたと思われる回答が得られました。はじめにこんにちは、グループ研究開発本部・AI研究室のT.I.です。先日5/13に、OpenAIは新しいGPT-4o(omni)をリリースしました。GPT-
sh19910711 2024/05/29
"ChatGPTでは、入力した画像だけではなく、既に学習済みの知識をカンニングしている可能性があり / 数値を入れ替えた場合、これらの事前知識に影響されたと思われる回答が得られました"

*program

prompt

cv
リンク
ChainlitとLangGraphを活用してAgentによる画像認識を実現する方法
はじめに 5月13日にGPT-4oがOpenAIから発表されました。この発表以降、Xでも多くの方がGPT-4oを試した感想を書いていました。その中で画像認識の精度が上がって、かなり使える機能になってきているとの話があり、気になったのでまずはAPIから使えるようにしてみました。 OpenAIのモデルがVisionに対応したのはだいぶ前になりますが、値段の割にあんまり精度が良くなさそうだったので、お恥ずかしながら今まで試したことがありませんでした。なので今回は、 VisionのAPIドキュメントを一通り読む Chainlitのマルチモーダル機能の挙動を確認する以前作成したChainlitとLangGraphのAgentアプリで画像認識をできるようにするという手順でやっていきたいと思います。 Vision APIのドキュメント確認まずはVisionの使い方やコストについて、Open
sh19910711 2024/05/29
"チャットに貼られた画像を使用したい / high: まず512px × 512pxのサイズに変換した画像を見る + 2048px × 768pxに収まるように画像をスケーリング + スケーリングした画像を512px × 512pxのタイルに分割"

*program

python

prompt

cv
リンク
解像度の高い画像が入力可能な日本語VLMを学習させてみた - Qiita
はじめに最近、Large Vision Language Model(以下LVLM)ではLLaVA NEXTのように画像を高解像度のまま入力することでモデルの性能が上がるという論文をarXiv上でよく見かけます。そこで性能が高いImage Encoderを使用し、入力を高解像度にすることでLLMのバラメータ数が少なくても良い性能のVLMができるのではないかと考え日本語入力可能なモデルを学習させてみました。結論を最初に書くと1.86Bという比較的小さいモデルにも関わらず、7Bほどのモデルと比較して同等もしくはそれ以上の性能を持つモデルができあがりました。学習に使用したコードは以下で公開しています。モデルは以下で公開しています。デモは以下で公開しています。以前LLaVAと同じ構造で学習させたという記事も書いていますので、LLaVAについて知りたい方は以下を読んでください。モデル
sh19910711 2024/05/27
"画像を高解像度のまま入力することでモデルの性能が上がる / 1.86Bという比較的小さいモデルにも関わらず、7Bほどのモデルと比較して同等もしくはそれ以上の性能 / リアルタイム性が重視されない環境ではかなり有効"

*program

prompt

cv
リンク
GPT-4o のマルチモーダル機能をさっそく試す - Qiita
1. この記事の内容 OpanAI から 2024.5.15 に新しい大規模言語モデル「GPT-4o」が出たので、以前書いた「GPT-4V に入門してみる」記事と同様の検証をもう一回 GPT-4o でやってみて比較する記事となります結論から言うと「GPT-4oが圧倒的に強い」です。（わかり切った話ですみません） 2. GPT-4o とは？すでに大量のニュース記事が出ていますので細かく紹介しませんが、以下の公式サイトを貼っておきます。 2-1. 料金こちらのページを参照されたし 2-2. どのくらいの時点までの知識があるのか？勿論上にある通りオフィシャルには2023年10月までなのですが、実際どのくらい最近のことまで答えられるのか聞いてみました。最近の情報まで含めてめちゃくちゃ正確な回答です。いつの間にかWeb検索した情報を踏まえて回答するようになっていました。ハルシオン防止のため
sh19910711 2024/05/21
"現場猫の画像: シニカルな状態を表現したもの + GPT-4Vはこの絵を見て「ヘルメット」や「猫」や「笑顔」などのディティールは認識できるものの、全体としてこの絵が表している主題はまったく理解できませんでした"

*program

prompt

cv
リンク
1