[B! 動画解析] Aobeiのブックマーク

GPT-4o(omni)を使って動画を解釈させる

1. イントロ 1-1. 本記事の内容 2024/05/14にOpenAIからGPT-4 omniなるモデルが発表された動画・テキスト・音声を解釈できるモデルのため、これを用いて動画の実況ができるかを見てみることにした ※ 執筆(2024/05/15)時点では、音声解釈のAPI受け口は提供されていない 1-2. GPT-4o についてクロスモーダルAI 入力：動画/画像・テキスト・音声出力：動画/画像・テキスト・音声レイテンシの改善 20言語におけるトークン数の圧縮テキストやオーディオ翻訳の項目において性能改善 2. 実際に使ってみる対象動画はyoutube-8Mデータセットの内容を対象とする google colabで実装 LangChainですでにラップされているようなので、langchain==0.1.20を利用 2-1. セットアップインストール ! pip inst

Aobei 2024/05/27

動画解析

リンク

世界初？Claude3を使った動画解析 - claude3-video-analyzer

こちらの記事はもちろんClaude3Opusによる生成が80%を占めています。はじめにこんにちは！今日は、私が最近作成したPython プロジェクト「claude3-video-analyzer」について紹介したいと思います。このプロジェクトは、Anthropic社のClaude-3モデルのマルチモーダル機能を利用して、MP4形式の動画をプロンプトに基づいて解析するものです。世界初？ Claude-3はまだリリースされたばかりの最新のAIモデルですが、そのマルチモーダル機能を活用した動画解析の実装は、おそらく世界初ではないでしょうか。私が知る限り、他に同様のプロジェクトを見たことがありません。このプロジェクトはGPT4Visionのように動画を解析でき、Claude-3の可能性を探る一つの試みであり、今後の発展に期待が持てます。使用例 prompt この画像シーリズは、日本の

Aobei 2024/03/13

動画解析

リンク

Low-Level Video Features as Predictors of Consumer Engagement in Multimedia Advertisement

Aobei 2023/05/13

動画解析

リンク

Papers with Code - Predicting emotion from music videos: exploring the relative contribution of visual and auditory information to affective responses

Aobei 2023/05/13

動画解析

リンク

Home - PySceneDetect

Aobei 2023/05/10

シーン検出

リンク

Papers with Code - Story Understanding in Video Advertisements

Aobei 2023/05/10

リンク

2つのビデオを自動的に比較し共通のコンテンツを探し出す | Amazon Web Services

Amazon Web Services ブログ 2つのビデオを自動的に比較し共通のコンテンツを探し出す 2つのビデオを比較し、共通している点、異なっている点を特定することはさまざまに役立ちます。2つのビデオソースの間で共通のコンテンツを探し出すことは、次のような多くの興味深いアプリケーションへと可能性を広げます。自身のコンテンツの、サードパーティビデオによる不正使用を調査する 1組（2つ）のビデオストリームについて、コマーシャルが異なる場合でも確実に同じ番組が流れていることを確認 2つのビデオを比較して、どれくらい共通のコンテンツが存在するかを調べる通常、放送局ではこのような比較は手動で行われていますが、その場合1人の担当者が同時に2つのビデオをモニターする必要があります。この手作業のアプローチは面倒で時間がかかり、ミスが発生しやすいものです。このブログでは、このタイプのビデオ比較を

Aobei 2022/09/02

リンク

【日本語CLIP基礎】画像とテキストの類似度計算、画像やテキストの埋め込み計算、類似画像検索 - Qiita

日本語CLIPクラス日本語CLIPモデルを表すクラスを定義します。クラスは次の3つで構成されます。 ClipTextModel: CLIPのテキストエンコーダーモデル ClipVisionModel: CLIPの画像エンコーダーモデル ClipModel: CLIPモデル。ClipTextModelとClipVisionModelの両方を内包する。どのクラスも基本構造は同じで、学習済みモデルの読み込み（__init__）、テキストや画像のエンコード（encode*）、推論（forward）、保存（save）を行うメソッドを持っています。その中でも特に重要なのがエンコードメソッド（encode_text/encode_image/encode）です。本記事ではエンコードメソッドの使いこなし方について例を用いて説明をしていきます。 import os import torch from

Aobei 2022/04/06

リンク

Wav2CLIP: CLIPを使用したロバストなオーディオ表現学習手法

CLIPからオーディオ表現を抽出する手法であるWav2CLIPを提案。CLIPの視覚モデルをフローズさせ、そのモデルを用いて動画データから埋め込みベクトルを取得。対応したオーディオデータから同じ埋め込みベクトルを予測するモデルを訓練することで動作する。Wav2CLIPは一般的でロバストなオーディオ表現を抽出し、音声の分類や検索などさまざまな音声タスクの性能比較のための強力なベースラインとしてよく知られているYamNetやOpenL3と比較して、オーディオ分類・検索タスクで良好な結果を示した。オーディオ・画像で共有する埋め込み空間の定性的な評価のために、オーディオからのクロスモーダルな画像生成についても調査を行なった。CLIPモデルは事前にテキスト・画像のペアで学習済みのため、テキスト・画像・オーディオ間のクロスモーダルな埋め込みベクトルを得ることができる！ Audio Encoderの学習

Aobei 2022/02/14

リンク

Youtubeにどんな動画タイトルをつければいいのかプログラミングで解析してみる | ガジェラン

Aobei 2022/02/14

動画解析

リンク

python wxpython + openCVでシンプルな動画解析ツールを作成 - Qiita

アジェンダはじめに出来上がったツールのデモ openCVで動画解析 wxpythonでGUI作成 pyinstallerでexe化はじめに動画中の「どの時間に」「どんな人物がでてくるか」を知りたいって思ったことがあって、勉強していたwxpythonとopenCVでシンプルな動画解析ツールを作成してみました。自分用のメモも兼ねて、ここで紹介させていただきます。ダウンロードはこちらから GitLab ChuntaMovieAnalyzer 出来上がったツールのデモまずはツールのデモ画面から。動画を指定してhtmlのレポートを出力します。動画の秒数ごとに人間の顔を抽出して表示しています。 GUIで秒数の間隔や抽出する最大人数を変更できます。ダウンロードはこちらから GitLab ChuntaMovieAnalyzer openCVで動画解析動画を解析する際に利用したライブ

Aobei 2022/01/12

リンク

Create a Radial Movie/TV Barcode Using Polar Coordinates

Aobei 2020/07/13

動画像の視覚化。極座標グラフを作る。

リンク

GitHub - jonasrothfuss/videofeatures: A Pipline for extracting and processing features from videos

Aobei 2020/06/24

リンク

Is there any python library that helps in extraction of video features? | ResearchGate

Aobei 2020/06/24

ビデオ機能の抽出に役立つPythonライブラリ

リンク

Deep Learning Tutorial to Calculate the Screen Time of Actors in any Video (with Python codes)

Aobei 2020/06/24

リンク

Python OpenCVで動画をフレーム毎に画像保存 - Qiita

import cv2 import os def extractFrames(pathIn, pathOut): if not os.path.exists(pathOut): os.mkdir(pathOut) cap = cv2.VideoCapture(pathIn) count = 0 while (cap.isOpened()): ret, frame = cap.read() if ret == True: cv2.imwrite(os.path.join(pathOut, "frame_{:06d}.jpg".format(count)), frame) count += 1 else: break cap.release() cv2.destroyAllWindows() def main(): extractFrames('video.mp4', 'outputdir')

Aobei 2020/03/30

リンク

【Python】KerasでVGG16を使って画像認識をしてみよう！

ではせっかくなのでモデルの中身をみてみましょう．以下のコードでその中身を見ることができます． model.summary() 以下のようなモデルの構造が表示されるかと思います． Layer (type) Output Shape Param # ================================================================= input_1 (InputLayer) (None, 224, 224, 3) 0 _________________________________________________________________ block1_conv1 (Conv2D) (None, 224, 224, 64) 1792 ______________________________________________________

Aobei 2020/03/24

リンク

２つの動画の類似度を求める - walkingmask’s development log

ググっても意外と出てこなかったので、シンプルな実装をログ。より効率的なアルゴリズム、高パフォーマンスな方法が他にあることは明らかなので、見つけ次第追記していければと思う。実験用リポジトリは以下。 github.com 画像の類似度動画はただの画像の連続なので、基本的な仕組みは画像の場合と同じ。以下の記事が非常にわかりやすくて面白い。 qiita.com Perceptual Hashを使っている。動画の類似度では、何が違い、何が問題となるのか？動画間の比較は、言い換えると「時系列関係を持った画像集合間の比較」なので、主な違いとしては、単体の比較か？集合の比較か？だと思う。また、大きく問題になってくるのは、特に「動画間のフレーム数が異なる」点だと考えられる。例として FPS が違う前後に異なるフレームがあるトリミング広告の挿入などコマ落ち等によって、時系列情報に違いが出

Aobei 2020/03/06

リンク

Pythonを使った音楽解析をやってみる - のんびりしているエンジニアの日記

皆さんこんにちはお元気ですか。私は元気です。本記事はPythonのアドベントカレンダー第6日です。 qiita.com 本日はPythonを使った音楽解析に挑戦します。偶然にも音楽解析に便利なライブラリを発見したので、試してみたいと思います！音楽解析 librosa librosaとは音楽を解析してみた。音楽を取得する。データ読み込み音楽情報を取得する。時間の計算ピッチやテンポの計算スペクトラム分析をやってみる。音楽特徴量を取得する。音楽を加工する。時間の引き伸ばし、短縮要素の抽出打楽器要素の抽出ハーモニック要素の抽出音楽の保存参考文献音楽解析本日の挑戦は特徴量抽出と一部の音楽の加工です。基本的な音楽ファイルの読み込みや特徴量抽出、音楽の加工分離です。音楽解析に便利なライブラリ、librosaを紹介します。 librosa librosaとは