
エントリーの編集

エントリーの編集は全ユーザーに共通の機能です。
必ずガイドラインを一読の上ご利用ください。
任意のビデオエンコーダとHuggingFaceのデコーダモデルをつなげて自作のビデオキャプショニングモデルを作る - Qiita
記事へのコメント0件
- 注目コメント
- 新着コメント
このエントリーにコメントしてみましょう。
注目コメント算出アルゴリズムの一部にLINEヤフー株式会社の「建設的コメント順位付けモデルAPI」を使用しています

- バナー広告なし
- ミュート機能あり
- ダークモード搭載
関連記事
任意のビデオエンコーダとHuggingFaceのデコーダモデルをつなげて自作のビデオキャプショニングモデルを作る - Qiita
PyTorch HubなどHuggingFace以外から取得したビデオエンコーダとHuggingFaceのデコーダを使って,ビデオ... PyTorch HubなどHuggingFace以外から取得したビデオエンコーダとHuggingFaceのデコーダを使って,ビデオそのものを入力とするキャプショニングモデルの実装方法を紹介します. 実装方法のみを知りたい方は実装の節を参照してください. やりたいこと ビデオを入力してテキストを生成するビデオキャプショニングモデルを実装したい video encoderでビデオを埋め込み 埋め込みからdecoderでテキスト生成 video encoderには,HuggingFaceには無いモデルを使用したい decoderにはHuggingFaceのモデルを使用したい generate()でキャプション生成したい そもそも ビデオを入力とするキャプショニングモデルを実装には,HuggingFaceのVisionEncoderDecoderモデルを使うと簡単です.以下のように,encoder