タグ

2024年2月24日のブックマーク (1件)

  • 音声・テキスト・画像・音楽の入出力に対応したマルチモーダル大規模言語モデル(LLM)「AnyGPT」が登場

    音声・テキスト・画像・音楽など複数の種類のデータを一度に処理できるマルチモーダルな大規模言語モデル(LLM)の「AnyGPT」が発表されました。 AnyGPT https://junzhan2000.github.io/AnyGPT.github.io/ 既存の大規模言語モデル(LLM)のアーキテクチャやトレーニングパラダイムを変更することなく、安定してトレーニングすることができるという新しいマルチモーダルLLMがAnyGPTです。AnyGPTはデータレベルの前処理のみに依存しており、新しい言語を組み込むのと同様に、新しいモダリティのLLMへのシームレスな統合を促進することが可能。マルチモーダルアライメントの事前トレーニング用に、マルチモーダルテキスト中心のデータセットを構築することで、生成モデルを利用して大規模な「Any-to-Any」(任意のデータ形式から任意のデータ形式に出力できる)

    音声・テキスト・画像・音楽の入出力に対応したマルチモーダル大規模言語モデル(LLM)「AnyGPT」が登場
    jp-myk
    jp-myk 2024/02/24