東京大学大学院の2024年度講義「知能情報論」で使用した資料です. Vision&Language関連の研究について,深層学習初期から大規模モデルにいたるまでを概観しています. なお,資料作成時期は2024年5月下旬であり,内容はその時点で発表されていた研究等に基づいています.
印刷する メールで送る テキスト HTML 電子書籍 PDF ダウンロード テキスト 電子書籍 PDF クリップした記事をMyページから読むことができます 日本マイクロソフトは6月6日、「Microsoft Copilot for Microsoft 365」(Copilot for Microsoft 365)に関する記者向けセミナーを開催した。併せて国内外のAI活用動向も披露している。 同社 業務執行役員 モダンワークビジネス本部 本部長の山田恭平氏はAIについて「AIの筋トレがとても重要。AIは意識せずに使えるインフラではなく、既にスキルに分類されている。仕事に役に立つプロンプトもほかの人が同様に役立つとは限らない。だからこそAIスキルを磨くため、(Copilot for Microsoft 365を)使えば使うほど、組織の変化を感じられる」と述べた。 Copilot for Mic
想像してみてください: お気に入りのソーシャルメディアをスクロールしていると、絵のように美しくて素晴らしい風景画像に出くわします。興味をそそられたあなたは、仲間からの反応を期待して、その場所に関する質問を入力します。すると、仲間に代わって機械が風景と場所をそのまま識別し、詳細な説明に加えて、近くのアトラクションまで提案してくれました。 このシナリオはサイエンスフィクションではなく、さまざまなモダリティ(様式)を組み合わせることでAIの世界を拡張する マルチモーダルLLM (以下、M-LLMと記載します)の可能性を示しています。 M-LLMはマルチモーダル情報をシームレスに統合し、テキスト、画像、音声などを含む多様な形式のデータを処理して世界を把握できるようにします。M-LLMの中核は、さまざまなデータ型を取り込むことができる汎用性の高いニューラルネットワークで構成され、それによってさまざま
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く