プレプリント / バージョン1 日本語入力にネイティブ対応したテキストからの動画生成のフルスクラッチ開発と公開 ##article.authors## 尾崎, 安範 株式会社AIdeaLab本部 https://orcid.org/0000-0002-6290-9637 https://scholar.google.com/citations?user=rDEvbPQAAAAJ&hl=ja 石原, 昌文 株式会社AIdeaLab本部 https://cir.nii.ac.jp/crid/1410001204446228480 富平, 準喜 株式会社AIdeaLab本部 DOI: https://doi.org/10.51094/jxiv.1248 キーワード: 生成AI、 動画生成、 人工知能 抄録 本技術報告では、日本語を入力できるテキストからの動画生成をフルスクラッチで開発し、公開した
1.はじめに 今までのFaceSwapは、個別に学習プロセスが必要なため処理に時間がかかるのが難点でした。今回ご紹介するのは、個別の学習プロセス無しでFaceSwapを実現するSberSwapという技術です。 2.SberSwapとは? 下記の図は、SberSwapのモデル図でAEI-Netと呼ばれており、3つの部分で構成されています。 1つ目がIdentity Encoderで、画像XsからベクトルZidを求めます。2つ目がMulti-level Attributes Encoderdで、U-Netと同様な構造を持ち画像Xtから特徴Zattを取り出します。そして、3つ目がAAD Generatorで、これらの情報から目的とする画像を生成します。 3.コード コードはGoogle Colabで動かす形にしてGithubに上げてありますので、それに沿って説明して行きます。自分で動かしてみたい
Twitterアカウント(@AIAbeShinzo)も開設しており、最初に投稿したツイートは26日正午時点で1万件以上リツイートされるなど関心を集めている。ユーザーからは「素晴らしい」や「ありがとう」など絶賛する声の他、「死者への冒涜ではないか」や「AIで美空ひばりの新曲作ったのと同じ感じがして複雑」など疑問を呈する声も見られる。 「東京大学AI研究会」とは何者か? 発起人である東京大学AI研究会のWebサイトによると、同研究会は東京大学教養学部・工学部有志と学生有志が2021年5月10日に設立。5月時点では「東大13名、京大10名、大阪大学6名、早稲田大学9名、慶応義塾大学1名、筑波大学1名、立命館大学3名」(原文ママ)の43人が在籍し、代表者は東京大学・教養学部・理科一類に所属しているという。 目的は「飛躍的・未到達領域のAI開発」としており、最新の活動記録として4月に「SOTA(特定
前回の投稿では、Spectral Noramlizationを使ったGAN「SNGAN」を実装しましたが、それの応用系であるSelf-attention GAN「SAGAN」を実装して遊んでみました。CIFAR-10、STL-10、AnimeFace Dataset、Oxford Flowerを生成して確かめています。 (長いんで気楽に読んでね) Self-attention GANとは 論文:Self-Attention Generative Adversarial Networks https://arxiv.org/abs/1805.08318 主な特徴 基本的な発想はSpectral Noramlizationを使ったGAN(SNGAN)の発展。SNGANの論文、自分の記事 GANに安定性に大きく貢献したSpectral Noramlizationを、SNGANはD(Discrim
現在世間を賑わしているAI技術と言えばDeep Learningですよね。Deep Learningで画像を生成できるという事は度々ニュース等で取り上げられることもあり、実際に目にされた事がある方もいらっしゃることでしょう。 こうしたニュースが出てくるようになった背景には、2014年に発表されたGenerative Adversarial Network(GAN)というアイデアが深く関係しており、様々な研究の成果もあってこの技術は最初に発表されてからたった5年で凄まじい進化を遂げています。 例えば、 This Person Does Not Exist というサイトにアクセスすると人物の画像が表示されますが、これが現実には存在しない人だと聞いて驚かれる方は多いかもしれません。 このサイトに表示される人物画像は全てDeep Learningによるもので、人物画像をお手本に学習させ、お手本と見
もはや機械学習の汎用アーキテクチャと化したTransformerですが、ゼロから丁寧に解説をしている英文記事を発見したので、DeepL、みらい翻訳の力も借りつつ日本語に翻訳してみました。 元記事: Brandon Rohrer, Transformers from Scratch, https://e2eml.school/transformers.html なお、元記事はCC0のパブリック・ドメインです。この翻訳記事も元記事に敬意を表してCC0とします。 私は数年間、Transformerへの深入りを先延ばしにしてきました。最終的には、Transformerの特徴を知らないことへの不快感が、私にとってあまりにも大きくなりました。これはその深入りです。 Transformerは、2017年の論文で、あるシンボル列を別のシンボル列に変換する「配列変換」の道具として導入されました。最も有名な例
・ネットを巡回して、いろいろなハックしてる人のブログや論文を100個ぐらい読む。 ・親切なPFNの人にお時間もらって、謎だった部分や、自分なりにたてた仮説のコンセプトをきいてもらう。 ・Udemyがちょうどセールをしてたので、AI系のクラスを3万円分購入(総額20万円相当)。2倍速でざっくり見る。 …だいたいこんな感じの3週間。数学が難しすぎて、わからないこともいっぱい。ただ頭のなかでe4eエンコーダやpix2pix的に、概念モデルのエンコーダーを作れば、数式なしでもいける感はあった。 総論としてはAIは面白いですね、ロケットサイエンスと別の方向性で「言語化されてない職人芸のアート領域」があり、ここを抑えることができれば、最先端の発見や成果は色々とうまってそうという印象を受けました。 とりあえずStyleGan2で基礎勉強をしながら、BigGan、VQGanとProblematic Dif
教師あり学習 概要 入力値から何かしらの予測をしたい場合を考えます. 予測する対象の正解データが事前に得られる場合、 入力値から正解データを出力するモデルを学習する手法を教師あり学習と言います. 主なタスク 何を入力して、何を出力するかでタスクが分類されます. 代表的なものに以下が挙げられます 時系列予測: 現在以前の時系列データ ⇒ 未来の時系列データ 画像分類: 画像 ⇒ ラベル 物体検出: 画像 ⇒ 物の位置と種類 セグメンテーション: 画像をピクセル単位で分割 文章分類: 文章 ⇒ ラベル 機械翻訳: ある言語の文章 ⇒ 別の言語の文章 時系列予測 現在以前のデータから将来のデータを予測します. 実用例 株価予測 災害予測 自動車の事故防止システム 主要なアルゴリズム 自己回帰モデル(AR・MA・ARMA・ARIMA) 時系列間の関係を数学的に定量化、モデル化する. 周期性のあるデ
人工知能(AI)はデータのパターンを識別して学習するため、とにかく十分なデータと処理能力が必要です。AI開発現場における処理能力の要請は年々増大しており、AIの開発者は数百万から数十億のパラメータを注意深く調整しなければいけません。これを達成するために設計された「ハイパーネットワーク」について、インドの作家兼ジャーナリストのアニル・アナンサスワーミー氏が解説しています。 Researchers Build AI That Builds AI https://www.quantamagazine.org/researchers-build-ai-that-builds-ai-20220125/ 人工知能の構築には「最適化」と呼ばれるプロセスで限りなく理想に近い値を見つけていくことが肝要ですが、ここに到達するためにネットワークをトレーニングすることは簡単ではありません。そんな難解なプロセスにつ
「Teachable Machine」はGoogleが提供する、簡単に機械学習のモデルを作成できるサービスです。Teachable Machineでは「画像プロジェクト」「音声プロジェクト」「ポーズプロジェクト」の3種類のモデルが作成可能ですが、今回は「画像プロジェクト」を作成します。 まずはTeachable Machineにアクセスします。 「使ってみる」をクリックします。 「画像プロジェクト」を選択します。 「標準の画像モデル」を選択します。 「Class1」と「Class2」にそれぞれ犬と猫の画像を10枚ずつアップロードします。 アップロードができたら、「モデルをトレーニングする」をクリックします。 学習が完了したら、「Webcam」の部分を「ファイル」に変更し、学習時に使わなかった画像をアップロードします。 無事、予測ができました。 最後に今回はTeachable Machine
「映像も物理も、微分可能になるとすごいことが起きる」ということの意味を文系にもわかるように説明しようと試みる Updated by 清水 亮 on July 26, 2021, 07:12 am JST 清水 亮 ryo_shimizu 新潟県長岡市生まれ。1990年代よりプログラマーとしてゲーム業界、モバイル業界などで数社の立ち上げに関わる。現在も現役のプログラマーとして日夜AI開発に情熱を捧げている。 Tweet 最近のプログラミングの新しい波は微分可能プログラミング(differentiable programming)である。 微分可能プログラミングとは、簡単に言うと・・・と思ったが、簡単に言うのは結構難しい。 まず「微分」という言葉があまり簡単ではない印象がある。 まずは微分と積分の関係性を説明しておこう。文系の読者に向けた記事であるので、非常にざっくりと説明してみよう(そのかわ
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く