[B! deeplearning] proto_jpのブックマーク

proto_jp id:proto_jp

deeplearningに関するproto_jpのブックマーク (52)

日本語入力にネイティブ対応したテキストからの動画生成のフルスクラッチ開発と公開の表示
proto_jp 2025/05/14
ai

japan

japanese

movie

deeplearning

gpu

pdf
リンク
日本語入力にネイティブ対応したテキストからの動画生成のフルスクラッチ開発と公開 | Jxiv, JSTプレプリントサーバ
プレプリント / バージョン1 日本語入力にネイティブ対応したテキストからの動画生成のフルスクラッチ開発と公開 ##article.authors## 尾崎, 安範株式会社AIdeaLab本部 https://orcid.org/0000-0002-6290-9637 https://scholar.google.com/citations?user=rDEvbPQAAAAJ&hl=ja 石原, 昌文株式会社AIdeaLab本部 https://cir.nii.ac.jp/crid/1410001204446228480 富平, 準喜株式会社AIdeaLab本部 DOI: https://doi.org/10.51094/jxiv.1248 キーワード: 生成AI、動画生成、人工知能抄録本技術報告では、日本語を入力できるテキストからの動画生成をフルスクラッチで開発し、公開した
proto_jp 2025/05/14
ai

japan

deeplearning

movie

model
リンク
DiffusionによるText2Imageの系譜と生成画像が動き出すまで
2022年を境に爆発的な流行を見せはじめた AI 画像生成。コアとなる拡散モデルの基礎解説、研究領域で育てられた技術が一般層にまで羽撃いた変遷、その過程で生じた解決されるべき問題点、および日進月歩で増え続ける発展的な手法群について、網羅的に流れを追いかけるメタサーベイを作成しました。明日にでも世…
proto_jp 2023/03/09
text

画像

image

機械学習

deeplearning

technology

StableDiffusion
リンク
SberSwapで、個別の学習プロセス無しでFaceSwapを実現する | cedro-blog
1.はじめに今までのFaceSwapは、個別に学習プロセスが必要なため処理に時間がかかるのが難点でした。今回ご紹介するのは、個別の学習プロセス無しでFaceSwapを実現するSberSwapという技術です。 2.SberSwapとは？下記の図は、SberSwapのモデル図でAEI-Netと呼ばれており、３つの部分で構成されています。１つ目がIdentity Encoderで、画像XsからベクトルZidを求めます。２つ目がMulti-level Attributes Encoderdで、U-Netと同様な構造を持ち画像Xtから特徴Zattを取り出します。そして、３つ目がAAD Generatorで、これらの情報から目的とする画像を生成します。 3.コードコードはGoogle Colabで動かす形にしてGithubに上げてありますので、それに沿って説明して行きます。自分で動かしてみたい
proto_jp 2023/01/10
face

ai

deeplearning
リンク
【Deep Learning研修（発展）】データ生成・変換のための機械学習
【Deep Learning研修（発展）】はディープラーニング・機械学習に関する発展的な話題を幅広く紹介する研修動画シリーズです。Neural Network Consoleチャンネル（https://www.youtube.com/c/NeuralNetworkConsole）でもディープラーニングに関するより...
proto_jp 2022/11/19
youtube

deeplearning

StableDiffusion

ai
リンク
「AI安倍晋三」ネットで物議　合成音声のYouTube動画、“東京大学AI研究会”が公開
Twitterアカウント（＠AIAbeShinzo）も開設しており、最初に投稿したツイートは26日正午時点で1万件以上リツイートされるなど関心を集めている。ユーザーからは「素晴らしい」や「ありがとう」など絶賛する声の他、「死者への冒涜ではないか」や「AIで美空ひばりの新曲作ったのと同じ感じがして複雑」など疑問を呈する声も見られる。「東京大学AI研究会」とは何者か？発起人である東京大学AI研究会のWebサイトによると、同研究会は東京大学教養学部・工学部有志と学生有志が2021年5月10日に設立。5月時点では「東大13名、京大10名、大阪大学6名、早稲田大学9名、慶応義塾大学1名、筑波大学1名、立命館大学3名」（原文ママ）の43人が在籍し、代表者は東京大学・教養学部・理科一類に所属しているという。目的は「飛躍的・未到達領域のAI開発」としており、最新の活動記録として4月に「SOTA（特定
proto_jp 2022/09/27
ai

東京

youtube

動画

deeplearning

programming
リンク
【スキルアップAIキャンプ】第79回『生成モデルはまだまだ進化している！ GAN の研究動向紹介』
スキルアップAIキャンプの第79回『生成モデルはまだまだ進化している！ GAN の研究動向紹介』にて発表した講演資料です。 https://lp.skillupai.com/20220907 一部講演後に進展があった事項があったので、修正している事項があります。また、講演時間が40分程とい…
proto_jp 2022/09/20
ai

algorithm

deeplearning
リンク
GitHub - CompVis/stable-diffusion: A latent text-to-image diffusion model
You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert
proto_jp 2022/08/23
[

ai

StableDiffusion

deeplearning

cg

machinelearning

機械学習

github
リンク
Self-attention GAN（SAGAN）を実装して遊んでみた
前回の投稿では、Spectral Noramlizationを使ったGAN「SNGAN」を実装しましたが、それの応用系であるSelf-attention GAN「SAGAN」を実装して遊んでみました。CIFAR-10、STL-10、AnimeFace Dataset、Oxford Flowerを生成して確かめています。（長いんで気楽に読んでね） Self-attention GANとは論文：Self-Attention Generative Adversarial Networks https://arxiv.org/abs/1805.08318 主な特徴基本的な発想はSpectral Noramlizationを使ったGAN（SNGAN）の発展。SNGANの論文、自分の記事 GANに安定性に大きく貢献したSpectral Noramlizationを、SNGANはD（Discrim
proto_jp 2022/08/12
ai

deeplearning

image

GAN
リンク
Generative Adversarial Network（GAN）を使った画像生成の進化を紹介
現在世間を賑わしているAI 技術と言えばDeep Learningですよね。Deep Learningで画像を生成できるという事は度々ニュース等で取り上げられることもあり、実際に目にされた事がある方もいらっしゃることでしょう。こうしたニュースが出てくるようになった背景には、2014年に発表されたGenerative Adversarial Network（GAN）というアイデアが深く関係しており、様々な研究の成果もあってこの技術は最初に発表されてからたった５年で凄まじい進化を遂げています。例えば、 This Person Does Not Exist というサイトにアクセスすると人物の画像が表示されますが、これが現実には存在しない人だと聞いて驚かれる方は多いかもしれません。このサイトに表示される人物画像は全てDeep Learningによるもので、人物画像をお手本に学習させ、お手本と見
proto_jp 2022/08/11
GAN

deeplearning

image
リンク
OpenAI
Our work to create safe and beneficial AI requires a deep understanding of the potential risks and benefits, as well as careful consideration of the impact.
proto_jp 2022/07/21
company

ai

Deep Learning

programming

service

deeplearning

software
リンク
DALL·E 2
DALL·E 2 is an AI system that can create realistic images and art from a description in natural language.
proto_jp 2022/07/04
images

art

it

画像

ai

人工知能

機械学習

deeplearning

Deep Learning
リンク
ゼロからのTransformer
もはや機械学習の汎用アーキテクチャと化したTransf ormerですが、ゼロから丁寧に解説をしている英文記事を発見したので、DeepL、みらい翻訳の力も借りつつ日本語に翻訳してみました。元記事: Brandon Rohrer, Transf ormers from Scratch, https://e2eml.school/transf ormers.html なお、元記事はCC0のパブリック・ドメインです。この翻訳記事も元記事に敬意を表してCC0とします。私は数年間、Transf ormerへの深入りを先延ばしにしてきました。最終的には、Transf ormerの特徴を知らないことへの不快感が、私にとってあまりにも大きくなりました。これはその深入りです。 Transf ormerは、2017年の論文で、あるシンボル列を別のシンボル列に変換する「配列変換」の道具として導入されました。最も有名な例
proto_jp 2022/06/20
Transformer

deeplearning

reference
リンク
DALL·E 2 を早くも破る！超リアル画像生成モデル Imagen を解説
proto_jp 2022/06/09
language

学習

画像

機械学習

deeplearning

programming
リンク
いまさら勉強する人工知能｜深津貴之 (fladdict)
・ネットを巡回して、いろいろなハックしてる人のブログや論文を100個ぐらい読む。・親切なPFNの人にお時間もらって、謎だった部分や、自分なりにたてた仮説のコンセプトをきいてもらう。・Udemyがちょうどセールをしてたので、AI系のクラスを3万円分購入（総額20万円相当）。2倍速でざっくり見る。 …だいたいこんな感じの3週間。数学が難しすぎて、わからないこともいっぱい。ただ頭のなかでe4eエンコーダやpix2pix的に、概念モデルのエンコーダーを作れば、数式なしでもいける感はあった。総論としてはAIは面白いですね、ロケットサイエンスと別の方向性で「言語化されてない職人芸のアート領域」があり、ここを抑えることができれば、最先端の発見や成果は色々とうまってそうという印象を受けました。とりあえずStyleGan2で基礎勉強をしながら、BigGan、VQGanとProbl ematic Dif
proto_jp 2022/05/31
ai

学習

機械学習

python

deeplearning

勉強

note
リンク
GitHub - VOICEVOX/voicevox_engine: 無料で使える中品質なテキスト読み上げソフトウェア、VOICEVOXの音声合成エンジン
You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert
proto_jp 2022/05/21
text

json

github

deeplearning

音声

voice
リンク
機械学習の全体像をまとめてみた
教師あり学習概要入力値から何かしらの予測をしたい場合を考えます. 予測する対象の正解データが事前に得られる場合、入力値から正解データを出力するモデルを学習する手法を教師あり学習と言います. 主なタスク何を入力して、何を出力するかでタスクが分類されます. 代表的なものに以下が挙げられます時系列予測: 現在以前の時系列データ ⇒ 未来の時系列データ画像分類: 画像 ⇒ ラベル物体検出: 画像 ⇒ 物の位置と種類セグメンテーション: 画像をピクセル単位で分割文章分類: 文章 ⇒ ラベル機械翻訳: ある言語の文章 ⇒ 別の言語の文章時系列予測現在以前のデータから将来のデータを予測します. 実用例株価予測災害予測自動車の事故防止システム主要なアルゴリズム自己回帰モデル（AR・MA・ARMA・ARIMA）時系列間の関係を数学的に定量化、モデル化する. 周期性のあるデ
proto_jp 2022/05/13
機械学習

deeplearning

algorithm
リンク
AIを作るAIを作る
人工知能(AI)はデータのパターンを識別して学習するため、とにかく十分なデータと処理能力が必要です。AI開発現場における処理能力の要請は年々増大しており、AIの開発者は数百万から数十億のパラメータを注意深く調整しなければいけません。これを達成するために設計された「ハイパーネットワーク」について、インドの作家兼ジャーナリストのアニル・アナンサスワーミー氏が解説しています。 Researchers Build AI That Builds AI https://www.quantamagazine.org/researchers-build-ai-that-builds-ai-20220125/ 人工知能の構築には「最適化」と呼ばれるプロセスで限りなく理想に近い値を見つけていくことが肝要ですが、ここに到達するためにネットワークをトレーニングすることは簡単ではありません。そんな難解なプロセスにつ
proto_jp 2022/01/27
“ビッグデータを持つ企業以外でも新しいディープニュートラルネットワークを設計・開発することができると、「ディープラーニングの民主化」の可能性を長期的な将来の展望として示しています。”

deeplearning

ai
リンク
Googleの無料サービスTeachable Machineで画像認識モデルを作成してみた | Ledge.ai
「Teachable Machine」はGoogleが提供する、簡単に機械学習のモデルを作成できるサービスです。Teachable Machineでは「画像プロジェクト」「音声プロジェクト」「ポーズプロジェクト」の3種類のモデルが作成可能ですが、今回は「画像プロジェクト」を作成します。まずはTeachable Machineにアクセスします。「使ってみる」をクリックします。「画像プロジェクト」を選択します。「標準の画像モデル」を選択します。「Class1」と「Class2」にそれぞれ犬と猫の画像を10枚ずつアップロードします。アップロードができたら、「モデルをトレーニングする」をクリックします。学習が完了したら、「Webcam」の部分を「ファイル」に変更し、学習時に使わなかった画像をアップロードします。無事、予測ができました。最後に今回はTeachable Machine
proto_jp 2021/09/19
画像

google

機械学習

deeplearning
リンク
「映像も物理も、微分可能になるとすごいことが起きる」ということの意味を文系にもわかるように説明しようと試みる
「映像も物理も、微分可能になるとすごいことが起きる」ということの意味を文系にもわかるように説明しようと試みる Updated by 清水亮 on July 26, 2021, 07:12 am JST 清水亮 ryo_shimizu 新潟県長岡市生まれ。1990年代よりプログラマーとしてゲーム業界、モバイル業界などで数社の立ち上げに関わる。現在も現役のプログラマーとして日夜AI開発に情熱を捧げている。 Tweet 最近のプログラミングの新しい波は微分可能プログラミング(differentiable programming)である。微分可能プログラミングとは、簡単に言うと・・・と思ったが、簡単に言うのは結構難しい。まず「微分」という言葉があまり簡単ではない印象がある。まずは微分と積分の関係性を説明しておこう。文系の読者に向けた記事であるので、非常にざっくりと説明してみよう(そのかわ
proto_jp 2021/07/26
programming

ai

deeplearning
リンク
1 2 3 次のページ