並び順

ブックマーク数

期間指定

  • から
  • まで

1 - 40 件 / 431件

新着順 人気順

拡散モデルの検索結果1 - 40 件 / 431件

  • Googleが「ガビガビの低解像度画像を高解像度画像に変換するAIモデル」の性能を改善、人間が判別できないレベルに

    GoogleのAI研究チームであるGoogle AIが、低解像度画像にあえてノイズを追加して「純粋なノイズ」になるまで加工し、そこから高解像度画像を生成する「diffusion model(拡散モデル)」という手法を改善する新たなアプローチを発表しました。「画質の悪い低解像度画像から高解像度画像を生成する技術」には、古い写真の復元から医療用画像の改善まで幅広い用途が想定され、機械学習の活躍が期待されているタスクの1つです。 Google AI Blog: High Fidelity Image Generation Using Diffusion Models https://ai.googleblog.com/2021/07/high-fidelity-image-generation-using.html Enhance! Google researchers detail new m

      Googleが「ガビガビの低解像度画像を高解像度画像に変換するAIモデル」の性能を改善、人間が判別できないレベルに
    • 大学で読んだ情報科学関連の教科書 - ジョイジョイジョイ

      先日、博士(情報学)になりました。学部と大学院をあわせた 9 年間で読んだ情報科学関連の教科書・専門書を思い出を振り返りつつここにまとめます。私は授業はあまり聞かずに独学するタイプだったので、ここに挙げた書籍を通読すれば、大学に通わなくてもおおよそ情報学博士ほどの知識は身につくものと思われます。ただし、特に大学院で重要となる論文を読み書きすることについては本稿には含めておりません。それらについては論文読みの日課についてや論文の書き方などを参考にしてください。 joisino.hatenablog.com 凡例:(半端)とは、数章だけ読んだ場合か、最後まで読んだものの理解が浅く、今となっては薄ぼんやりとしか覚えていないことを指します。☆は特におすすめなことを表します。 学部一年 寺田 文行『線形代数 増訂版』 黒田 成俊『微分積分』 河野 敬雄『確率概論』 東京大学教養学部統計学教室『統計学

        大学で読んだ情報科学関連の教科書 - ジョイジョイジョイ
      • お絵描きAIがどのように絵を描いてるのか解説してる人たち

        ろぼいん@一般人 @keita_roboin @Larva06_com の技術開発部兼企画部リーダー(白土玲衣)のメインアカウント。RTめっちゃ多い。ブルアカ、動画編集とプログラミングが趣味。デザインはちょっとできる。サブ @orizin_project ブログ robot-inventor.github.io youtube.com/channel/UCJFnl… ろぼいん@VTuberではない @keita_roboin (見かけたから一応書いておくけど、AIは既存のイラストを切り貼りしているわけではない。内部の仕組みは違うけど、どちらかといえば人間がイラストを観察して学習するのに似てる) 2022-10-05 17:08:21 ろぼいん@VTuberではない @keita_roboin じゃあどういう仕組みかというと ・画像と、それにノイズを加えたものを用意する ・ノイズを加えた画像

          お絵描きAIがどのように絵を描いてるのか解説してる人たち
        • 図解Stable Diffusion

          ジェイ・アラマールのブログより。 AIによる画像生成は、(私を含めて)人々の度肝をぬく最新のAIの能力です。テキストの説明から印象的なビジュアルを作り出す能力は、魔法のような品質を持ち、人間がアートを創造する方法の変化を明確に指し示しています。Stable Diffusionのリリースは、高性能(画質だけでなく、速度や比較的低いリソース/メモリ要件という意味での性能)なモデルを一般の人々に提供することになったのは、この開発における明確なマイルストーンです。 AI画像生成を試してみて、その仕組みが気になり始めた方も多いのではないでしょうか。 ここでは、Stable Diffusionの仕組みについて優しく紹介します。 Stable Diffusionは、様々な使い方ができる汎用性の高いものです。まず、テキストのみからの画像生成(text2img)に焦点を当てます。上の画像は、テキスト入力と生

            図解Stable Diffusion
          • AI の次の重要な一歩

            AI は、Google が現在取り組んでいる中で最も本質的なテクノロジーです。AI は、医師による病気の早期発見の支援や、自国語での情報へのアクセスなど、人々、ビジネス、コミュニティの潜在能力を引き出します。そして、数十億人の生活を大きく改善できる新しい機会を提供します。6 年前から、私たちが Google の方向性を AI 中心に再編し「世界中の情報を整理し、世界中の人がアクセスできて使えるようにする」という Google のミッションを果たす最も重要な方法に AI を据えているのは、これが理由です。 以来、私たちは全面的に AI への投資を継続し、Google AI と DeepMind のチームは最先端のテクノロジーを進化させています。現在、AI の計算規模は半年ごとに倍増していますが、それはムーアの法則よりもはるかに早いペースです。同時に、高度なジェネラティブ AI と大規模言語モ

              AI の次の重要な一歩
            • 画像生成 AI によって生成されたイラストの見分け方

              人間の描いたイラストか AI によって生成された画像かを判別する Human or AI に挑戦したところスコアが低くて悲しかったため、AI の癖を徹底的に分析して自動生成されたイラストを見抜く方法をまとめました。 追記: 2024 年 7 月 この記事を執筆してから 2 年ほどが経過しました。 まあ予想通り AI 技術は進展しており、生成されるイラストの品質も向上しています。いまだにこの記事には結構なアクセスがあり、内容の妥当性についてここで再度言及しておくことは価値がありそうです。 結論から言うと、この記事の内容は現在の AI においても概ね適用できると考えていいでしょう。恐らくはパラメータ数の増加に伴って AI の地力とも言える性能は執筆地点から大きく向上していますが、一方で定性的な得意・不得意の傾向については変わっていないように見えます。 なので、全体的な傾向についての記述は概ね信

                画像生成 AI によって生成されたイラストの見分け方
              • Sakana AI

                概要 Sakana AIは進化や集合知などの自然界の原理を応用して基盤モデルを開発することを目指しています。私達の目標は、モデルを自ら訓練し開発することだけではありません。基盤モデルの開発を効率化、高度化、自動化するための新たな手法を生み出すことに挑戦しています。この目標に向けた第一歩として、私たちはプレプリント「Evolutionary Optimization of Model Merging Recipes (モデルマージの進化的最適化)」を公開しました。 このリリースの要点は以下の通りです。 進化的モデルマージという手法を提案します。これは、多様な能力を持つ幅広いオープンソースモデルを融合(マージ)して新たな基盤モデルを構築するための方法を、進化的アルゴリズムを用いて発見する手法です。私たちの手法は、ユーザーが指定した能力に長けた新しい基盤モデルを自動的に作成することができます。既

                  Sakana AI
                • 30分で完全理解するTransformerの世界

                  はじめに 初めまして。ZENKIGENデータサイエンスチームのはまなすです。正式な所属はDeNAデータ本部AI技術開発部なのですが[1]、業務委託という形で今年度から深層学習系の開発等に携わっています。 深層学習界隈では、2017年に衝撃的なタイトル(Attention Is All You Need)の論文が発表されてから早5年半、元出自の機械翻訳タスクを大きく越えて、Transformer関連の技術が様々な領域で用いられる汎用アーキテクチャとして目覚ましく発展し続けています。 今回はそんなTransformerが現時点までにどのように活用されてきたか、また、どのように工夫されてきたかをざっくりと俯瞰し、流れをおさらいする目的の記事になります。本記事の大枠は、2021年時点でのサーベイ論文である A Survey of Transformers に倣いつつ、適宜、2023年2月上旬現在ま

                    30分で完全理解するTransformerの世界
                  • AIイラストが理解る!StableDiffusion超入門【2024年夏最新版】A1111、Forge対応|賢木イオ

                    AIイラストが理解る!StableDiffusion超入門【2024年夏最新版】A1111、Forge対応 こんにちは、2022年10月からAIイラストの技術解説記事をweb連載してます、賢木イオです。この記事は、これまでFANBOXで検証してきた120本(約70万文字)を超える記事をもとに、2024年春現在、画像生成を今から最短距離で学ぶための必要情報をまとめたメインコンテンツです。 これから画像生成を学びたい初心者の方や、手描きイラストにAI技術を取り入れてみたい方が最初に読む記事として、必要知識が網羅的に備わるよう解説しています。素敵なイラストを思い通りに生成するために覚えるべきことを紹介しつつ、つまずきやすいポイントや参照すべき過去記事、やってはいけないことなどを紹介していますので、最初にこの記事から読んでいただくとスムーズに理解できるはずです。 解説役は更木ミナちゃんです。よろし

                      AIイラストが理解る!StableDiffusion超入門【2024年夏最新版】A1111、Forge対応|賢木イオ
                    • 世界に衝撃を与えた画像生成AI「Stable Diffusion」を徹底解説! - Qiita

                      追記: U-Netの中間層は常にSelf-Attentionとなります。ご指摘いただきました。ありがとうございます。(コード) オミータです。ツイッターで人工知能のことや他媒体の記事など を紹介しています。 @omiita_atiimoもご覧ください! 世界に衝撃を与えた画像生成AI「Stable Diffusion」を徹底解説! 未来都市にたたずむサンタクロース(Stable Diffusionで生成) 2022年8月、世界に大きな衝撃が走りました。それは、Stable Diffusionの公開です。Stable Diffusionは、テキストを受け取るとそれに沿った画像を出力してくれるモデルです1。Stable Diffsuionは10億個近いパラメータ数をもち、およそ20億個の画像とテキストのペア(LAION-2B)で学習されています。これにより、Stable Diffusionは入

                        世界に衝撃を与えた画像生成AI「Stable Diffusion」を徹底解説! - Qiita
                      • AIイラスト生成技術にまた衝撃 キャラのポーズが自由自在の「ControlNet」登場

                        AIでのイラスト生成時、キャラクターに自由なポーズを取らせることができる──そんな新技術が話題だ。その名は「ControlNet」。2月10日に論文が投稿されると、数日後にはStable Diffusion用WebUI向けの拡張機能がGitHubに登場。15日には、AIイラストに注目するTwitterユーザーの間で「革新的な変化」と話題になっている。 論文によれば、ControlNetはStable Diffusionなどの拡散モデルでテキストから画像を生成するときに、追加の入力条件を加えて生成結果を制御するニューラルネットワークという。Stable DiffusionとControlNetを併用することで、より容易に生成結果を制御できるとしている。

                          AIイラスト生成技術にまた衝撃 キャラのポーズが自由自在の「ControlNet」登場
                        • AIボイチェン「RVC」の精度と学習・変換速度が革命的。コナンの蝶ネクタイ的リアルタイムボイチェンも可能(CloseBox) | テクノエッジ TechnoEdge

                          おいおいまたかよ、驚き屋かお前はと言われそうですが、またゲームチェンジャーなんですよ。ほんとすいません。全部AIが悪いんです。 AI関連はちょっと目を離すと取り残されてしまいます。後から来たのに追い越され、泣くのが嫌なら歩いていくしかないのです。今回、それが再びAI音声合成で起きました。 筆者はAIアートグランプリを受賞したおかげでいろいろなところから取材を受けたり自分でも解説記事を書いたりしていますが、その中で、Diffusion(拡散)モデルを使ったDiff-SVCというAI声質変換によってリアルな元音声を再現できると説明してきました。ですが、これからは「実は今は新しいAI技術を使っているんですよ」と付け加えなければいけません。 妻の歌声を合成するのに使っていたDiff-SVCから別の新しい技術に乗り換えてしまったのです。 Diff-SVCが出た後に、So-VITS-SVC(SoftV

                            AIボイチェン「RVC」の精度と学習・変換速度が革命的。コナンの蝶ネクタイ的リアルタイムボイチェンも可能(CloseBox) | テクノエッジ TechnoEdge
                          • 画像生成AI「Stable Diffusion」でいろいろ特化した使えるモデルデータいろいろまとめ

                            画像生成AIのStable Diffusionは、ノイズを除去することで画像を生成する「潜在拡散モデル」で、オープンソースで開発されて2022年8月に一般公開されたため、学習用のデータセットを変えることで特定の画像を生成するのに特化したフォークモデルが多数存在します。そんなStable Diffusionから派生して生まれた特化型モデルとその特徴や生成例をまとめてみました。 Stable Diffusion Models https://rentry.org/sdmodels 実際に複数のモデルとシード値で、同一のプロンプト・ステップ数・CFGスケールで画像を生成した結果をまとめてみました。 モデルは左からStable Diffusion v1.4、Waifu-Diffusion v1.2、Trinart Stable Diffusion、Hentai Diffusion、Zack3D_K

                              画像生成AI「Stable Diffusion」でいろいろ特化した使えるモデルデータいろいろまとめ
                            • NVIDIAが高精度な画像生成AI「eDiffi」を発表、従来の「Stable diffusion」や「DALL・E2」よりテキストに忠実な画像生成が可能

                              大手半導体メーカーでありAI研究にも力を入れているNVIDIAが、新たな画像生成AIである「eDiffi」を発表しました。NVIDIAはeDiffiについて、世界中で話題となっている「Stable Diffusion」やOpenAIの「DALL・E2」といった従来の画像生成AIより入力テキストに忠実な画像を生成できると主張しています。 [2211.01324] eDiffi: Text-to-Image Diffusion Models with an Ensemble of Expert Denoisers https://arxiv.org/abs/2211.01324 eDiff-I: Text-to-Image Diffusion Models with Ensemble of Expert Denoisers https://deepimagination.cc/eDiffi/

                                NVIDIAが高精度な画像生成AI「eDiffi」を発表、従来の「Stable diffusion」や「DALL・E2」よりテキストに忠実な画像生成が可能
                              • 【AI動画生成】Sora 要素技術解説

                                もう全部OpenAIでいいんじゃないかな はじめに 月間技術革新です。 ということで、昨日OpenAIから発表された新しい動画生成AI「Sora」が非常に話題となっていますね。 圧倒的な一貫性の保持と1分間に及ぶ長時間動画が生成可能という事で、現状の動画生成技術を圧倒的に凌駕する性能を持っているようです。 在野エンジニアの小手先テクニックなど一笑に付すような圧倒的性能を Soraの凄さは色んなエンジニアやインフルエンサーがたくさん語っているのでそちらを見てもらうとして、この記事ではSoraを構成する各技術について簡単に解説していければと思います。 Soraの技術構成 論文が公開されているわけではないですが、OpenAIが要素技術の解説ページを公開してくれているため、そのページを参考にしていきます。 原文を見たい方はこちらからどうぞ 全体構成 Soraは以下の技術要素で構成されているとのこと

                                  【AI動画生成】Sora 要素技術解説
                                • DiffusionによるText2Imageの系譜と生成画像が動き出すまで

                                  2022年を境に爆発的な流行を見せはじめた AI 画像生成。コアとなる拡散モデルの基礎解説、研究領域で育てられた技術が一般層にまで羽撃いた変遷、その過程で生じた解決されるべき問題点、および日進月歩で増え続ける発展的な手法群について、網羅的に流れを追いかけるメタサーベイを作成しました。 明日にでも世…

                                    DiffusionによるText2Imageの系譜と生成画像が動き出すまで
                                  • 生成AI技術が辿った濃い一ヶ月間

                                    Stable Diffusionがオープンソースで公開されてちょうど1ヶ月が立ちました。OpenAIがDall-E2をリリースしたのが4月。こういう異次元なリソースを使ってモデルを作れるのはごく限られたプレーヤーだけと思い込んでいたものが、若干十数人のチームがMidjourneyをリリースしたのが7月。一連の騒ぎがここ半年程度の出来事で、1ヶ月前に深津さんも予見していた「世界変革」が目の前で怒涛の勢いで進行しています。 このブログも書いた瞬間に古くなるだと思うけど、この文化的特異点とも言える1ヶ月に起こったことを振り返ってみたいと思います。それにしても手書き文字の生成に感動していた2015年から比べるとずいぶん遠いところまで来ましたね。DataRobotでも「AIの民主化」を掲げて様々な企業のAI活用を推進していたけれど、今起こっている変化を見ているとそのスピード感に愕然とします。 少し宣

                                      生成AI技術が辿った濃い一ヶ月間
                                    • 学習データに最適化されすぎて本来の目的が達成できなくなる「過学習」と同様の現象はAIだけでなく社会全体で起こっているという主張

                                      機械学習における過学習(過剰適合/オーバーフィッティング)とは、AIが学習データのみに最適化されてしまい、未知のデータに対する予測能力が低くなってしまうという現象です。そんな過学習と同様の現象が機械学習分野だけでなく社会全体のさまざまな場面でも発生していると、Google傘下の人工知能研究所・Google Brainの研究者であり近年の画像生成AIに広く用いられている「拡散モデル」の論文執筆者でもあるJascha Sohl-Dickstein氏が主張しています。 Too much efficiency makes everything worse: overfitting and the strong version of Goodhart’s law | Jascha’s blog https://sohl-dickstein.github.io/2022/11/06/strong-Go

                                        学習データに最適化されすぎて本来の目的が達成できなくなる「過学習」と同様の現象はAIだけでなく社会全体で起こっているという主張
                                      • 2023年の話題&ベストセラーをまとめて紹介! Udemyで今年最大級のセール開催、生成AIなど対象講座が1,200円より - はてなニュース

                                        世界中を席巻した生成AIは、ブームに終わることなく着実に社会のさまざまな場面で利用が進んでいます。特にChatGPTを始めとするテキスト生成はビジネスシーンですぐに適用可能なケースも多く、使いこなす人とそうでない人には大きな差が生じつつあります。 使いこなすノウハウにも一定の知見が貯まっており、定番となるセオリーが整理されています。正しく学ぶことができれば一気にキャッチアップできるでしょう。Udemyの講座でも、ChatGPTを使いこなすプロンプトの作法や、アプリケーションにLLM(大規模言語モデル)を組み込むノウハウ、AIをより深く知る数学知識などに人気があります。 この記事では、2023年11月17日(金)に始まるブラックフライデーセール(24日まで)、そして26日(日)から2日間のサイバーセールの対象になる人気講座から、エンジニアリングやビジネスシーンにおいて読者の成長を助けてくれる

                                          2023年の話題&ベストセラーをまとめて紹介! Udemyで今年最大級のセール開催、生成AIなど対象講座が1,200円より - はてなニュース
                                        • 一年の計は元旦にあり! Udemy新年のビッグセールで2024年に学びたいこと、挑戦したい資格、新しいスキルを見つけよう - はてなニュース

                                          ※ Udemy「新年のビッグセール」は終了しました。はてなによるAmazonギフトカードプレゼントキャンペーンもそれにあわせて終了しています。ご応募ありがとうございました。 あけましておめでとうございます。これまでもUdemyの大きなセールでは目玉の講座を紹介してきた当ニュースですが、2024年1月1日から1月10日まで開催される「新年のビッグセール」では、新しい年にふさわしい夢とキャリアが広がる講座を紹介します。 各種資格試験の対策講座をはじめとして、マスターしたいプログラミング言語や開発手法、昨年から引き続き話題の生成AI、ウェブ解析やプロジェクトリカバリ、簿記や会計、英会話など多様なビジネスキャリアに直結する講座をピックアップ。映像制作や3Dモデリング、GA4や3Dアニメーション制作といった講座も取り揃えています。 一年の計は元旦にあり。みなさんが2024年に挑戦したい目標や習得した

                                            一年の計は元旦にあり! Udemy新年のビッグセールで2024年に学びたいこと、挑戦したい資格、新しいスキルを見つけよう - はてなニュース
                                          • 超高精度なイラストを生成できると話題の「NovelAI」は本家Stable Diffusionにどんな改善を加えたのか?

                                            Stable Diffusionよりもはるかに高い精度でイラストを生成できる画像生成AIサービス「NovelAI」のAIモデルについて、NovelAIの開発チームが自身のブログで解説しています。 NovelAI Improvements on Stable Diffusion | by NovelAI | Oct, 2022 | Medium https://blog.novelai.net/novelai-improvements-on-stable-diffusion-e10d38db82ac NovelAIは2021年6月15日にベータ版が公開されたSaaSモデルの有料サブスクリプションサービスで、アメリカのAnlatanによって運営されています。もともとはその名の通りに小説を自動生成するAIでしたが、2022年10月3日に画像生成機能を実装しました。 NovelAI's Image

                                              超高精度なイラストを生成できると話題の「NovelAI」は本家Stable Diffusionにどんな改善を加えたのか?
                                            • 爆速化する画像生成AI。0.5秒で4枚出力、リアルタイム生成できるレベルに (1/5)

                                              このところ画像生成AI界隈で話題になっているのが、「Latent Consistency Models(レイテント・コンシステンシー・モデル」(以下「LCM」)。10月6日に中国精華大学のシミアン・ルオさんが中心となって発表された論文で、日本語にすると「拡散的一貫性モデル」。新しいタイプの効率性の高い生成モデルを使い、Stable Diffusion=安定拡散モデルより高速に画像を生成。結果としてビデオメモリーの少ないローレベルのPCでも画像生成AIを動かせるようにしようというものです。 0.5秒で4枚出力。Stable Diffusionの5倍 Stable Diffusionの拡散モデルは、ランダムなノイズ情報から、学習済みの特徴点データを利用することで、段々と画像を生み出していくサンプリングプロセスを繰り返します。それによって画像を生成する仕組みです。通常、1枚の画像を生み出すのに必

                                                爆速化する画像生成AI。0.5秒で4枚出力、リアルタイム生成できるレベルに (1/5)
                                              • 2024年版:独断と偏見で選ぶ、データ分析職の方々にお薦めしたいホットトピックス&定番の書籍リスト - 渋谷駅前で働くデータサイエンティストのブログ

                                                毎年四の五の言いながら書いている推薦書籍リスト記事ですが、何だかんだで今年も書くことにしました。なお昨年度版の記事を上にリンクしておきましたので、以前のバージョンを読まれたい方はそちらをお読みください。 今回のバージョンでは、趣向をちょっと変えて「定番」と「注目分野」というように分けました。何故こうしたかというと、平たく言って 「初級&中級向け」推薦書籍リストは定番化していて毎年あまり変更点がない 逆に直近のホットトピックスに関するテキストは毎年入れ替わりが激し過ぎて網羅しづらい という課題があり、特に2点目についてはあまりにもデータサイエンス関連書籍の新規刊行が多過ぎる&僕自身がその流れについていけておらず完全に浦島太郎状態ですので、万人向けに等しくウケるようなリストを作るのは今回をもって完全に諦めたというのが実態です。 その上で、前回まで踏襲されていた定番書籍リストはバルクで提示すると

                                                  2024年版:独断と偏見で選ぶ、データ分析職の方々にお薦めしたいホットトピックス&定番の書籍リスト - 渋谷駅前で働くデータサイエンティストのブログ
                                                • 【画像生成AI】お次は数枚の画像で「任意の人物やキャラ」をどこでも好きに登場させられる技術が誕生→二次創作の規制に関わるのでは?

                                                  mi141 @mi141 Googleから凄い論文が出てますね。拡散モデルを数枚でちょっとfinetuneするだけで、「あなたのワンちゃん」を生成画像内に自由に登場させられます! StableDiffusionでやる人めっちゃ出てきそう。 原理としては対象に新しいwordを割り当ててモデルをfinetuneするようです。 dreambooth.github.io pic.twitter.com/fZTi9DBq72 2022-08-26 12:44:52

                                                    【画像生成AI】お次は数枚の画像で「任意の人物やキャラ」をどこでも好きに登場させられる技術が誕生→二次創作の規制に関わるのでは?
                                                  • 2022年の深層学習ハイライト - Qiita

                                                    はじめに 2023年になって日が経ってしまいましたが、今年も深層学習の個人的ハイライトをまとめたいと思います。今回は研究論文5本と応用事例4つを紹介します。他におもしろいトピックがあれば、ぜひコメントなどで教えて下さい。 AIの研究動向に関心のある方には、ステート・オブ・AIガイドの素晴らしい年間レビューもおすすめします。また、私が過去に書いた記事(2021年、2020年、2019年)もよろしければご覧ください。 * 本記事は、私のブログにて英語で書いた記事を翻訳し、適宜加筆修正したものです。元記事の方も拡散いただけると励みになります。 ** 記事中の画像は、ことわりのない限り対象論文からの引用です。 研究論文 Block-NeRF: Scalable Large Scene Neural View Synthesis 著者: Matthew Tancik, Vincent Casser,

                                                      2022年の深層学習ハイライト - Qiita
                                                    • 商用利用できる透明性の高い日本語画像生成AI、CommonArt βを無償公開|AI Picasso

                                                      これらのデータセットに含まれる画像のみを使っているため、学習画像に対する透明性は限りなく高いと考えております。もし問題のある画像が見つけたら、ご報告いただけると今後の開発に助かります。なお、同様の考え方を持って作成されたモデルとして、Stable Audio Open 1.0があります。 日本語と英語の文章がそのまま通じる画像生成を使ってみたいが使えないクリエイターの中には、プロンプトが英語であるから、使い勝手がわるいと思っている方も少なくないと思います。実際、画像生成AIに慣れている人も時には翻訳ソフトを使って入力している方もいるようです。しかし、翻訳ソフトを間に挟むことでニュアンスが変わるという問題も従来指摘されています。 そこで、本画像生成は日本語を日本人の話す感覚と近いかたちで処理し、画像を生成できるようにしました。具体的には入力テキストを処理する技術を通常の言語モデルから大規模言

                                                        商用利用できる透明性の高い日本語画像生成AI、CommonArt βを無償公開|AI Picasso
                                                      • 「われわれはNovelAIと関係ない」──海外のイラストサイト「Danbooru」が日本語で声明

                                                        海外のイラストサイト「Danbooru」は10月5日までに、画像生成AI「NovelAI Diffusion」(NovelAI)と無関係であると主張する声明を発表した。声明は英語と日本語で記載。「最近話題になっているNovelAIのことでお悩みになっている絵師様へ」とし、メッセージを公開している。 NovelAIは10月3日にサービスを開始した画像生成AIで、「二次元美少女をうまく生成できる」などと話題になった。その中で、NovelAIの公式Twitterアカウント(@novelaiofficial)は、データ学習元にDanbooruを使っていると投稿。Twitter上ではNovelAIの違法性を問う声も上がっており、ソース元としてNovelAIが明示したDanbooruにも批判の目が向いていた。 Danbooruはさまざまなユーザーが描いたイラストを掲載する海外サイト。同サイトを巡っては

                                                          「われわれはNovelAIと関係ない」──海外のイラストサイト「Danbooru」が日本語で声明
                                                        • 絵心がない線画を“いい感じの作品”に変える画像生成AI「Sketch-to-Image」 Googleなどが開発

                                                          Innovative Tech: このコーナーでは、テクノロジーの最新研究を紹介するWebメディア「Seamless」を主宰する山下裕毅氏が執筆。新規性の高い科学論文を山下氏がピックアップし、解説する。 Google ResearchとイスラエルのTel Aviv Universityに所属する研究者らが発表した論文「Sketch-Guided Text-to-Image Diffusion Models」は、落書きのようにざっと描いた絵を入力テキストに従って詳細な画像を生成する深層学習モデルを提案した研究報告だ。手描きのスケッチを任意のテキストプロンプトによるスタイル制御で、自然な高精細画像に変換する。 大規模なテキストから画像への拡散モデルは、与えられたテキストプロンプトに従った前例のない品質の多様な画像の合成を可能にし、コンテンツの作成と編集のための刺激的なツールとなってきた。 しか

                                                            絵心がない線画を“いい感じの作品”に変える画像生成AI「Sketch-to-Image」 Googleなどが開発
                                                          • 画像生成AIが「トレパク」していた? 学習画像と“ほぼ同じ”生成画像を複数特定 米Googleなどが調査

                                                            Innovative Tech: このコーナーでは、テクノロジーの最新研究を紹介するWebメディア「Seamless」を主宰する山下裕毅氏が執筆。新規性の高い科学論文を山下氏がピックアップし、解説する。Twitter: @shiropen2 米Google、米DeepMind、スイスのETH Zurich、米プリンストン大学、米UC Berkeleyに所属する研究者らが発表した論文「Extracting Training Data from Diffusion Models」は、テキストから画像を生成する拡散モデルが学習データとほぼ同じ画像を生成していたことを実証した研究報告である。 これは学習データの各画像を拡散モデルが記憶し、生成時にほぼ同一を出力していたことになる。個人を特定できる顔写真や商標登録されたロゴも含まれていたため、今回の結果はプライバシーや著作権の問題も深く絡むことになる

                                                              画像生成AIが「トレパク」していた? 学習画像と“ほぼ同じ”生成画像を複数特定 米Googleなどが調査
                                                            • ジェネレーティブAIで美樹さやかさんを錬成できるのか?

                                                              ぶっちゃけ、最近はひたすらSD関係のディスコードに張り付くだけの日々だった。 だって毎日しっちゃかめっちゃかなドラマが起きてて面白すぎるから。 面倒だからここでまたイチから経緯を書いたりしないが、とにかくEmad氏の謝罪によって揉め事もひと段落したようだ。 私もいつまでもディスコなんか監視してる場合ではない。 ハッキリ言って、今の自分が画像AIに相当のめり込んでる事を認めざるを得ない。 しかし、2週間前にブログ記事を書いた段階では、自分がどういう風に画像AIにコミットしていけばいいのかサーパリ分かってなかった。 というか、世の中で何が始まりつつあるのかを正確に捉え切れてなかったのだ。 それが何か?というと、世界でジェネレーティブAI(GAI)の時代が始まりつつあるという事だ。 アメリカを代表するベンチャーキャピタルである、セコイアキャピタルが、「GAIが今激アツ!!」みたいな記事を9/20

                                                              • たった1枚の写真から高解像度の3DCGモデルをAIで生成できる「Human-SGD」が発表される

                                                                写真から3DCGモデルを作成するにはさまざまな方向から被写体を何枚も撮影する必要があります。クウェート大学・Meta・メリーランド大学の研究者が、たった1枚の写真から高解像度のCGモデルを生成する「Human-SGD」を発表しました。 [2311.09221] Single-Image 3D Human Digitization with Shape-Guided Diffusion https://arxiv.org/abs/2311.09221 Human-SGD https://human-sgd.github.io/ 研究チームの1人であるJia-Bin Huang氏が、Human-SGDがどういうモデルなのかを解説するムービーをYouTubeで公開しています。 3D Human Digitization from a Single Image! - YouTube ライダージャケ

                                                                  たった1枚の写真から高解像度の3DCGモデルをAIで生成できる「Human-SGD」が発表される
                                                                • 【AI動画生成】Animate Anyone 論文解説

                                                                  はじめに 11月も終わり、今年も残るところあと一か月となりました。 今年ももう終わるから今年中に成果を上げとけ!と言わんばかりに最近は新技術の登場が多いです。 今回取り上げるのも11月最後の大砲として出てきた新技術、その名もAnimate Anyone Animate Anyoneとはなんぞや 文字で説明するより見たほうが早い 凄くざっくり説明すると、一枚の絵と動きをボーン動画として入力すると、入力した絵がボーン動画と同じ動きをしてくれるよ!というもの。 似たようなものは今までもReferenceOnly × openpose × animatediffとかで出来ましたが、特筆すべきはその精度。 動画生成の大敵であるちらつきは一切なく、入力画像にかなり忠実な動画を生成しています。 さてこの技術、動画生成にずっと注目している自分としてはいますぐにでも弄り倒したいのですが、残念ながらコードとモ

                                                                    【AI動画生成】Animate Anyone 論文解説
                                                                  • 文章から“3Dモデル”をAIが生成 米Googleなどが「DreamFusion」を開発

                                                                    Innovative Tech: このコーナーでは、テクノロジーの最新研究を紹介するWebメディア「Seamless」を主宰する山下裕毅氏が執筆。新規性の高い科学論文を山下氏がピックアップし、解説する。 米Google Researchと米UC Berkeleyの研究チームが発表した論文「DreamFusion: Text-to-3D using 2D Diffusion」は、テキストから3Dオブジェクトを生成するシステムを提案した研究報告だ。事前に学習したテキストから2D画像を生成する拡散モデルを用いて、テキストから3次元への合成を実行する。 テキストを条件に2D画像を生成するモデルは現在、高忠実度で多様かつ制御可能な画像合成をサポートしている。これらモデルの品質向上は、大規模な画像-テキストデータセットとスケーラブルな生成モデルアーキテクチャからもたらされる。 特に拡散モデルは、安定し

                                                                      文章から“3Dモデル”をAIが生成 米Googleなどが「DreamFusion」を開発
                                                                    • 「AIが自動生成=著作権なし」「人間の創作=著作権あり」 米著作権局、AI生成コンテンツの登録ガイドライン公表

                                                                      「AIが自動生成=著作権なし」「人間の創作=著作権あり」 米著作権局、AI生成コンテンツの登録ガイドライン公表 絵画や本、音楽といったコンテンツの著作権登録を管轄する米国の政府機関・著作権局は3月16日、AIで生成した画像の著作権登録についてのガイドラインを発表した。 AIが自動生成したコンテンツは原則、著作権が認められないが、AIと人間が協働したコンテンツで、人間の創造力が反映された部分には著作権の保護が及ぶとし、登録申請の際に「AIが自動生成した部分」と「人間が創作した部分」を分けて明記するよう求めている。 米国の著作権法は日本と異なる。日本では、著作物が創作された時点で自動的に著作権が発生し、著作権が侵害された場合に訴訟を提起できる。米国でも著作権は創作時点で発生するが、著作権侵害訴訟を起こすには著作権局への登録が必要だ。 米国では、AI画像自動生成サービス「Midjourney」を

                                                                        「AIが自動生成=著作権なし」「人間の創作=著作権あり」 米著作権局、AI生成コンテンツの登録ガイドライン公表
                                                                      • イラスト生成AIに対するよくある誤解 - Qiita

                                                                        イラスト生成AIに対するよくある誤解 目次 イラスト生成AIに対するよくある誤解 目次 はじめに 注意事項 AIは既存のイラストを切り貼りしている/コラージュしている 解説 ベクトルについて 厳密には「切り貼り」も間違いではない AIのイラストは既存のイラストの模倣である 解説 AIにひらめきは存在しない 解説 人間のイラストレーターを守るために、AIが描いたイラストを見分けるAIを作るべき 解説 AIで生成されたイラストは画質(解像度)で見分けられる 解説 イラスト生成AIは、学習元のイラストに酷似したイラストを生成する 解説 AIはイラストを無断で学習しており違法 解説 AIにイラストを学習させるのは無条件で合法 解説 AIが生成したイラストには著作権が存在しない 解説 AIを使えば狙ったイラストを簡単に生成できる 解説 おわりに 参考文献 更新履歴 はじめに Twitterを眺めてい

                                                                          イラスト生成AIに対するよくある誤解 - Qiita
                                                                        • メンタルレキシコンとは?わかりやすく解説・心理学との関係 英語学習への効果とは? - ポリグロットライフ | 言語まなび∞ラボ

                                                                          はじめに 今回はメンタルレキシコンについてわかりやすく解説していきます。メンタルレキシコンとは、どのような意味や性質を持ち、学ぶ意義は何なのかを考えていきます。心理学との関係や英語学習及び語彙学習への効果についても考えていきます。メンタルレキシコンを正しく理解して、正しい効率的な語彙学習をぜひ取り入れてみてください。 ↓↓第二言語習得研究に基づく英語学習動画をアップしていきます。 www.youtube.com メンタルレキシコンとは? メンタルレキシコンの意味 メンタルレキシコンの性質 メンタルレキシコンを学ぶ意義 メンタルレキシコン内の語彙知識モデル 階層的ネットワークモデル 活性化拡散モデル 母国語のメンタルレキシコン 子供の語彙の増加 即時マッピング 第二言語学習への示唆 バイリンガルの語彙発達 バイリンガルの言語的特徴 バイリンガルレキシコン メンタルレキシコンと心理学 二重符号

                                                                            メンタルレキシコンとは?わかりやすく解説・心理学との関係 英語学習への効果とは? - ポリグロットライフ | 言語まなび∞ラボ
                                                                          • Preferred Networksを退職しました - iwiwiの日記

                                                                            2016年から約7年弱勤めたPreferred Networks (PFN)を退職しました。6/1より次の職場で仕事を開始します。次の職場については6月以降気が向いたときにTwitterかどこかに書きます。 PFNはどうだった? PFNでの日々は、一言で言うと最高でした。技術的にも立場的にも多岐にわたる経験をさせてもらいました。そして、何より、めちゃくちゃ楽しかったです。PFNで働けたことは幸運で、心から感謝しています。今後も他の人に相談されたら多くの人に勧めると思います。 PFNでの思い出を色々書きたいのはやまやまなのですが、とても長くなりそうなので、別の記事にしようと思います。 では、なぜ転職するのか? Generative AI Generative AI (LLM, 拡散モデル)の最近のブレイクスルーに大きな衝撃を受け、Generative AI分野の研究開発に、私にとって一番望ま

                                                                              Preferred Networksを退職しました - iwiwiの日記
                                                                            • 「SkebはツールとしてのAI利用を認めていない」 創業者が明言 規約には4年前から記載

                                                                              「Skebでは現在、ツールとしてのAIの利用を一律して認めていない」──イラスト発注サイト「Skeb」を運営するスケブ(東京都港区)の創業者のなるがみ(@nalgami)さんは10月5日、Twitter上にこんな投稿をした。画像生成AI「NovelAI Diffusion」(NovelAI)が話題になっていることを受け、AIについて自身の意見を述べている。 Skebは、クリエイターに有償でイラストなどを発注できるサービス。NovelAIなどの画像生成AIの登場を受け、Twitter上などでは「クリエイター自身がイラストを描かず、AIを利用して商品を納品する人が現れるのではないか」と指摘する声が上がっていた。 なるがみさんによると、Skebでは2018年のサービス開始初期から「イラストジャンルでの本人が直接描いていない作品」を禁止しているという。利用規約にもAIが生成したデータ(自動生成した

                                                                                「SkebはツールとしてのAI利用を認めていない」 創業者が明言 規約には4年前から記載
                                                                              • テキストからCADデータを自動生成する「Text-to-CAD」α版公開 Zoo

                                                                                テキストからCADデータを自動生成する「Text-to-CAD」α版公開 Zoo:CADプログラムにインポートして編集できる 米国スタートアップ企業のZooは2023年12月19日(米国時間)、テキストプロンプトからCADデータを自動生成する「Text-to-CAD」のα版を公開した。Zooは、テキストから3Dモデルを生成する既存のText-to-3Dモデルとの違いとして、点群データ(ポイントクラウド)を使用せず、B-Rep(※)を生成することを挙げている。 ※注:B-Rep(境界表現)は、頂点、エッジ、面で構成される表面を使用して3Dオブジェクトを簡潔に定義し、その外部形状の輪郭を描く。暗黙的モデリングとは異なり、B-Repはオブジェクトのジオメトリとトポロジーを正確に制御し、正確な寸法と公差が重要な製造プロセスに不可欠な正確かつ効率的な設計変更を容易にする。 既存のText-to-3D

                                                                                  テキストからCADデータを自動生成する「Text-to-CAD」α版公開 Zoo
                                                                                • 脳波から言葉を生成するAI「Brain-to-Text」 “声道”への指令を解読、言葉に変換

                                                                                  Innovative Tech: このコーナーでは、テクノロジーの最新研究を紹介するWebメディア「Seamless」を主宰する山下裕毅氏が執筆。新規性の高い科学論文を山下氏がピックアップし、解説する。 米University of California, San Franciscoなどによる研究チームが発表した論文「Neuroprosthesis for Decoding Speech in a Paralyzed Person with Anarthria」は、脳に電極を埋め込み、脳波から言葉を生成する深層学習を用いたシステムを提案した研究報告だ。発声した際に声道付近の筋肉に指令を送る脳神経から読み取り、脳波から言葉を生成する。 脳の電気的活動を記録し、ロボットアーム、ビデオゲーム、コンピュータ画面上のカーソルなど、外界の何かを制御する信号に変換する研究は数多く探求されてきた。 中でも

                                                                                    脳波から言葉を生成するAI「Brain-to-Text」 “声道”への指令を解読、言葉に変換