今回は、過去作った記事などのヘッダー画像+αから松尾氏に動画を作っていただくという、コラボ企画。元画像はSD 1.5、SDXL、SD3 Medium、そしてFLUX.1 [dev] が入り乱れての動画となる。
AI作曲サービスのトップを競い合っている、大手レコード会社に訴訟され仲間であるSunoとUdioが相次いで機能強化を発表しました。 まず、Sunoに、ステム分離機能が追加されました。 ステム分離とは、楽器のパートごとにトラックを分ける機能。UVR5などの単独アプリや、Logic ProなどのDAWに組み込まれている例もあります。AI作曲サービスでもSonautoは早くから実装していました。 無料ソフトのUVR5では、ボーカル、ドラム、ベース、その他の4種類に分離でき、Logic ProのStem Splitterも同様。Sonautoも同じです。 ■Sunoのステム分離機能はボーカルとそれ以外Sunoのステム分離はそれに比べると単純で、ボーカルとその他を分けるだけ。つまり、ボーカルキャンセルと同じことなのですが、それなりに使い道はあります。 例えば、AIで作った曲のボーカルを自分や他の誰か
このところUdioやSonautoの新機能搭載で押され気味だったAI作曲サービスの「Suno」が反撃に出ました。 バージョン3.5のEarly Access版(有料プランユーザーのみに提供)を利用すると、これまでの2分間制限が最長4分まで拡大。延長時間も従来の1分を2分に伸ばしています。これだけの長さがあれば大抵のポピュラー曲はエンディングまでいけます。 4分の曲をUdioで生成しようとすると、8回の命令が必要になります。さらに、生成に要する時間はUdioの方がはるかに長くかかるので、全体としての作業時間には大きな差が生じます。それがSuno 3.5ならば数秒でできてしまうのです。 また、Style of Musicのキーワードがサジェストされるようになっていて便利です。文字数制限は相変わらずきついですけど。 さらにうれしいのは、日本語歌詞の読み方が、従来は間違いが多かったのが、ほぼ問題な
米国のAIスタートアップSunoは、自社のAI作曲サービスである「Suno」をV3にバージョンアップしました。3月20日より、3からのカウントダウンをスタートしていましたが、日本時間の22日2時に、正式公開されました。 V3では、1回で作成できる曲の長さを従来バージョンであるV2の1分20秒をV3では2分までに伸ばし、インストゥルメンタル曲の指定、高音質化、多ジャンルへの対応など、多くの機能強化を行なっています。 これまではProおよびPremierの有償ユーザーのみがアルファ版を使えていましたが、正式版になったことで、無料ユーザーも1日10回、1回で2曲が同時に生成されるので、1日当たり最大20曲まで利用できることになります。 無料ユーザーアカウントで試してみましたが、V3がデフォルトとなっている他に、V3 Alpha版との大きな違いはありません(V2も選択できるようになっています)。
ガジェット全般、サイエンス、宇宙、音楽、モータースポーツetc... 電気・ネットワーク技術者。実績媒体Engadget日本版, Autoblog日本版, Forbes JAPAN他 エクストリームスポーツを効果的にマーケティングに取り込んできたエナジードリンクのレッドブルが新たに公開したのは、レッドブル・レーシングのF1マシンを世界最速のカメラ搭載ドローンでぴったり追跡する空撮映像です。 F1世界選手権の2024年シーズンは今週末に開幕します。昨シーズンはレッドブル・レーシングF1チームのマックス・フェルスタッペン選手が圧倒的な強さを見せつけて世界チャンピオンの座を防衛し、先頃行われたシーズン前の合同テストでも、圧倒的な安定感とスピードを誇示していました。 そんな自動車レースの頂点に立つレッドブルのF1マシンと世界チャンピオンを追いかけ回すドローンパイロットとして選ばれたのは、Dutch
では、一人の音楽素人がAIの力を借りたら、どの程度までコンセプトアルバムが作れるか、試してみました。思いついたのは、今日(2月27日)の11時30分ごろ。まず、ChatGPTにこう指令することから始めました。 ロックのコンセプトアルバムを作りたいので、12曲のタイトルと歌詞、そしてその曲調をそれぞれ英語で記述して そうすると、ChatGPTは12曲の概要を作ってくれました。 1. "Echoes of Eternity"曲調: エピックなインストゥルメンタルイントロ。壮大なストリングスとパワフルなドラムス。 歌詞の一部: (インストゥルメンタル) 2. "Shadows in the Moonlight"曲調: ミステリアスなヴァースとクライマックスへ向けて構築されるコーラス。 歌詞の一部: "In the silver glow, secrets come to dance, / Sha
人気連載『生成AIウィークリー』で取り上げている注目論文を見ると、そこに中国IT企業の名前が頻繁に登場します。 EC大手のアリババ(Alibaba)、ゲーム大手のテンセント(Tencent)、TikTokの運営元であるBytedanceなどが常に顔を出しており、画像・音声・アニメーションと、生成AIのあらゆる分野で中国に勢いがあることがわかります。 そんな中、テンセントがなかなか衝撃的な技術を発表しました。「PhotoMaker」という画像生成AIです。これでなければできない、というものではないのですが、「ファインチューニングの事前作成不要」「元画像が少なくても良い」のに、人物のアイデンティティを維持した画像を生成できるというメリットがあります。 これまでは既存の画像AIモデルに多数の写真を読み込ませて本人性を学習させたものから新たなAIモデルやその簡易版であるLoRAモデルを作ってきまし
2014年から先端テクノロジーの研究を論文単位で記事にして紹介しているWebメディアのSeamless(シームレス)を運営し、執筆しています。 1週間分の生成AI関連論文の中から重要なものをピックアップし、解説をする連載です。2024年初っ端の第27回目は、「礼儀は不要」「モデルに質問させる」「良い解答には報酬」など、大規模言語モデルの返答が向上する「プロンプト26の原則」をはじめとする5つの論文をお届けします。 生成AI論文ピックアップ複数の自律AIエージェントが過去の経験を共有して未知のタスクを処理するモデル「Experiential Co-Learning」 画像から動く3Dシーンを生成する新モデル「DreamGaussian4D」 大規模言語モデルの返答が向上する「プロンプト26の原則」が公開。「礼儀は不要」「モデルに質問させる」「良い解答には報酬」など 220以上の生成タスクが実
アドビ(Adobe)の共同創設者であるジョン・ウォーノック(John Warnock)氏が8月19日、82歳で亡くなりました(Adobeによるプレスリリース)。 ▲ジョン・ウォーノック氏(2022年撮影) Xerox PARC在籍時にアウトラインフォントを使った電子出版を考案したウォーノック氏は故チャールズ・ゲシキ氏(2021年死去)とともにAdobe Systemsを創設。ベジエ曲線によるアウトラインフォントと図形を用いたプログラムとしてページを表現し、どのような解像度でも美しい出力ができるページ記述言語PostScriptを考案。Adobe創設時に故スティーブ・ジョブズ氏が出資したことで、LaserWriterにPostScriptが組み込まれ、のちに生まれた組版ソフトPageMaker(Adobeが買収)とともに、MacintoshとPostScriptを中核としたDTP(Desk
現役グラビアカメラマンでありソフトウェアエンジニアでもある西川和久氏が、画像生成AIを使ったリアルなAIグラビア作成技術を解説する連載の第三回。 今回はポーズ / 構図をテーマに、プロカメラマンとしての撮影スタイルとAI生成の共通点、現時点のAIでは難しい手指の表現を改善する技術についても説明します。(編集部) 実際の撮影と「呪文」の関係は似ている?グラビアでもポートレートでも、撮影する時は「立って」「座って」「前向き」「後ろ向き」……といったようにカメラマン側から指示を出す。 この大雑把な指示はどのカメラマンでもすることだが、顔の向きだったり腕の形だったり足の位置といった細かいことは、「指示する」カメラマンと「指示しない」カメラマンとで分かれる。これは撮影スタイルの話なので、どちらが良い悪いではない。 筆者の場合は割と大雑把で、細かい指示はせず、後の事はそのモデルに任せる=個性だと思って
百聞は一見に如かず。これってAI生成グラビア?AI画像生成に興味を持ったのは去年の年末頃だろうか。Twitterを眺めていると「どうやって撮った(作った)んだ?」と言う画像がたまに載っていたので調べると、Stable Diffusion Web UI (AUTOMATIC1111版)だった。 元々グラビアを撮っていたこともあり、あまり撮らなくなってもグラビア好きなのには違いなく、試したくなったのは言うまでもない。 AI生成画像は大きく分けて2種類あり、一つはイラスト系、もう一つはリアル系。筆者が興味を持ったのは後者。どこまで実写に迫れるのかがその興味の対象だ。百聞は一見に如かず。扉の写真はAI生成画像。現時点でこの程度の写りは容易にこなす。 とは言え、実際の撮影もそうなのだが、グラビア写真は数百枚撮ってカメラマンがある程度セレクトし納品したものが、納品先で更に絞られ、出版社などで更に絞り込
Stability AIは、同社が提供している画像生成AI「Stable Diffusion」を大幅に強化した「Stable Diffusion XL」(SDXL)をオープンソース公開する計画であることを明らかにしました。 学習データを従来の9億パラメータから、23億パラメータへと大幅に強化。これが次期バージョン3に組み込まれるとしています。現在パートナーに対するベータ版提供を行っていますが、パートナーでなくても、DreamStudioユーザーであれば利用できます。 DreamStudioは、Stability AIが提供するAI画像生成サービス。これまで、Stable Diffusionのバージョン1.5、2.1、そして2.1で768×768ピクセルの高解像度描画ができるモデルを利用できていましたが、これにSDXL Beta Previewが加わりました。 ▲DreamStudioならS
株式会社ポケモンが、スマートフォンアプリ Pokémon Sleep (ポケモン スリープ)を2023年夏に配信することを発表しました。 ポケモン スリープは「朝、起きることが楽しくなるゲーム」。2019年に初発表された際は2020年予定でしたが、ついに配信を迎えることになります。 基本的な遊び方は毎晩眠るだけ。「いねむりポケモンのカビゴンでポケモンの睡眠を研究するネロリ博士をプレーヤーが手伝う」設定になっており、睡眠データによってさまざまな眠りのパターンに応じたポケモンが現れたり、「寝相」を収集できます。 朝起きたときに確認できる新たなポケモンや寝顔に期待して睡眠データを計測・記録・分析する習慣がつけば、健やかな睡眠につながるかもしれない的なアプリです(「効能」的な言い方を避けて迂遠な表現になることをお許しください)。 ポケモンの寝顔収集を通じて睡眠データの計測・記録・分析の習慣につなが
マイクロソフトが独自デザインの絵文字『Fluent emoji』1538種のデータをオープンソースで公開しました。 Microsoft 365のリアクション等でも使われるマイクロソフト版の最新デザイン絵文字 Fluent emoji 1538種について、3D表現のPNGファイルやベクタのSVG版、フラット版やハイコントラスト版など一式を含み、Github や Figma で誰でも自由に利用したり入手できます。 制限の少ないMITライセンスのため、自由に改変や配布、商用利用も可能(著作権表示と許諾表示は必要。MITライセンスを参照)。 現在の絵文字に欠けた新しい絵文字の素材にすることも、顔や動物や食べ物のアレンジ版を作ることも、自分のアプリや作品に導入することもできます。 Fluent Emoji は、マイクロソフトが2021年に全面刷新したスタイルの絵文字。モバイル機器やチャットアプリ、リ
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く