Suno対抗のAI作曲サービスとして前評判の高かったUdioがパブリックベータとして一般公開されました。
![AI作曲サービスの新星「Udio」が誰でも利用可能に。Sunoを超えたか、試してみた(CloseBox) | テクノエッジ TechnoEdge](https://cdn-ak-scissors.b.st-hatena.com/image/square/43068d12e24e2b8edc9c87f03accafbe1c99a665/height=288;version=1;width=512/https%3A%2F%2Fwww.techno-edge.net%2Fimgs%2Fogp_f%2F15451.jpg)
Suno対抗のAI作曲サービスとして前評判の高かったUdioがパブリックベータとして一般公開されました。
2014年から先端テクノロジーの研究を論文単位で記事にして紹介しているWebメディアのSeamless(シームレス)を運営し、執筆しています。 この1週間の気になる生成AI技術をピックアップして解説する「生成AIウィークリー」(第55回)では、1枚の完成したイラスト絵を入力に、そのイラストの制作過程のタイムラプス動画を生成する「PaintsUndo」や、画像とテキストをペアにした1コマを入力に、続きの物語を生成する「SEED-Story」などを取り上げます。 生成AI論文ピックアップ 1枚の画像から3Dキャラクターを1分で生成するモデル「CharacterGen」 音声と静止画の顔を入力に、話している動画を生成するAI「EchoMimic」 漫画の1コマを入力に、続きのコマを作り出す物語生成AI「SEED-Story」 3次元データを活用した新しい画像マッチング技術「MASt3R」 イラス
このところプログラミングの楽しみを覚えて毎日Claude ArtifactsとChatGPT Artifactsで遊んでいる筆者ですが、またまた新しいツールに出会ってしまいました。 それは、PoeのPreviewsという新機能。 Poeは、ChatGPT、Claude、Gemini、Mistralといった複数の最新LLM(大規模言語モデル)を呼び出して対話ができる総合窓口的AIエージェントサービスです。AIアグリゲーターという人もいます。似たようなサービスに、先ごろソフトバンクが利用者に1年間無料で提供し始めたPerplexityがありますね。 個別のLLMと契約をしなくても、Poeと月額契約(3000円から)を結ぶと、それぞれの最新モデルが使えるというメリットもあります。 そんなPoeが投入したPreviewsは、Claude 3.5 Sonnetで使えるようになったプログラミングコンパ
この問題を解決するにはどうしたら良いか? ChatGPTにもGeminiにも毎月お布施をしているし、彼らも同レベルの機能を持っているのだから、Claudeの休眠期間中はそっちを使えばいいのではないか。 そう考えていたところ、良い助け舟が。 ChatGPTにArtifacts機能を追加しますよ、というソフトの開発者からメンションが飛んできました。 このソフトはGitHubで公開されているので、普段使っているM1 iMacにインストールしてみました。git cloneしてNode.jsをインストールしてという、自分にとってはなかなかハードルの高いインストール方法でしたがなんとか動くようになりました。 使うにはOpenAIのAPI Keyが必要です。つまりChatGPT-Artifactsという名前ではありますが、実際はAPIで呼び出しているわけです。ChatGPTっぽいプロンプト操作でGPT-
現時点で一般に使える最高レベル動画生成AI、Luma AIの「Dream Machine」に新しい機能「Keyframes」が投入されました。プロンプトでの指定以外に、2枚の参照画像を入力し、それを始点と終点にできる、ある意味モーフィング的な機能です。 Dream Machineは高性能ではあるのですが、学習データが欧米に偏っているためか、日本人の画像を元にしても途中で欧米人に変身しがちという問題がありました。このため、欧米化する直前のところまでしか使えず、5秒間やそれをExtendした10秒といった長尺の動画は絵に描いた餅状態でした。 こうした「別人化」「欧米化」問題がこれで解消するか、実際に検証してみました。 ■2枚の銀塩写真から動画を作る同じときに撮影したこの2枚の写真をキーフレームの始点と終点にします。最初の画像を入力すると、End Frameの入力が可能になります。 (▲最初の画
現役グラビアカメラマンでありエンジニアでもある西川和久氏による生成AIグラビア連載の第27回は、前回に続いて最新の画像生成AIモデル Stable Diffusion 3 Medium について。 『生成AIグラビアをグラビアカメラマンが作るとどうなる?連載』記事一覧』 前回に引き続きStable Diffusion 3 Mediumの話連載第26回にSD3 Medium(以降SD3 Medium)の話を書いたが、今回はその続きとなる。 前回の記事ではSD3 Mediumの特徴として Baseモデルなのに高画質。そして日本人含むアジア系もOK 商用利用不可。個人レベルでの商用利用は、クリエイターライセンス($20/月)を契約 結構な頻度で致命的な問題が発生する Promptで左右など、位置関係が指示でき再現可能。文字もOK(英語のみ) 生成環境は現状でComfyUI(系)のみ。基本Work
Googleがオープンな言語モデル「Gemma 2」を開発者向けに公開しました。90億パラメータと270億パラメータの2サイズを提供しています。 さて、この1週間の気になる生成AI技術をピックアップして解説する「生成AIウィークリー」(第53回)では、生成する動画時間の延長や無音ビデオに適した音を生成するなど動画AIに関する内容が盛りだくさんです。 生成AI論文ピックアップ 既存のAIが生成する動画の時間を長くするモデル「ExVideo」、Stable Video Diffusion生成動画を5倍以上の長さに拡張 言語より視覚に重きを置く、オープンなマルチモーダル大規模言語モデル「Cambrian-1」はGPT-4VやGemini Proと同等レベル イベントカメラを使用するAIビデオ超解像技術「EvTexture」、特にテクスチャ領域で画質向上 長い動画を理解できるオープンソースなAIモ
ノンプログラマーな自分が、大規模言語モデル(LLM)の助力で、初めてまともに動くプログラムを完成させることができました。
SoraやKLINGレベルの「今使える高性能動画生成AIサービス」として登場したLuma AIの「Dream Machine」が機能追加のアップデートを果たしました。従来の5秒からのExtend(延長)が可能になりました。 過去にDream Machineで作った動画も含め、10秒以上のAI動画を生成できることになります。一方、動画生成AIでは老舗のRunwayも、高性能新世代モデル「Gen-3 Alpha」の投入を予告するなど、これから激しい競争になることが予想されます。 筆者はStandardプラン(月120回)を使い切ったので、Proプランに切り替えました。Standardプラン以上では、商用利用とウォーターマークの消去も可能です。無料プランは現在、1日生成回数が5回までに制限されています。 (▲Luma Dream Machineの月額プラン)
API形式の利用だと、コストがかさむのはもちろん、Promptや生成した画像を調べ肌色過多の場合は表示できないという、グラビアを扱う筆者にとって致命的な問題がある(笑)。 SD3 Mediumがリリースされたことで、ようやくSD 1.5やSDXL同様、普通にローカルPCで生成可能になった!ただし、商用利用不可。個人レベルでの商用利用は、クリエイターライセンス($20/月)を契約しなければならない。 なお普通に肌の露出が多い程度はOKだが、いわゆるNSFWな肌色過多は出せない様、意図的にコントロールされている。またこの影響で、ある意味致命的な問題も発生する。この辺りの話は次回にしたいと思う。 SD3 MediumのMediumとは、2B(20億)パラメータでの構成という意味となる。対してAPI版はLargeと呼ばれ8B(80億)パラメータで構成されている。従って、全く同じ設定でも、解釈の度合
このサービスの有償プランに申し込んで使って、少しプロンプトのコツが掴めたので、お伝えしたいと思います。 ただ、自分が使った目的は映画などの映像制作ではなく、あくまでも静止画、それも人物を動かすことなのでご注意を。より具体的には、11年前に他界した妻の動く姿を見ることです。 ■フィルムカメラの写真を動かすまずやってみたのは、実際に撮った写真をDream Machineで動かすことです。 使った写真は、1978年から1987年にかけてフィルムカメラで撮影したもの。子供が生まれてビデオカメラ(ビデオ8mm)を買ったのが1987年なので、それまでは動いている映像がほとんどなかったのです。 例外として、学園祭の劇で主役を演じたものと、特捜最前線でエキストラをやったときのものは残っていますが。 多くの人にとって、1980年代以前の、動きのある映像は残っていないと思います(8mmフィルム愛好家がいる家庭
ガジェット全般、サイエンス、宇宙、音楽、モータースポーツetc... 電気・ネットワーク技術者。実績媒体Engadget日本版, Autoblog日本版, Forbes JAPAN他 LEGOがファンからの新製品のアイデアを募集するデザイン提案サイト「LEGO IDEAS」に『アップルストア』が登場しました。ユーザーからの得票数が1万票を超えると、レゴ社が製品化を審査・検討します。 LEGO IDEASとは、LEGOのファンが独自に考えたデザインアイデアを提案し、他のファンたちからの投票によって製品化を検討するサービス。 もともとは日本の「CUUSOO」と呼ばれるサービスとLEGOのコラボレーションによって始まった日本限定の企画で、過去には潜水調査船の「しんかい6500」や探査機の「はやぶさ」も商品化していました。 2014年にLEGO IDEASに名称を変更、現在は世界中のファンから製品
2014年から先端テクノロジーの研究を論文単位で記事にして紹介しているWebメディアのSeamless(シームレス)を運営し、執筆しています。 1週間分の生成AI関連論文の中から重要なものをピックアップし、解説をする連載です。第48回目は、生成AI最新論文の概要5つを紹介します。 生成AI論文ピックアップ “文学作品”を翻訳する、実際の出版社を真似たAI会社「TransAgents」 任意のアスペクト比と高解像度の画像を効率的に認識できる大規模マルチモーダルモデル「LLaVA-UHD」 GPT-4は投資先選びに活用できるのか? 企業の財務諸表を分析し将来の利益を予測 「Claude 3.0 Sonnet」が内部でどう考えているかをAnthropicが公開 LoRAより効率的な高いランクでファインチューニングする新しい手法「MoRA」 “文学作品”を翻訳する、実際の出版社を真似たAI会社「T
このところUdioやSonautoの新機能搭載で押され気味だったAI作曲サービスの「Suno」が反撃に出ました。 バージョン3.5のEarly Access版(有料プランユーザーのみに提供)を利用すると、これまでの2分間制限が最長4分まで拡大。延長時間も従来の1分を2分に伸ばしています。これだけの長さがあれば大抵のポピュラー曲はエンディングまでいけます。 4分の曲をUdioで生成しようとすると、8回の命令が必要になります。さらに、生成に要する時間はUdioの方がはるかに長くかかるので、全体としての作業時間には大きな差が生じます。それがSuno 3.5ならば数秒でできてしまうのです。 また、Style of Musicのキーワードがサジェストされるようになっていて便利です。文字数制限は相変わらずきついですけど。 さらにうれしいのは、日本語歌詞の読み方が、従来は間違いが多かったのが、ほぼ問題な
Recallは、かつてWindows 10に搭載されていた『タイムライン』の拡張版といった機能。アクティブな画面のスナップショットを数秒ごとに常時取得し、スライダーで遡ったり、Copilotを通じて内容を検索できる機能です。 記録したスナップショットはCopilot によるAI検索が可能。たとえば数日前にWEBで検索して見たページが思い出せないような場合、覚えている要素、たとえば「赤い車」や「白いスニーカー」などと検索すると、撮影されたスナップショットの中から該当するものを見つけてくれます。 単に過去の画像を表示するだけではなく、その時に使用していたアプリを開くこともできるようになるとのことです。 (▲画像:Recall機能のデモ。スライダーで過去に遡って画面を見られる) スナップショットはPCのローカルストレージ内に保存し、デバイス上の暗号化とBitLockerで保護します。特定のユーザ
2014年から先端テクノロジーの研究を論文単位で記事にして紹介しているWebメディアのSeamless(シームレス)を運営し、執筆しています。 1週間分の生成AI関連論文の中から重要なものをピックアップし、解説をする連載です。第46回目は、生成AI最新論文の概要5つを紹介します。 生成AI論文ピックアップ LSTMの進化形「xLSTM」登場。Transformerと同等かそれ以上の性能 Google、タンパク質を予測するモデル「AlphaFold 3」発表 Googleが“未来予知”する時系列予測AI基盤モデル「TimeFM」を開発。金融や気象、交通などの一歩先を予測 Llama3 70Bと同等の性能を示す、オープンソース大規模言語モデル「DeepSeek-V2」 IBM、コーディング専用AIモデル「Granite Code Models」を開発 LSTMの進化形「xLSTM」登場。Tra
2014年から先端テクノロジーの研究を論文単位で記事にして紹介しているWebメディアのSeamless(シームレス)を運営し、執筆しています。 1週間分の生成AI関連論文の中から重要なものをピックアップし、解説をする連載です。第45回目は、生成AI最新論文の概要5つを紹介します。 生成AI論文ピックアップ 高精度なニューラルネットワーク・アーキテクチャ「KAN」をMITなどの研究者らが開発 1手先のトークン予測ではなく、4手先のトークンを同時に予測するモデルをMetaなどが開発 医療分野に特化したマルチモーダル大規模言語モデル「Med-Gemini」をGoogleが開発 大規模言語モデルが答えに相当するベンチマークを事前に学習し、高い評価を出していた? AIカンニング問題を指摘した研究 一貫性の高い長編ビデオをテキストから生成するAIモデル「StoryDiffusion」 高精度なニューラ
2014年から先端テクノロジーの研究を論文単位で記事にして紹介しているWebメディアのSeamless(シームレス)を運営し、執筆しています。 1週間分の生成AI関連論文の中から重要なものをピックアップし、解説をする連載です。第44回目は、生成AI最新論文の概要5つを紹介します。 生成AI論文ピックアップ マイクロソフトがスマホ上でローカル実行可能な小規模言語モデル「Phi-3」を発表 アップル、iPhone上でも動作可能な大規模言語モデル「OpenELM」をオープンソースで発表 OpenAI、大規模言語モデルへの攻撃を防ぐ手法「The Instruction Hierarchy」を発表 あらゆる音声を複製し、多言語でさまざまな内容を話させるAIモデル「OpenVoice V2」。日本語対応、無料で商用利用可能なオープンソース Web上の大量画像とテキストを使って、高速かつ高精度に画像認識
慶應義塾大学卒業後、新卒で出版社の宝島社に入社。独立後はケータイジャーナリスト/ライターとして幅広い媒体で執筆、コメントなどを行う。ケータイ業界が主な取材テーマ。 KDDIが povo 2.0の新たなトッピングを導入しました。1つ目が「データ使い放題(7日間)12回分」。もう1つが「300GB(90日間)」というトッピングです。 通常、この手のトッピングは期間限定としてイベントや大型連休などに合わせて提供されることが多い印象で、今回の2つのトッピングも一応は、期間が区切られるもののようです。 ただし、どちらも終了時期は未定となっており、かなり通常トッピングに近い位置づけと言えそうです。 povo2.0に、“楽天モバイル対抗”と呼べそうな2つのトッピングが登場した 2つのトッピングの金額を見ていくと、“楽天モバイル対抗”の色合いが非常に濃いことが分かります。 まず、データ使い放題ですが、こち
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く