unfiniのブックマーク - はてなブックマーク

わずか10秒の元音声でもリアルな「なりきりボイチェン」できる無料ソフト『Seed-VC』は過去最高レベルの再現度か（CloseBox） | テクノエッジ TechnoEdge

筆者はUTAUによる波形接続の時代から「その人の声になりきる」技術を試してきましたが、このほど、その中でも画期的と思える技術に出会いました。『Seed-VC』（Seed Voice Conversion）というオープンソースソフトです。 ■AIボイチェンの進化どこが画期的なポイントかというと、高い音質を維持しながら、ゼロショット、つまりファインチューニングをせずに、1秒から30秒までの短い音源を参照するだけで、短時間でオリジナルに近いボイチェンができるところにあります。以前紹介したDiff-SVCやRVCは、オリジナル音声に近いボイチェンが可能ですが、学習にはそれなりの長さのオーディオデータと高性能GPUによる処理が必要です。

unfini 2024/10/17

リンク

Suno AIで80年代J-POP偽コンピを作ってみたけど、歌詞間違いのボツがつらい……いや、簡単に部分修正できるようになってるじゃないか（CloseBox） | テクノエッジ TechnoEdge

AIを使うと好みの楽曲を作ることができますが、細部を詰めようとすると難しい。今回はそんなお話です。 ■架空の1980年代J-POP動画が大人気「AIが奏でる80s Style Jpop / AI plays 80s」というYouTube動画が大きな話題を呼んでいます。冒頭、「悲しみはロンリネス」という80年代っぽい歌詞で始まる「めぐる」がいきなりの名曲。しかし、実際には存在しないAI生成による楽曲です。投稿者はPlay Musicaさん。Suno AIで制作しているそうです。コメントを見ると、好みの楽曲に行き着くにはガチャ、つまり何度もトライするのは必須な模様。筆者はこれまで、架空のプログレコンセプトアルバム、ラップ、歌謡曲など、それっぽい作品をAIで作ってきました。

unfini 2024/10/10

リンク

AI動画生成もローカルマシンで動かす時代に。Image to Video含め生成し放題のCogVideoを一発インストールできるPinokioという選択肢（CloseBox） | テクノエッジ TechnoEdge

話題のオープンソース動画生成AI「CogVideo」をローカルマシンに超簡単インストールできたのです。

unfini 2024/09/22

AI
Video

リンク

動画と音声ガッチャンコでなんでもAI口パク「sync.」。リップシンクはVideo to Videoの時代に突入した（CloseBox） | テクノエッジ TechnoEdge

AIリップシンクにまた大きな波が訪れました。

unfini 2024/08/13

リンク

万能系Artifacts登場。「Poe Previews」ならGeminiもGPT-4もClaudeもAI共同開発者にできる（CloseBox） | テクノエッジ TechnoEdge

このところプログラミングの楽しみを覚えて毎日Claude ArtifactsとChatGPT Artifactsで遊んでいる筆者ですが、またまた新しいツールに出会ってしまいました。それは、PoeのPreviewsという新機能。 Poeは、ChatGPT、Claude、Gemini、Mistralといった複数の最新LLM（大規模言語モデル）を呼び出して対話ができる総合窓口的AIエージェントサービスです。AIアグリゲーターという人もいます。似たようなサービスに、先ごろソフトバンクが利用者に1年間無料で提供し始めたPerplexityがありますね。個別のLLMと契約をしなくても、Poeと月額契約（3000円から）を結ぶと、それぞれの最新モデルが使えるというメリットもあります。そんなPoeが投入したPreviewsは、Claude 3.5 Sonnetで使えるようになったプログラミングコンパ

unfini 2024/07/10

リンク

生成AIグラビアをグラビアカメラマンが作るとどうなる？第27回：SD3 Mediumリリース！Part2(西川和久) | テクノエッジ TechnoEdge

現役グラビアカメラマンでありエンジニアでもある西川和久氏による生成AIグラビア連載の第27回は、前回に続いて最新の画像生成AIモデル Stable Diffusion 3 Medium について。『生成AIグラビアをグラビアカメラマンが作るとどうなる？連載』記事一覧』前回に引き続きStable Diffusion 3 Mediumの話連載第26回にSD3 Medium(以降SD3 Medium)の話を書いたが、今回はその続きとなる。前回の記事ではSD3 Mediumの特徴として Baseモデルなのに高画質。そして日本人含むアジア系もOK 商用利用不可。個人レベルでの商用利用は、クリエイターライセンス($20/月)を契約結構な頻度で致命的な問題が発生する Promptで左右など、位置関係が指示でき再現可能。文字もOK(英語のみ) 生成環境は現状でComfyUI(系)のみ。基本Work

unfini 2024/07/02

リンク

ドラムマシン、シンセ、サンプラーがわずか数分で完成。非プログラマーなのにClaude + Artifactsのプロンプト開発が楽しすぎて限度超える（CloseBox） | テクノエッジ TechnoEdge

unfini 2024/07/01

リンク

弾き語りもDTMも簡単にプレイできる手のひらサイズ音楽ガジェット「かんぷれ」、クラファン開始。なぜバリアフリー対応になったのか、その意義を考える（CloseBox） | テクノエッジ TechnoEdge

ギターのような形状ながら全く新しい楽器「インスタコード」（InstaChord）を成功させたInstaChord代表取締役ゆーいちさんが、手のひらサイズの新しいガジェット楽器「かんぷれ -KANTAN Play core-」を発表しました。（▲画像：かんぷれ -KANTAN Play core-）スイッチサイエンス、M5Stack Techno logyなど日本と中国をまたぐ開発体制を活用したこの製品は、6月8日午前10時からKibidangoでクラウドファンディングがスタートしました（かんぷれプロジェクトページ）。この新しい楽器には3つの側面があります。まず、使いやすい楽器であるということ。次に、DTMなど音楽スキルを持っている人にとって非常に有用なツールであるということ。最後の一つが、通常の楽器を弾くことが困難な人が演奏を楽しめるバリアフリーな楽器であるということです。筆者はイン

unfini 2024/06/09

リンク

AI作曲で再びパンドラの箱が開く。Sonautoで既存曲のメロディーと音楽スタイルを参照して別曲が作れるようになって替え歌思うがまま（CloseBox） | テクノエッジ TechnoEdge

曲をアップロードして、そのリズムスタイルだけを参照するといったことはこれまでのSonautoでも可能だったのですが、今回、楽曲全体を参照する「Full Song Control」機能を追加。これにより、メロディーライン、コード進行、伴奏などをオリジナルから逸脱しないレベルで使い回し、さらに、プロンプトで音楽スタイルを追加したり、歌詞を全く新しいものに置き換えたりといったことが可能になりました。 Sunoですでに作ってあった曲をSonautoで参照して作ってみました。作曲画面の最下部にあるアップロードフィールドから、この曲を参照元としてアップロードします。Full Song ControlにするかRhythm Controlにするか聞かれるので前者を選択。 ▲Full Song Controlを選択次にプロンプトと歌詞を選びます。Advanced Modeにしなければ、自動的に作詞されま

unfini 2024/04/25

リンク

自律型AIソフトウェアエンジニア「Devin」発表。課題から情報収集して環境構築・ビルド・デプロイまで | テクノエッジ TechnoEdge

ITジャーナリスト／Publickeyブロガー。IT系の雑誌編集者、オンラインメディア発行人を経て独立。2009年にPublickeyを開始しました。 AIスタートアップのCognitionは、自律型のAIソフトウェアエンジニア「Devin」を発表しました。 Devinは人間が課題を与えると、自律的に情報を参照し、コーディングやデバッグ、デプロイを行い、システム構築を実現するAIソフトウェアエンジニアだと説明されています。 Cognition AI CEOのScott Wu氏以下はデモ動画からのキャプチャです。 Devinは人間のソフトウェアエンジニアと同様に、自身のコンソール画面（右上）、コードエディタ（右下）、Webブラウザ（左下）を持っています（左上は人間とチャットでやり取りする領域）。人間がプロンプトで何らかの課題を与えると、まず課題解決のためのプランを生成します。今回、Dev

unfini 2024/03/16

リンク

レッドブルが「世界最速」FPVドローンRBD1開発、パイロットみずから設計。時速300km超のF1マシンにぴたりと追尾する映像公開 | テクノエッジ TechnoEdge

ガジェット全般、サイエンス、宇宙、音楽、モータースポーツetc... 電気・ネットワーク技術者。実績媒体Engadget日本版, Autoblog日本版, Forbes JAPAN他エクストリームスポーツを効果的にマーケティングに取り込んできたエナジードリンクのレッドブルが新たに公開したのは、レッドブル・レーシングのF1マシンを世界最速のカメラ搭載ドローンでぴったり追跡する空撮映像です。 F1世界選手権の2024年シーズンは今週末に開幕します。昨シーズンはレッドブル・レーシングF1チームのマックス・フェルスタッペン選手が圧倒的な強さを見せつけて世界チャンピオンの座を防衛し、先頃行われたシーズン前の合同テストでも、圧倒的な安定感とスピードを誇示していました。そんな自動車レースの頂点に立つレッドブルのF1マシンと世界チャンピオンを追いかけ回すドローンパイロットとして選ばれたのは、Dutch

unfini 2024/02/29

リンク

音楽の作り方が決定的に変わる。架空のロックバンドのコンセプトアルバムを丸ごとAIで作れてしまいました（CloseBox） | テクノエッジ TechnoEdge

では、一人の音楽素人がAIの力を借りたら、どの程度までコンセプトアルバムが作れるか、試してみました。思いついたのは、今日（2月27日）の11時30分ごろ。まず、ChatGPTにこう指令することから始めました。ロックのコンセプトアルバムを作りたいので、12曲のタイトルと歌詞、そしてその曲調をそれぞれ英語で記述してそうすると、ChatGPTは12曲の概要を作ってくれました。 1. "Echoes of Eternity"曲調: エピックなインストゥルメンタルイントロ。壮大なストリングスとパワフルなドラムス。歌詞の一部: （インストゥルメンタル） 2. "Shadows in the Moonlight"曲調: ミステリアスなヴァースとクライマックスへ向けて構築されるコーラス。歌詞の一部: "In the silver glow, secrets come to dance, / Sha

unfini 2024/02/28

リンク

最低1枚の元写真があれば、高品質本人画像をすぐに生成できる「PhotoMaker」を試したらお手軽すぎた（CloseBox） | テクノエッジ TechnoEdge

人気連載『生成AIウィークリー』で取り上げている注目論文を見ると、そこに中国 IT企業の名前が頻繁に登場します。 EC大手のアリババ（Alibaba）、ゲーム大手のテンセント（Tencent）、TikTokの運営元であるBytedanceなどが常に顔を出しており、画像・音声・アニメーションと、生成AIのあらゆる分野で中国に勢いがあることがわかります。そんな中、テンセントがなかなか衝撃的な技術を発表しました。「PhotoMaker」という画像生成AIです。これでなければできない、というものではないのですが、「ファインチューニングの事前作成不要」「元画像が少なくても良い」のに、人物のアイデンティティを維持した画像を生成できるというメリットがあります。これまでは既存の画像AIモデルに多数の写真を読み込ませて本人性を学習させたものから新たなAIモデルやその簡易版であるLoRAモデルを作ってきまし

unfini 2024/01/18

リンク

GPT-4の回答を向上させる「プロンプト26の原則」、220以上の生成タスクが実行可能なマルチモーダルモデル「Unified-IO 2」など重要論文5本を解説（生成AIウィークリー） | テクノエッジ TechnoEdge

2014年から先端テクノロジーの研究を論文単位で記事にして紹介しているWebメディアのSeamless（シームレス）を運営し、執筆しています。 1週間分の生成AI関連論文の中から重要なものをピックアップし、解説をする連載です。2024年初っ端の第27回目は、「礼儀は不要」「モデルに質問させる」「良い解答には報酬」など、大規模言語モデルの返答が向上する「プロンプト26の原則」をはじめとする5つの論文をお届けします。生成AI論文ピックアップ複数の自律AIエージェントが過去の経験を共有して未知のタスクを処理するモデル「Experiential Co-Learning」画像から動く3Dシーンを生成する新モデル「DreamGaussian4D」大規模言語モデルの返答が向上する「プロンプト26の原則」が公開。「礼儀は不要」「モデルに質問させる」「良い解答には報酬」など 220以上の生成タスクが実

unfini 2024/01/02

リンク

AIで作曲して演奏・歌唱してくれる「Suno」、MIDIで吐いてくれPleaseとお嘆きの方に。無料のもあるよ（CloseBox） | テクノエッジ TechnoEdge

歌詞を与えれば作曲・演奏・歌唱と残りの全てをやってくれるAI作曲完パケサービス「Suno」。音楽制作界隈では「MIDIで吐いてくれ」との声が多く上がっています。いい感じの音楽が出るまでガチャを引けばいいのですが、Sunoを効率化のために使いたい、アイデア出しのために利用したいんだけど、出力された音楽をいちいち手弾きで入力するのもだるい、という話です。今回はこの解決策をご紹介しようと思います。詳しい人ならご承知のことと思いますが、改めて。以前のコラムで紹介したように、例えばLogic ProのFlexPitchのようなピッチエディターを使えば、単音のオーディオファイルからMIDIデータを取り出すことは可能です。実際、筆者はUVR5という音源分離ツールを使って取り出したBassトラックをFlexPitchによってピアノロール表示し、それを改めてMIDIデータとして打ち込むというのをやっ

unfini 2023/12/19

リンク

米ゲーム歴史保存団体VGHF、所蔵資料をネットで無料公開へ。ゲーム雑誌7000冊以上、開発資料も | テクノエッジ TechnoEdge

著書に『宇宙世紀の政治経済学』（宝島社）、『ガンダムと日本人』（文春新書）、『教養としてのゲーム史』（ちくま新書）、『PS3はなぜ失敗したのか』（晋遊舎）、共著に『超クソゲー2』『超アーケード』『超ファミコン』『PCエンジン大全』（以上、太田出版）、『ゲーム制作現場の新戦略　企画と運営のノウハウ』(MdN)など。米Video Game History Foundation（VGHF）は、ゲーム雑誌やアートブック、CDやソースコードに至るまで、ゲーム関連の資料を全世界からブラウザで閲覧できるデジタルライブラリのあらましを初公開しました。あくまで「どのようなユーザーインターフェースか」「どんな資料を検索できるか」を紹介している段階です。過去2年間にわたって構築されてきたライブラリは、2024年内に公開される予定です。 VGHFは、ビデオゲーム歴史関連の資料をアーカイブ化して保存する非営利

unfini 2023/12/17

リンク

10倍高速に3Dモデル生成可能な「DreamGaussian」、ネット記事量産できる生成AI「InternLM-XComposer」など重要論文5本を解説（生成AIウィークリー） | テクノエッジ TechnoEdge

2014年から先端テクノロジーの研究を論文単位で記事にして紹介しているWebメディアのSeamless（シームレス）を運営し、執筆しています。 1週間分の生成AI関連論文の中から重要なものをピックアップし、解説をする連載です。第14回目は、3Dモデル生成のための高速化手法、画像を含むネット記事を量産できる生成AIなど、5つの論文をまとめました。生成AI論文ピックアップ画像1枚から高速で3Dモデルを生成「DreamGaussian」　バイドゥ含む研究者らが開発 OpenAI「CLIP」を真似て超えた、文章と画像を理解するオープンな手法「MetaCLIP」　Meta含む研究者らが開発ネット記事を量産する生成AI「InternLM-XComposer」　一文入力だけで画像とテキストが混じった記事を自動生成テキストから動画を効率よく高品質に生成する新モデル「Show-1」　シンガポールの研究

unfini 2023/10/03

リンク

3秒の音声があれば本人そっくりの声で日本語・英語・中国語合成できる「VALL-E X」はやはり脅威。MSが非公開にした技術のOSS版を試して実感した（CloseBox） | テクノエッジ TechnoEdge

わずか3秒の元音声から本人そっくりな音声合成が可能な技術「VALL-E X」が誰でも使える形で公開されました。オープンソース版で、ローカルマシンからWebUIで利用できます。さっそくインストールして使ってみました。以前、ディープラーニングベースの音声・歌声合成ソフトであるDiff-SVC、リアルタイム処理が可能なAIボイチェンRVCを紹介したとき、自分は記事タイトルに「驚異の」という形容詞を付けました。それでも学習には数十分の本人による音声データが必要で、そこまでのデータを用意するのは容易ではありません。それに対してVALL-E Xでは元データが3秒あれば本人に似た声を生成できるのです。

unfini 2023/08/29

リンク

生成AIグラビアをグラビアカメラマンが作るとどうなる？第五回：Stable Diffusionの基本1 / Checkpointとリアル系モデルの遷移 (西川和久) | テクノエッジ TechnoEdge

Checkpointとはあとひと月ほどすると、前回ご紹介した次世代Stable Diffusion、SDXLの波が来そう(来るかも？)と言うこともあり、今回は一番の基本となるCheckpointと、筆者の興味の対象となっているリアル系モデルの遷移にふれておきたい。まずStable Diffusionのバージョンは1.4、1.5、2.0、2.1などがあり、現在最もポピュラーなのは1.5 (SDXLは0.9、1.0)。基本、対応したバージョンでないとモデルは作動しない。一言でモデルと言っても、Stable Diffusionが必要、もしくはオプションとして扱えるモデルは、Checkpoint、LoRA、LyCORIS、Embedding、 Hypernetwork…など、さまざまな種類がある。絵を作る上において最も重要(＝絵の元になる)のがCheckpointで、他は無くても最低限これだけ

unfini 2023/08/09

リンク

生成AIグラビアをグラビアカメラマンが作るとどうなる？第二回：「アジア美女」最新モデルBRAV6作例とネガティブプロンプトの基礎 | テクノエッジ TechnoEdge

使用したNegative Promptは、「1.無し」、「2.ほぼ最小限」、「3.筆者標準」、「4.embeddingsを使う」の4つパターン。 4番目だけ他と違い別途ファイルが必要となり、ダウンロードしたファイルを[Stable Diffusionのホームディレクトリ]/embeddingsへコピーする。Negative PromptでEasyNegativeなどをよく見かけるがそれだ。ここではng_deepnegative_v1_75tとbadhandv4が該当する。Promptで書く替わりに、特別に学習したModelで同じ効果を得られるようになっている。無し (worst quality:2),illustration, 3d, painting, cartoons, sketch, illustration, 3d, sepia, (painting), cartoons, sk

unfini 2023/07/19

リンク

はてなブックマーク

タグ

ブックマーク / www.techno-edge.net (29)

お知らせ

月間はてなブックマーク数ランキング（2024年10月）

今週のはてなブックマーク数ランキング（2024年10月第4週）

今週のはてなブックマーク数ランキング（2024年10月第3週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス