tk78のブックマーク - はてなブックマーク

AI動画生成もローカルマシンで動かす時代に。Image to Video含め生成し放題のCogVideoを一発インストールできるPinokioという選択肢（CloseBox） | テクノエッジ TechnoEdge

話題のオープンソース動画生成AI「CogVideo」をローカルマシンに超簡単インストールできたのです。

tk78 2024/09/22

ai

リンク

AI作曲「Suno」新バージョンがWAV高音質化、最長4分の曲を一発でエンディングまで完成。無修正で良曲量産可能に（CloseBox） | テクノエッジ TechnoEdge

このところUdioやSonautoの新機能搭載で押され気味だったAI作曲サービスの「Suno」が反撃に出ました。バージョン3.5のEarly Access版（有料プランユーザーのみに提供）を利用すると、これまでの2分間制限が最長4分まで拡大。延長時間も従来の1分を2分に伸ばしています。これだけの長さがあれば大抵のポピュラー曲はエンディングまでいけます。 4分の曲をUdioで生成しようとすると、8回の命令が必要になります。さらに、生成に要する時間はUdioの方がはるかに長くかかるので、全体としての作業時間には大きな差が生じます。それがSuno 3.5ならば数秒でできてしまうのです。また、Style of Musicのキーワードがサジェストされるようになっていて便利です。文字数制限は相変わらずきついですけど。さらにうれしいのは、日本語歌詞の読み方が、従来は間違いが多かったのが、ほぼ問題な

tk78 2024/05/26

ai
music

リンク

マイクロソフト、ARM版の新型Surfaceと『Copilot+ PC』発表。全部覚えるRecallなどWindows 11のローカルAI強化 | テクノエッジ TechnoEdge

マイクロソフトがWindows 11『Copilot+ PC』イベントを開催し、Snapdragon X Elite / Plusプロセッサを搭載した新型 Surface Pro (第11世代)および Surface Laptop (第7世代)を発表しました。新型 Surface Pro はシリーズ初の有機ELディスプレイを選択でき、性能は(二世代前の) Surface Pro 9比で90％高速。統合NPUのAI処理性能(TOPS)は、AppleのM4 iPad Proより約20%高速をうたいます。新たな純正アクセサリとして、合体しても外しても使える新型キーボード Surface Pro Flex Keyboard を用意します。 ■ Windows PCの新たなカテゴリ『Copilot+ PC』新型 Surface シリーズを披露した一方で、イベントの主題はマイクロソフトが提唱する新

tk78 2024/05/21

windows
ai

リンク

AI作曲サービス「Suno」、無料ユーザーにも高品質版V3を開放。1日20曲、1曲2分が生成可能（CloseBox） | テクノエッジ TechnoEdge

米国のAIスタートアップSunoは、自社のAI作曲サービスである「Suno」をV3にバージョンアップしました。3月20日より、3からのカウントダウンをスタートしていましたが、日本時間の22日2時に、正式公開されました。 V3では、1回で作成できる曲の長さを従来バージョンであるV2の1分20秒をV3では2分までに伸ばし、インストゥルメンタル曲の指定、高音質化、多ジャンルへの対応など、多くの機能強化を行なっています。これまではProおよびPremierの有償ユーザーのみがアルファ版を使えていましたが、正式版になったことで、無料ユーザーも1日10回、1回で2曲が同時に生成されるので、1日当たり最大20曲まで利用できることになります。無料ユーザーアカウントで試してみましたが、V3がデフォルトとなっている他に、V3 Alpha版との大きな違いはありません（V2も選択できるようになっています）。

tk78 2024/03/22

ai
music

リンク

生成AIグラビアをグラビアカメラマンが作るとどうなる？第17回：新技術をすぐ試せるComfyUIのインストール・使いかた (西川和久) | テクノエッジ TechnoEdge

ComfyUIが流行ってる？Stable Diffusionで生成AI画像を作る時、もっとも一般的なインターフェースはAUTOMATIC1111だろう。デファクトスタンダードと言ってもいいほどで、検索すると、インストール方法や使い方など、それこそ山盛り出てくる。ところが最近、ComfyUIがちょっとした人気だ。以前軽くご紹介したが、カスタムNodeを組み合わせ自由にWorkflowを構築できる結構マニアックなアプリなのに何故？ ComfyUI。カスタムNodeを接続してWorkflowを作る…と結構マニアックなアプリ。これは筆者が日頃使っているWorkflowの1つこれには理由があり、12月頃から以降、Stable Video Diffusion、Kohya's HiresFix、SDXL Turbo、LCM、FaceID、PhotoMaker、InstantID、様々なControlN

tk78 2024/02/01

ai

リンク

生成AIグラビアをグラビアカメラマンが作るとどうなる？第七回：自分で始める環境作りとお薦め機材 / AUTOMATIC1111を動かしてみる (西川和久) | テクノエッジ TechnoEdge

半年ほど前までであればGoogle Colabと言うクラウドGPU環境が使え、無料でサクッと動かせたのだが、それが災いし、多くの人が生成AI画像目的で利用したため、リソースが足らなくなり、後述するAUTOMATIC1111は無料枠で使用禁止になってしまった。 AUTOMATIC1111をインストールして使ってみる画像生成AIは各社が提供しており、扱うためのサービスやアプリもいろいろあるが、デファクトスタンダードはStable Diffusionを利用するためのフロントエンドにあたる AUTOMATIC1111だろう。現在は、次世代Stable Diffusion (SDXL)に対応したv1.6.0が公開されている。ここではOSがWindows 11で、先に提示したNVIDIAのGPUが装着済の前提で解説する。少し前まではPythonやGitを入れたり、いろいろ面倒だったが、現在はbatフ

tk78 2023/09/26

ai

リンク

生成AIグラビアをグラビアカメラマンが作るとどうなる？第二回：「アジア美女」最新モデルBRAV6作例とネガティブプロンプトの基礎 | テクノエッジ TechnoEdge

使用したNegative Promptは、「1.無し」、「2.ほぼ最小限」、「3.筆者標準」、「4.embeddingsを使う」の4つパターン。 4番目だけ他と違い別途ファイルが必要となり、ダウンロードしたファイルを[Stable Diffusionのホームディレクトリ]/embeddingsへコピーする。Negative PromptでEasyNegativeなどをよく見かけるがそれだ。ここではng_deepnegative_v1_75tとbadhandv4が該当する。Promptで書く替わりに、特別に学習したModelで同じ効果を得られるようになっている。無し (worst quality:2),illustration, 3d, painting, cartoons, sketch, illustration, 3d, sepia, (painting), cartoons, sk

tk78 2023/07/19

ai

リンク

生成AIグラビアをグラビアカメラマンが作るとどうなる？第一回：実在モデルで学習・LoRAでキャッチライト付加 (西川和久) | テクノエッジ TechnoEdge

百聞は一見に如かず。これってAI生成グラビア？AI画像生成に興味を持ったのは去年の年末頃だろうか。Twitterを眺めていると「どうやって撮った(作った)んだ？」と言う画像がたまに載っていたので調べると、Stable Diffusion Web UI (AUTOMATIC1111版)だった。元々グラビアを撮っていたこともあり、あまり撮らなくなってもグラビア好きなのには違いなく、試したくなったのは言うまでもない。 AI生成画像は大きく分けて2種類あり、一つはイラスト系、もう一つはリアル系。筆者が興味を持ったのは後者。どこまで実写に迫れるのかがその興味の対象だ。百聞は一見に如かず。扉の写真はAI生成画像。現時点でこの程度の写りは容易にこなす。とは言え、実際の撮影もそうなのだが、グラビア写真は数百枚撮ってカメラマンがある程度セレクトし納品したものが、納品先で更に絞られ、出版社などで更に絞り込

tk78 2023/07/12

ai

リンク

高性能で無料、誰の声にでもなりきれるAIボイチェン「RVC WebUI」がついに日本語表示に対応（CloseBox） | テクノエッジ TechnoEdge

オープンソースのAI声質変換（ボイスチェンジャー）ソフトウェア「RVC WebUI」が、日本語での表示に対応しました。 VITSという声質変換技術をベースにしたRVC（Retrieval-based Voice Changer）に、Webユーザーインタフェースを付加したのが「RVC WebUI」です。