This project utilizes a chain of GPT-4, Stable Diffusion, and Anthropic API calls to generate an original fantasy novel. Users can provide an initial prompt and enter how many chapters they'd like it to be, and the AI then generates an entire novel, outputting an EPUB file compatible with e-book readers. A 15-chapter novel can cost as little as $4 to produce, and is written in just a few minutes.
Give your application empathy and a voiceEVI is a conversational voice API powered by empathic AI. It is the only API that measures nuanced vocal modulations, guiding language and speech generation. Trained on millions of human interactions, our empathic large language model (eLLM) unites language modeling and text-to-speech with better EQ, prosody, end-of-turn detection, interruptibility, and ali
Stable Diffusion Forgeを表示した様子。基本的な操作は既存のStable Diffusion WebUI AUTOMATIC1111とほぼ同じ 画像生成AI「Stable Diffusion」用の新しいユーザーインターフェース「Forge」が2月6日に登場しました。開発したのは、これまで「Controlnet」や「Fooocus」などStable Diffusion関連の様々な重要技術を開発してきたillyasviel(イリヤスベル)さん。何よりインパクトが大きいのは、グラフィックボードのVRAM容量が小さい安価なPCでも最新版のStable Diffusion XL(SDXL)が動かせることです。 RTX 40シリーズが求められたSDXL SDXLは、2023年8月にStablity AIが発表した画像生成AI。高画質な出力ができる一方、コミュニティーサイトで話題にな
お正月なのですがAIは待ってはくれないので毎日「デイリーAIニュース」だけは続けている今日この頃。 中国のテンセントがとんでもないオープンソースをぶっ込んできた。 https://crypto-code.github.io/M2UGen-Demo/ 動画、画像、音楽、テキストという四つのモードを学習させた「マルチモーダル」モデルで、しかもベースはllama-7Bということで、V100 32GB一つで推論可能(CPUのRAMは49GB以上必要)どころか学習も可能。ホントかよ!! しかもしれっと日本語でも命令できるし。 ほんとにテクノっぽい音楽が流れるなんかこの研究の名前はかなり控えめに「音楽理解できるマルチモーダルモデル」みたいに書いてあるんだけど、とんでもない。実際にはこれは「どんな情報も入力できるマルチモーダルモデル」のプロトタイプである。 MU2GENのモデル構造図音声、画像、動画とい
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く