AIリップシンクにまた大きな波が訪れました。
生成AIサービス 本を書いているのに、あんまり使いこなせてない気がする生成AIサービス。 一時期、サブスクに課金し過ぎたことに反省して、慎重になっていたのですが、いつの間にか無料でも結構便利に使えるサービスが増えていたので、あらためてまとめてみました。基本的に自分のためのリンク集なのですが、需要あるかもしれないので公開してみます。 なお、主に調べ物とか要約とか情報収集に使うものが中心で、エンタメ系や画像・動画系は除外しています。 ChatGPT 最初は、やはりベタなやつです。ChatGPTの本を書いているのでポジショントークもあるのですが、自分の中で基準になっているのはChatGPTです。 無料でも、最新のモデルであるGPT-4oが使えたり、Python実行環境であるAdvanced Data Analysis(Code Interpreter)が使えたりするようになっています。GPT-4
去る11月28日、kintoneの開発者コミュニティであるdevkin meetup!で記念すべき第1回目のイベントが開催されました。 そのイベントのトップバッターとして「AIエージェントでkintoneの使い方はこんな風に変わるのでは!」と言うことで、「AIエージェントで開発するkintone Copilot」というタイトルでお話をさせて頂きました。 LTということもあって短い時間だったので、この記事では改めて整理した情報をお伝えしたいと思います。 kintone x AIエージェントのデモまずは次の1分程度の動画をご覧ください! 動画では右側にチャット欄(コパイロット)、左側にkintoneの画面を表示しています。 チャット欄で「このURLをメモしておいて」と言うと、エージェントがアクセスできるスペース内のアプリから、URL先のページ内容に照らし合わせて適切なアプリを選択し、「このアプ
こんにちは! 今日は、動画の生成AIが一つ強いのが出てきて、それを触っていました。 RunwayというやつのGen-3というものです。 興味ある人は触ってみてください! というわけで、動画生成AIは「まだまだ時間がかかるよね」と言われているものなんですが、2024年7月時点ではどうだったのか、と言うのを記録しておくと、将来見たときにちょっと面白いのではと思うので、メモがてら書いてみます。 どんな感じ?動画は綺麗だし、それなりに自然という印象です。ただし、写真よりも、変なところが目立つので、実用性があるのか?というとかなり難しいだろうなあ、と。 広告とかで使えるんじゃないか!という期待もあると思うんですが、正直結構大変だろうなあ、と思いました。 違和感が少なかったものまず、比較的違和感がなかったものから紹介します。 「東洋人のCEOが製品発表会でプレゼンをするが、手にはドリルがついている」と
Krita の AI Diffusion プラグイン、SD のインターフェースとしてかなり良い。話題の LCM によるライブペイントも便利だし、イラストレーションツールだからレイヤーや選択ツールが使えるのが強い。すでに SD でできたことだが、こんな感じの変換が素早く、気持ちよく行える。https://t.co/bUPOZrKs1n pic.twitter.com/0hn8iMHHms — Naoto Yokoyama (@builtinnya) November 18, 2023 これらを ControlNet8 で入力して AnimateDiff を使えば済むと考えていたが、甘かった。 動画生成 AI に期待しているのは、この2枚の画像の間のフレームを説得力のある形で補間することである。しかし、7秒という長さでは、例えば次の動画1のようになってしまう。 動画1. 図1と図2を使い、パラ
Googleがオープンな言語モデル「Gemma 2」を開発者向けに公開しました。90億パラメータと270億パラメータの2サイズを提供しています。 さて、この1週間の気になる生成AI技術をピックアップして解説する「生成AIウィークリー」(第53回)では、生成する動画時間の延長や無音ビデオに適した音を生成するなど動画AIに関する内容が盛りだくさんです。 生成AI論文ピックアップ 既存のAIが生成する動画の時間を長くするモデル「ExVideo」、Stable Video Diffusion生成動画を5倍以上の長さに拡張 言語より視覚に重きを置く、オープンなマルチモーダル大規模言語モデル「Cambrian-1」はGPT-4VやGemini Proと同等レベル イベントカメラを使用するAIビデオ超解像技術「EvTexture」、特にテクスチャ領域で画質向上 長い動画を理解できるオープンソースなAIモ
Luma AIが6月12日に公開した動画生成AIサービス「Dream Machine」が、月に無料で30回まで試せることもあって、大きな話題となっています(「ついに来た! 無料で試せる動画生成AI『Luma Dream Machine』」参照)。ただ、技術情報は出ておらず、どういう関係や経緯で出しているかは一切不明です。 ※記事の配信先によっては動画や図版がうまく表示されないことがあります。その場合はASCII.jp掲載の記事をご覧ください 手軽に高品質な動画が生成できる「Luma AI」のサービス Luma AIはこの連載でも何回か紹介してきたように、大量の写真から3Dモデルを生成するサービスからスタートし、昨年12月には3Dモデル生成サービス「Genie」で参入しているAIスタートアップ企業です(連載第41回「3Dスキャンの進化がすごい」参照)。生成AIの3D化技術で先行していることか
画像や文章を生成するAIに続いて、動画生成AIも急速に進歩しつつありますが、これまでのAIが生成した動画は無音か人間が音を後付けしたものばかりでした。Google DeepMindが2024年6月17日に、映像の雰囲気や動きに合わせて音楽や音を生成する「video-to-audio(V2A)」を発表しました。 Generating audio for video - Google DeepMind https://deepmind.google/discover/blog/generating-audio-for-video/ Google DeepMindが今回発表したV2Aシステムは、動画生成AI「Veo」と組み合わせてドラマチックなBGMやリアルなSE、キャラクターのセリフなどを生成できる技術です。 例えば、以下のムービーは「Cinematic, thriller, horror f
ソフトバンクは6月17日、生成AIスタートアップの米Perplexityとの戦略的提携を発表した。ソフトバンク、ワイモバイル、LINEMOユーザーであれば、AI検索エンジン「Perplexity」の有料版「Perplexity Pro」を1年無料で使用可能だ。 Perplexityは、質問を入力すると、インターネットの最新情報をもとに文章で回答する生成AIベースの検索エンジン。情報源も表示して回答するため、信頼性の高い回答を得ることができるとしている。 Perplexity Proは、月額2950円(年2万9500円)の有料サービスで、複数の大規模言語モデル(GPT-4o、Claude-3、Llama3など)を選択でき、分析のためのファイルアップロード回数が無制限で利用可能。Playground AI/DALL-E/SDXLによる回答の画像生成の他、検索結果をユーザーごとに最適化するAIプ
2024年6月13日、AI開発企業のLuma AIが、テキストおよび画像から高品質でリアルな動画を生成することができる次世代動画生成AIモデルの「Dream Machine」をリリースしました。 Introducing Dream Machine - a next generation video model for creating high quality, realistic shots from text instructions and images using AI. It’s available to everyone today! Try for free here https://t.co/rBVWU50kTc #LumaDreamMachine pic.twitter.com/Ypmacd8E9z— Luma AI (@LumaLabsAI) June 12, 2024
このサービスの有償プランに申し込んで使って、少しプロンプトのコツが掴めたので、お伝えしたいと思います。 ただ、自分が使った目的は映画などの映像制作ではなく、あくまでも静止画、それも人物を動かすことなのでご注意を。より具体的には、11年前に他界した妻の動く姿を見ることです。 ■フィルムカメラの写真を動かすまずやってみたのは、実際に撮った写真をDream Machineで動かすことです。 使った写真は、1978年から1987年にかけてフィルムカメラで撮影したもの。子供が生まれてビデオカメラ(ビデオ8mm)を買ったのが1987年なので、それまでは動いている映像がほとんどなかったのです。 例外として、学園祭の劇で主役を演じたものと、特捜最前線でエキストラをやったときのものは残っていますが。 多くの人にとって、1980年代以前の、動きのある映像は残っていないと思います(8mmフィルム愛好家がいる家庭
中国のSNS「快手(Kuaishou)」は、テキストから最大2分間の動画を生成できる動画生成モデル「可灵(Kling)」を開発。多数のサンプル動画を掲載するデモサイトを公開した。 テキストから最大2分間のフルHD動画を生成 A Chinese AI video generator just dropped before we got access to Sora Can generate 2-minute videos at 30fps, 1080p quality, available on the KWAI iOS app with a Chinese phone number A few generations from their site: 1. pic.twitter.com/NEmWiqKHiO — Rowan Cheung (@rowancheung) June 6, 20
数理・データサイエンス・AI教育強化拠点コンソーシアム MIセンターは、2022年度政府予算に盛り込まれた「数理・データサイエンス・AI教育の全国展開の推進」事業の東京大学における実施主体です。 同事業で選定された29大学(拠点校11大学、特定分野校18大学)のコンソーシアムの幹事校として、大学、産業界、研究機関等と幅広くネットワークを形成し、地域や分野における先進的教育モデルの拠点として、数理・データサイエンス・AIの実践的教育の全国普及に努めます。 同時に、この分野を牽引できる国際競争力のある人材および産学で活躍できるトップクラスのエキスパート人材の育成を目指します。 [コンソーシアムホームページ] 数理・データサイエンス・AIの活用事例動画 本動画集は数理・データサイエンス・AIリテラシーレベル教材の導入となるような活用事例を収集したものです。数理・データサイエンス・AIリテラシーレ
生成AIツールはいまや、動画制作から住宅のリフォームまで、あらゆるところに入り込んできています。 そうした生成AIモデルが担う新たな作業に、ウェブサイトのデザインもあります。 HTMLのコードを一行たりとも書かず、人目を引くような洗練されたウェブサイトをつくってウェブ上で公開できるのです。 プロンプトでホームページの制作ができるやり方は、テキストや画像をAIで生成する場合と同じです。 つまり、プロンプトを入力すれば、AIが魔法を使って、人間の指示どおりにウェブサイトを生成してくれるわけです。 ウェブサイトの目的や、希望するビジュアルスタイルはもちろん、ページ上に入れたい個別の構成要素(画像やメニューなど)を具体的に指示することもできます。 いまでは、さまざまなウェブサイト作成サービスがAIを導入しています。今回は、そうしたサービスから3つをピックアップしました。 WixWixでは、これぞと
テクノロジーライター、Gマーク・パートナーショップ「AssistOn」取締役。 スティーブ・ジョブズ、ビル・ ゲイツ、スティーブ・ウォズニアックのインタビュー記事をはじめ、IT、カメラ、写真、デザイン、自転車など様々な分野の文筆活動や、製品開発のアドバイスを行う。 主な著書・共著書に『成功する会社はなぜ「写真」を大事にするのか』(講談社現代ビジネスブック)、『インテル中興の祖 アンディ・グローブの世界』(同文舘出版)、『ICTことば辞典』(三省堂)など。主な訳書に『Apple Design 日本語版』(アクシスパブリッシング)、『スティーブ・ジョブズの再臨』(毎日コミュニケーションズ)など。 最新刊として、『ルンバをつくった男 コリン・アングル「共創力」』(小学館)。 AssistOnホームページ:https://www.assiston.co.jp ビジネスを変革するテクノロジー 今やテ
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く