GPT-4o (“o” for “omni”) is a step towards much more natural human-computer interaction—it accepts as input any combination of text, audio, image, and video and generates any combination of text, audio, and image outputs. It can respond to audio inputs in as little as 232 milliseconds, with an average of 320 milliseconds, which is similar to human response time(opens in a new window) in a conversat
2024年のゴールデンウイークがやってきた。暦の上では、3連休、平日3日、4連休と続いており、最大で10連休を取得し、休みを満喫している人も多いと思う。その中には、外出はせずに自宅でゆっくり過ごすという人もいるかと思うが、そんな人たちにおすすしたい、無料で読める研修資料を紹介したい。 昨今さまざまな企業で、自社の研修で使った資料を社外に公開するケースが相次いでいる。「事業や教育に役立ててほしい」という思いから公開されるそれらの資料たちは、新入社員向けの仕事の心構えを説くものや、各業務の基礎を解説した教材、今話題の生成AIの活用方法など多種多様である。 今回は、過去にITmedia NEWSやITmedia AI+で取り上げた記事の中から数点を紹介する。ゴールデンウイーク中に読むもよし、連休明けの仕事始めのモチベーションを上げるために読むもよし、“あとで読む”用にブックマークしてもよし。それ
絵がド下手でもAIが上手に描いてくれる神サービス『AIキャンバス』スタート! リアルタイム画像生成Akuma.ai リアルタイム画像生成で知られている『Akuma.ai』が、あまりにも未来的かつ革命的なサービスをスタートして注目を集めている。それは『AIキャンバス』で、たとえ絵が下手な人が絵を描いても、AIが上手に描いてくれる(描き直してくれる!?)のである! 良い感じに仕上がった! これまさに革命的なサービス『AIキャンバス』 文字である程度の状況の説明を記入しつつ、画面上のキャンバスに絵を描くと、それを上手に描いてくれるのである。筆者も実際に試してみたが、まだまだ慣れていないものの、なんとなく良い感じに仕上がった! これまさに革命的なサービスである。 【正式リリース】リアルタイムで画像生成ができる「AIキャンバス」。本日より誰でも無料で使えます pic.twitter.com/JyEG
Huawei Noah's Ark Labや大連理工大学、Hugging Faceらの研究者らが、テキストから画像を生成するフレームワークである「PixArt-δ(デルタ)」を発表しました。 [2401.05252] PIXART-δ: Fast and Controllable Image Generation with Latent Consistency Models https://arxiv.org/abs/2401.05252 Meet PIXART-δ: The Next-Generation AI Framework in Text-to-Image Synthesis with Unparalleled Speed and Quality - QAT Global https://qat.com/ai_news/meet-pixart-%CE%B4-the-next-ge
マイクロソフト、初心者向け生成AI学習教材「生成AIアプリケーションの開発を始めるために必要な全知識を学べる12講座」を無償公開 コースの内容には、大規模言語モデル(LLM)がどのように動くかを理解する。「生成 AI と大規模言語モデルの紹介」、ユースケースに適したAIモデルを選択できるようにする「様々なLLMの調査と比較」、プロンプトの構造と使用法の理解のための「プロンプト・エンジニアリングの基礎」、埋め込み技術を利用したデータ検索アプリケーションを構築する「Vector Databasesを利用した検索アプリケーションの構築」、外部APIからデータを取得するためFunction Callingを設定する「Function Callingとの統合」など、入門的な内容から高度なアプリケーションの開発まで多岐にわたるレッスンが用意されています。 レッスン内容は日本語による説明と図で構成 各レ
1週間分の生成AI関連論文の中から重要なものをピックアップし、解説をする連載です。2024年初っ端の第27回目は、「礼儀は不要」「モデルに質問させる」「良い解答には報酬」など、大規模言語モデルの返答が向上する「プロンプト26の原則」をはじめとする5つの論文をお届けします。 画像から動く3Dシーンを生成する「DreamGaussian4D」のサンプル【画像】 複数の自律AIエージェントが過去の経験を共有して未知のタスクを処理するモデル「Experiential Co-Learning」この研究は、大規模言語モデル(LLM)に基づく自律エージェントの進化に焦点を当てており、これらのエージェントが単独で、または人間の介入なしでさまざまなタスクを処理する能力を持つことを示しています。ただし、これまでのエージェントは過去の経験を活用してタスクを効果的に解決することに一定の制限があるという問題がありま
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く