この1週間の気になる生成AI技術・研究をいくつかピックアップして解説する「生成AIウィークリー」(第66回)では、2つの新しいマルチモーダルモデル「Emu3」と「Molmo」を取り上げます。Emu3は拡散アーキテクチャを使用しないモデルで、Molmoは人間が画像を見て音声でラベル付けした独自データセットを使用したモデルです。
2014年から先端テクノロジーの研究を論文単位で記事にして紹介しているWebメディアのSeamless(シームレス)を運営し、執筆しています。 1週間の気になる生成AI技術・研究をいくつかピックアップして解説する連載「生成AIウィークリー」から、特に興味深い技術や研究にスポットライトを当てる生成AIクローズアップ。 今回は、AIで編集された画像や動画によって人間の記憶をどれだけニセの記憶に上書きできるかを調査した論文「Synthetic Human Memories: AI-Edited Images and Videos Can Implant False Memories and Distort Recollection」に注目します。 ▲左がオリジナルの画像、右がAIで被写体を笑顔に編集した画像 MIT Media Labの研究チームは、AIで編集された画像や動画が人間の記憶にどれほ
2014年から先端テクノロジーの研究を論文単位で記事にして紹介しているWebメディアのSeamless(シームレス)を運営し、執筆しています。 1週間の気になる生成AI技術・研究をピックアップして解説する連載「生成AIウィークリー」から、特に興味深い技術や研究にスポットライトを当てる生成AIクローズアップ。 今回は、大規模言語モデル(LLM)は自身が出力する「幻覚」(ハルシネーション)からは避けられない現象を指摘した論文「LLMs Will Always Hallucinate, and We Need to Live With This」に注目します。幻覚とは、事実と異なる出力をLLMが実行してしまう現象を指します。 この研究では、LLMの幻覚が単なる偶発的なエラーではなく、これらのシステムに内在する避けられない特性であると主張しています。研究者らは、幻覚がLLMの根本的な数学的・論理的
2014年から先端テクノロジーの研究を論文単位で記事にして紹介しているWebメディアのSeamless(シームレス)を運営し、執筆しています。 GoogleのDeepMindは、新しいタンパク質を生成する能力を持つAIシステム「AlphaProteo」を発表しました。AlphaProteoは、標的分子に効果的に結合する新しいタンパク質を設計することができ、創薬、疾病理解、その他の分野での研究を加速させる可能性があります。 Phindは新しいフラッグシップモデル「Phind-405B」と、高速な検索が可能な「Phind Instant」モデルを発表しました。Phind-405BはMeta Llama 3.1 405Bをベースにしており、128Kトークンのコンテキストを処理でき、32Kのコンテキストウィンドウが利用可能です。このモデルはHumanEvalで92%のスコアを達成し、Claude
2014年から先端テクノロジーの研究を論文単位で記事にして紹介しているWebメディアのSeamless(シームレス)を運営し、執筆しています。 1週間の気になる生成AI技術・研究をピックアップして解説する連載「生成AIウィークリー」から、特に興味深い技術や研究にスポットライトを当てる生成AIクローズアップ。 今回は、生成AIが大企業におけるソフトウェア開発者の仕事に与える影響を調査した論文「The Effects of Generative AI on High Skilled Work: Evidence from Three Field Experiments with Software Developers」に注目します。 この研究では、マイクロソフト、アクセンチュア、そして匿名のFortune100電子機器メーカー(以下、匿名企業)において、合計4,867人の開発者を対象に実験が行
2014年から先端テクノロジーの研究を論文単位で記事にして紹介しているWebメディアのSeamless(シームレス)を運営し、執筆しています。 今回の生成AI論文ピックアップでは、3億枚以上の人間画像データで学習した動く人を高精度に理解するMeta Reality Labsの「Sapiens」を取り上げます。 生成AIウィークリー連載記事一覧 | テクノエッジ TechnoEdge 動く人間を詳細に理解できるMetaのビジョンモデル「Sapiens」、3億枚以上の人間画像データで学習この研究は、人間中心のビジョンモデルファミリー「Sapiens」について紹介しています。Sapiensは、0.3Bから2Bまで用意されており、2Dポーズ推定、身体パーツのセグメンテーション、深度推定、表面法線予測という4つの基本的な人間中心のビジョンタスクに対応しています。 Sapiensモデルは、3億枚以上の
非常に高性能な画像生成AI「ImageFX(Imagen 3)」の登場です。 FLUX.1がMidjourneyと並ぶ最高峰の画像生成AIとして注目を浴び始めてから2週間もたたないうちに、新しいAI画像サービスが、なんとGoogleから登場しました。それがImageFXです。 Googleは画像生成AIの新バージョンであるImagen 3をリリースしたばかりですが、この技術を使った「ImageFX」というサービスをGoogle AI Test Kitchenでスタートしています。これが生成する人物画像がとてもリアルだというので評判です。GeminiでもImagenを使った画像生成は可能なのですが、制限が厳しく、人物を含んだ画像の生成ができなくなっています。 ▲GeminiのImagenでは人物画像が生成できない ImageFXは、テキストプロンプトを入れると、4枚の画像が生成されるという仕
2014年から先端テクノロジーの研究を論文単位で記事にして紹介しているWebメディアのSeamless(シームレス)を運営し、執筆しています。 気になる生成AI技術の論文を解説する連載、今回はAIがAIエージェントを自動設計して改善を続けて進化するシステム「ADAS」を紹介します。 生成AIウィークリー | テクノエッジ TechnoEdge AIがAIエージェントを改善し続ける自動設計システム「ADAS」従来、強力な汎用エージェントの開発には、基盤モデルをエージェントシステムのモジュールとして組み込む手動設計が主流でした。本研究では、人間の介入なしにAIによって独創的で強力なAIエージェントシステムの設計を自動化する「ADAS」(Automated Design of Agentic Systems)という新たなアプローチを提案しています。 ADASのプロセスは以下のように進行します。ま
SunoとUdioの2強だったボーカル付きAI作曲サービスに新たなライバル「LoudMe」が登場しました。8月15日にプレスリリースが出ていたものの、あまり話題になっていなかったサービスですが、その実力は相当なもの。実際に試してその実力を探ってみることにします。 ただ気になるポイントがいくつかあります。 ■謎企業による謎音楽生成AIサービスこうしたサービスを作るためには相当の研究成果と実行環境が必要です。LoudMeについてわかっているのは、プレスリリースの発信元がシンガポールになっていることからシンガポール企業ではないかと推測されることと、CEOの名前がMike Smithであることだけ。プロフィールについては不明です。 CEOの名前(よくある名前すぎる)や社名を検索しても出てこないのが不思議。さらに、Xの公式アカウントもなさそうなところとか、本気で売り出そうとしているのかも不明です。
夏、浴衣、花火! 夏、海! カメラ女子 カフェ美女 渋めのグラビア! 砂浜でファッションショー!? 如何だろうか!?ちょっと驚きのクオリティではないだろうか?SDXLを初めて見た時も思ったが、今回ははるかに超え、もはや実写。いつも話題になる指問題もあるにはあるが、率は低くなっており、カメラ女子の様な画像も簡単に作れるようになった。っと言っても、持ち方、カメラ、指…っと三つの要素があるので、それなりにガチャる必要はある。 もう一つの特徴として、砂浜でファッションショー!?の様に、引きの構図でも顔や指などが解像度不足で崩れない。SD 1.5やSDXLではADetailerなどを使い、部分的にUpscale、力ずくで何とかしていたが、その必要は無くなった。 利点としては処理時間の短縮、そしてdenoiseによる顔が変わったりする副作用から逃れることができる。 FLUX.1、肝心の肌色過多に関して
Soraに匹敵する高品質の動画生成AIとして注目を浴びながら、中国の携帯電話番号が必須だったことから世界中の羨望を集めていた、KLINGが一般ユーザーも利用可能になりました。 ログインにはメールアドレスだけでよく、Webサイトのklingai.comにアクセスします。アプリのインストールは不要。 主要機能は3つ。静止画生成(KOLORS)、動画生成(KLING)、そしてビデオ編集です。 毎日使えるクレジット(ポイントは)66。動画生成では10ポイントを消費します。 ■KLINGを使ってみた早速使ってみました。まずはImage to Video。プロンプトを入れて、プロンプトへの準拠レベルを調整。現時点では10秒の生成はできないため、5秒のみ。高品質モードも使えない状態です。 出来上がったのはこちら。さすがアジア系には強い感じで、不自然さはほとんどないです。Luma Dream Machin
X (旧Twitter) が、独自絵文字セットの「ピストル」を一般的な水鉄砲から、実銃のグラフィックに置き換えました。 現在、モバイルアプリでは各社それぞれの絵文字セットによりおおむね明るい色の水鉄砲やオモチャの銃として表示されますが、ウェブのx.com では黒灰の銃身に茶のグリップを備えた拳銃のグリフになっています。 ピストルの絵文字は2016年にAppleがiOSで水鉄砲に書き換えてから各社が追従し、2010年代末にはプラスチックの玩具を思わせる明るい色で、実際の拳銃とは離れたデザインが一般的になっていました。 Twitter の担当エンジニアによれば、この変更は「あるべき姿の復旧」。独自の絵文字グリフを実銃に戻すことで、いわばAppleに取り上げられた武装権を回復したといえます。 絵文字、もしくは汎用規格のUnicodeとしての Emoji にはテキストによる抽象的な定義と参考の画像
2014年から先端テクノロジーの研究を論文単位で記事にして紹介しているWebメディアのSeamless(シームレス)を運営し、執筆しています。 OpenAIは7月18日、安くて軽量なマルチモーダル大規模言語モデル「GPT-4o mini」をリリースしました。テキストや画像に対応し、Gemini FlashやClaude Haiku、GPT-3.5 Turboより精度が高く高速、それでいて安価なのが特徴です。 DeepLは、言語翻訳ならびに文章校正の特化型大規模言語モデルを実装したことを発表しました。言語専門家の評価では、Google翻訳よりも1.3倍、ChatGPT-4よりも1.7倍、Microsoft翻訳よりも2.3倍、DeepLの翻訳出力が好ましいと回答したといいます。 さて、この1週間の気になる生成AI技術をピックアップして解説する「生成AIウィークリー」(第56回)では、AIとユー
2014年から先端テクノロジーの研究を論文単位で記事にして紹介しているWebメディアのSeamless(シームレス)を運営し、執筆しています。 この1週間の気になる生成AI技術をピックアップして解説する「生成AIウィークリー」(第55回)では、1枚の完成したイラスト絵を入力に、そのイラストの制作過程のタイムラプス動画を生成する「PaintsUndo」や、画像とテキストをペアにした1コマを入力に、続きの物語を生成する「SEED-Story」などを取り上げます。 生成AI論文ピックアップ 1枚の画像から3Dキャラクターを1分で生成するモデル「CharacterGen」 音声と静止画の顔を入力に、話している動画を生成するAI「EchoMimic」 漫画の1コマを入力に、続きのコマを作り出す物語生成AI「SEED-Story」 3次元データを活用した新しい画像マッチング技術「MASt3R」 イラス
さて、この1週間の気になる生成AI技術をピックアップして解説する「生成AIウィークリー」(第54回)では、KLINGを開発した快手が、画像内のキャラクターの顔を自在に動かす技術「LivePortrait」を発表しました。従来の類似技術と異なり、顔の表情や頭部の動きの1フレームを12.8ミリ秒で生成できる高速さが特徴です。動きの精度も高く、調和のとれた合成映像を生成します。 生成AI論文ピックアップ 静止画内の顔の表情や頭部をリアルに動かすAI「LivePortrait」、1フレーム0.01秒で動作を生成 “10億の人格”を活用して大規模合成データを生成する手法をテンセントが開発 ナレッジグラフを用いて回答精度を向上させる、マイクロソフト開発のLLM拡張技術「GraphRAG」がGitHubに登場 プロンプトの複雑さに応じ、強いLLMか弱いLLMかを自動選択するモデル「RouteLLM」 ソ
現役グラビアカメラマンでありエンジニアでもある西川和久氏による生成AIグラビア連載の第27回は、前回に続いて最新の画像生成AIモデル Stable Diffusion 3 Medium について。 『生成AIグラビアをグラビアカメラマンが作るとどうなる?連載』記事一覧』 前回に引き続きStable Diffusion 3 Mediumの話連載第26回にSD3 Medium(以降SD3 Medium)の話を書いたが、今回はその続きとなる。 前回の記事ではSD3 Mediumの特徴として Baseモデルなのに高画質。そして日本人含むアジア系もOK 商用利用不可。個人レベルでの商用利用は、クリエイターライセンス($20/月)を契約 結構な頻度で致命的な問題が発生する Promptで左右など、位置関係が指示でき再現可能。文字もOK(英語のみ) 生成環境は現状でComfyUI(系)のみ。基本Work
Googleがオープンな言語モデル「Gemma 2」を開発者向けに公開しました。90億パラメータと270億パラメータの2サイズを提供しています。 さて、この1週間の気になる生成AI技術をピックアップして解説する「生成AIウィークリー」(第53回)では、生成する動画時間の延長や無音ビデオに適した音を生成するなど動画AIに関する内容が盛りだくさんです。 生成AI論文ピックアップ 既存のAIが生成する動画の時間を長くするモデル「ExVideo」、Stable Video Diffusion生成動画を5倍以上の長さに拡張 言語より視覚に重きを置く、オープンなマルチモーダル大規模言語モデル「Cambrian-1」はGPT-4VやGemini Proと同等レベル イベントカメラを使用するAIビデオ超解像技術「EvTexture」、特にテクスチャ領域で画質向上 長い動画を理解できるオープンソースなAIモ
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く