misshikiのブックマーク - はてなブックマーク

PDFを対話ポッドキャスト化するローカルAI「PDF2Audio」、キャラ1枚絵を滑らかに動かせる「MIMO」など生成AI技術5つを解説（生成AIウィークリー） | テクノエッジ TechnoEdge

この1週間の気になる生成AI 技術・研究をいくつかピックアップして解説する「生成AIウィークリー」（第66回）では、2つの新しいマルチモーダルモデル「Emu3」と「Molmo」を取り上げます。Emu3は拡散アーキテクチャを使用しないモデルで、Molmoは人間が画像を見て音声でラベル付けした独自データセットを使用したモデルです。

misshiki 2024/10/04

リンク

AI編集画像・動画の「ニセ記憶」で人の記憶を上書きできるか？　200人を対象にMITが実験（生成AIクローズアップ） | テクノエッジ TechnoEdge

2014年から先端テクノロジーの研究を論文単位で記事にして紹介しているWebメディアのSeamless（シームレス）を運営し、執筆しています。 1週間の気になる生成AI 技術・研究をいくつかピックアップして解説する連載「生成AIウィークリー」から、特に興味深い技術や研究にスポットライトを当てる生成AIクローズアップ。今回は、AIで編集された画像や動画によって人間の記憶をどれだけニセの記憶に上書きできるかを調査した論文「Synthetic Human Memories: AI-Edited Images and Videos Can Implant False Memories and Distort Recollection」に注目します。 ▲左がオリジナルの画像、右がAIで被写体を笑顔に編集した画像 MIT Media Labの研究チームは、AIで編集された画像や動画が人間の記憶にどれほ

misshiki 2024/10/01

“AIで編集された画像や動画によって人間の記憶をどれだけニセの記憶に上書きできるかを調査した論文” 自分の大学時代を思い出す認知心理学っぽい実験。

人工知能

リンク

グラビアカメラマンがAI生成したグラビア写真をAIで動画化してみた。架空ゲームショウの謎コスプレもあるよ（西川和久＆松尾公也） | テクノエッジ TechnoEdge

今回は、過去作った記事などのヘッダー画像＋αから松尾氏に動画を作っていただくという、コラボ企画。元画像はSD 1.5、SDXL、SD3 Medium、そしてFLUX.1 [dev] が入り乱れての動画となる。

misshiki 2024/09/30

“動画は、Runway Gen-3 Alpha TurboのImage to Videoでプロンプト指定なしで生成。1280×768ピクセル、24FPSのMPEG-4ムービーだ。”

人工知能

リンク

元Appleのジョニー・アイブ、OpenAIサム・アルトマンとのAIデバイス開発を認める。年内に10億ドル規模の調達も | テクノエッジ TechnoEdge

元Appleで数多くの製品デザインを手掛けたジョニー・アイブが、OpenAIのサム・アルトマンと「AIデバイス」製品を開発していることを認めました。

misshiki 2024/09/24

“実際にどんなものになるかは全く未知数”

人工知能

リンク

生成AIのハルシネーションは原理的に排除不能。不完全性定理など数学・計算機理論で説明　モデル改良や回避システムでも不可避とする論文（生成AIクローズアップ） | テクノエッジ TechnoEdge

2014年から先端テクノロジーの研究を論文単位で記事にして紹介しているWebメディアのSeamless（シームレス）を運営し、執筆しています。 1週間の気になる生成AI 技術・研究をピックアップして解説する連載「生成AIウィークリー」から、特に興味深い技術や研究にスポットライトを当てる生成AIクローズアップ。今回は、大規模言語モデル（LLM）は自身が出力する「幻覚」（ハルシネーション）からは避けられない現象を指摘した論文「LLMs Will Always Hallucinate, and We Need to Live With This」に注目します。幻覚とは、事実と異なる出力をLLMが実行してしまう現象を指します。この研究では、LLMの幻覚が単なる偶発的なエラーではなく、これらのシステムに内在する避けられない特性であると主張しています。研究者らは、幻覚がLLMの根本的な数学的・論理的

misshiki 2024/09/17

“LLMの幻覚が単なる偶発的なエラーではなく、これらのシステムに内在する避けられない特性であると主張しています。”

自然言語処理

リンク

最高性能うたうオープンソースLLM「Reflection 70B」、動画生成AIでスーパーマリオのプレイ映像を生成する「MarioVGG」など生成AI技術6つを解説（生成AIウィークリー） | テクノエッジ TechnoEdge

2014年から先端テクノロジーの研究を論文単位で記事にして紹介しているWebメディアのSeamless（シームレス）を運営し、執筆しています。 GoogleのDeepMindは、新しいタンパク質を生成する能力を持つAIシステム「AlphaProteo」を発表しました。AlphaProteoは、標的分子に効果的に結合する新しいタンパク質を設計することができ、創薬、疾病理解、その他の分野での研究を加速させる可能性があります。 Phindは新しいフラッグシップモデル「Phind-405B」と、高速な検索が可能な「Phind Instant」モデルを発表しました。Phind-405BはMeta Llama 3.1 405Bをベースにしており、128Kトークンのコンテキストを処理でき、32Kのコンテキストウィンドウが利用可能です。このモデルはHumanEvalで92%のスコアを達成し、Claude

misshiki 2024/09/10

リンク

生成AIが大企業プログラマの仕事に与える影響　マイクロソフトなど企業4800人以上を調査した結果（生成AIクローズアップ） | テクノエッジ TechnoEdge

2014年から先端テクノロジーの研究を論文単位で記事にして紹介しているWebメディアのSeamless（シームレス）を運営し、執筆しています。 1週間の気になる生成AI 技術・研究をピックアップして解説する連載「生成AIウィークリー」から、特に興味深い技術や研究にスポットライトを当てる生成AIクローズアップ。今回は、生成AIが大企業におけるソフトウェア開発者の仕事に与える影響を調査した論文「The Effects of Generative AI on High Skilled Work: Evidence from Three Field Experiments with Software Developers」に注目します。この研究では、マイクロソフト、アクセンチュア、そして匿名のFortune100電子機器メーカー（以下、匿名企業）において、合計4,867人の開発者を対象に実験が行

misshiki 2024/09/10

“若手や下位職級の開発者がこのツールを積極的に採用し、顕著な生産性向上を達成しています。新技術に対してより柔軟に使用して、その結果コード生成や更新の効率が大幅に改善されました。”

リンク

R18成人向け文章も生成できる高性能ローカルAI「Command R+」最新版登場、プレイ画面をリアタイで画像生成できるゲームエンジン「GameNGen」など生成AI技術5つを解説（生成AIウィークリー） | テクノエッジ TechnoEdge

この1週間の気になる生成AI 技術をピックアップして解説する「生成AIウィークリー」（第62回）では、主要LLMでは制限がかかるような内容でも精度高く出力できるローカルLLM「Command R+」の最新バージョンや、論文などのドキュメントとチャットできるAIインタフェース「kotaemon」を取り上げます。

misshiki 2024/09/05

リンク

Meta Reality Labs、人の画像から姿勢や立体形状を高精度に理解するビジョンモデル「Sapiens」発表。3億枚以上の画像で学習（生成AI論文ピックアップ） | テクノエッジ TechnoEdge

2014年から先端テクノロジーの研究を論文単位で記事にして紹介しているWebメディアのSeamless（シームレス）を運営し、執筆しています。今回の生成AI論文ピックアップでは、3億枚以上の人間画像データで学習した動く人を高精度に理解するMeta Reality Labsの「Sapiens」を取り上げます。生成AIウィークリー連載記事一覧 | テクノエッジ TechnoEdge 動く人間を詳細に理解できるMetaのビジョンモデル「Sapiens」、3億枚以上の人間画像データで学習この研究は、人間中心のビジョンモデルファミリー「Sapiens」について紹介しています。Sapiensは、0.3Bから2Bまで用意されており、2Dポーズ推定、身体パーツのセグメンテーション、深度推定、表面法線予測という4つの基本的な人間中心のビジョンタスクに対応しています。 Sapiensモデルは、3億枚以上の

misshiki 2024/08/30

“動く人間を詳細に理解できるMetaのビジョンモデル「Sapiens」、3億枚以上の人間画像データで学習”

リンク

Googleの新画像生成AI『ImageFX』が考える非実在日本アイドル史（1968～83）。超リアルだが全部偽物（CloseBox） | テクノエッジ TechnoEdge

非常に高性能な画像生成AI「ImageFX（Imagen 3）」の登場です。 FLUX.1がMidjourneyと並ぶ最高峰の画像生成AIとして注目を浴び始めてから2週間もたたないうちに、新しいAI画像サービスが、なんとGoogleから登場しました。それがImageFXです。 Googleは画像生成AIの新バージョンであるImagen 3をリリースしたばかりですが、この技術を使った「ImageFX」というサービスをGoogle AI Test Kitchenでスタートしています。これが生成する人物画像がとてもリアルだというので評判です。GeminiでもImagenを使った画像生成は可能なのですが、制限が厳しく、人物を含んだ画像の生成ができなくなっています。 ▲GeminiのImagenでは人物画像が生成できない ImageFXは、テキストプロンプトを入れると、4枚の画像が生成されるという仕

misshiki 2024/08/30

人工知能

リンク

自律AIが自律AIを改良し続ける自動設計システム「ADAS」発表。手動設計を大幅に上回る性能 | テクノエッジ TechnoEdge

2014年から先端テクノロジーの研究を論文単位で記事にして紹介しているWebメディアのSeamless（シームレス）を運営し、執筆しています。気になる生成AI 技術の論文を解説する連載、今回はAIがAIエージェントを自動設計して改善を続けて進化するシステム「ADAS」を紹介します。生成AIウィークリー | テクノエッジ TechnoEdge AIがAIエージェントを改善し続ける自動設計システム「ADAS」従来、強力な汎用エージェントの開発には、基盤モデルをエージェントシステムのモジュールとして組み込む手動設計が主流でした。本研究では、人間の介入なしにAIによって独創的で強力なAIエージェントシステムの設計を自動化する「ADAS」（Automated Design of Agentic Systems）という新たなアプローチを提案しています。 ADASのプロセスは以下のように進行します。ま

misshiki 2024/08/29

“本研究では、人間の介入なしにAIによって独創的で強力なAIエージェントシステムの設計を自動化する「ADAS」（Automated Design of Agentic Systems）という新たなアプローチを提案しています。”

人工知能

リンク

謎の音楽生成AI「LoudMe」登場。Suno激似で作曲し放題、日本語もOK（CloseBox） | テクノエッジ TechnoEdge

SunoとUdioの2強だったボーカル付きAI作曲サービスに新たなライバル「LoudMe」が登場しました。8月15日にプレスリリースが出ていたものの、あまり話題になっていなかったサービスですが、その実力は相当なもの。実際に試してその実力を探ってみることにします。ただ気になるポイントがいくつかあります。 ■謎企業による謎音楽生成AIサービスこうしたサービスを作るためには相当の研究成果と実行環境が必要です。LoudMeについてわかっているのは、プレスリリースの発信元がシンガポールになっていることからシンガポール企業ではないかと推測されることと、CEOの名前がMike Smithであることだけ。プロフィールについては不明です。 CEOの名前（よくある名前すぎる）や社名を検索しても出てこないのが不思議。さらに、Xの公式アカウントもなさそうなところとか、本気で売り出そうとしているのかも不明です。

misshiki 2024/08/23

“SunoとUdioの2強だったボーカル付きAI作曲サービスに新たなライバル「LoudMe」が登場しました。”

人工知能

リンク

生成AIグラビアをグラビアカメラマンが作るとどうなる？第30回：生成AI画像の本命がいきなり登場！？新型モデルFLUX.1 [dev]を使ってみる(西川和久) | テクノエッジ TechnoEdge

夏、浴衣、花火！夏、海！カメラ女子カフェ美女渋めのグラビア！砂浜でファッションショー！？如何だろうか！？ちょっと驚きのクオリティではないだろうか？SDXLを初めて見た時も思ったが、今回ははるかに超え、もはや実写。いつも話題になる指問題もあるにはあるが、率は低くなっており、カメラ女子の様な画像も簡単に作れるようになった。っと言っても、持ち方、カメラ、指…っと三つの要素があるので、それなりにガチャる必要はある。もう一つの特徴として、砂浜でファッションショー！？の様に、引きの構図でも顔や指などが解像度不足で崩れない。SD 1.5やSDXLではADetailerなどを使い、部分的にUpscale、力ずくで何とかしていたが、その必要は無くなった。利点としては処理時間の短縮、そしてdenoiseによる顔が変わったりする副作用から逃れることができる。 FLUX.1、肝心の肌色過多に関して

misshiki 2024/08/20

人工知能

リンク

アジア系に強い新世代動画生成AI「KLING」がやってきたので試した。実用性高く無料生成も可能、静止画KOLORSも使える（CloseBox） | テクノエッジ TechnoEdge

Soraに匹敵する高品質の動画生成AIとして注目を浴びながら、中国の携帯電話番号が必須だったことから世界中の羨望を集めていた、KLINGが一般ユーザーも利用可能になりました。ログインにはメールアドレスだけでよく、Webサイトのklingai.comにアクセスします。アプリのインストールは不要。主要機能は3つ。静止画生成（KOLORS）、動画生成（KLING）、そしてビデオ編集です。毎日使えるクレジット（ポイントは）66。動画生成では10ポイントを消費します。 ■KLINGを使ってみた早速使ってみました。まずはImage to Video。プロンプトを入れて、プロンプトへの準拠レベルを調整。現時点では10秒の生成はできないため、5秒のみ。高品質モードも使えない状態です。出来上がったのはこちら。さすがアジア系には強い感じで、不自然さはほとんどないです。Luma Dream Machin

misshiki 2024/07/25

“Soraに匹敵する高品質の動画生成AIとして注目を浴びながら、中国の携帯電話番号が必須だったことから世界中の羨望を集めていた、KLINGが一般ユーザーも利用可能になりました。”

人工知能

リンク

X / 旧Twitter、水鉄砲の絵文字を実銃に「修正」。Apple主導の武装解除から8年 | テクノエッジ TechnoEdge

X (旧Twitter) が、独自絵文字セットの「ピストル」を一般的な水鉄砲から、実銃のグラフィックに置き換えました。現在、モバイルアプリでは各社それぞれの絵文字セットによりおおむね明るい色の水鉄砲やオモチャの銃として表示されますが、ウェブのx.com では黒灰の銃身に茶のグリップを備えた拳銃のグリフになっています。ピストルの絵文字は2016年にAppleがiOSで水鉄砲に書き換えてから各社が追従し、2010年代末にはプラスチックの玩具を思わせる明るい色で、実際の拳銃とは離れたデザインが一般的になっていました。 Twitter の担当エンジニアによれば、この変更は「あるべき姿の復旧」。独自の絵文字グリフを実銃に戻すことで、いわばAppleに取り上げられた武装権を回復したといえます。絵文字、もしくは汎用規格のUnicodeとしての Emoji にはテキストによる抽象的な定義と参考の画像

misshiki 2024/07/25

“X (旧Twitter) が、独自絵文字セットの「ピストル」を一般的な水鉄砲から、実銃のグラフィックに置き換えました。”

考えさせられる

リンク

AIとの対話を長期記録してLLMの応答をパーソナライズする「Mem0」、オープンソースLLMを商用モデル精度で使用する方法など生成AI技術5つを解説（生成AIウィークリー） | テクノエッジ TechnoEdge

2014年から先端テクノロジーの研究を論文単位で記事にして紹介しているWebメディアのSeamless（シームレス）を運営し、執筆しています。 OpenAIは7月18日、安くて軽量なマルチモーダル大規模言語モデル「GPT-4o mini」をリリースしました。テキストや画像に対応し、Gemini FlashやClaude Haiku、GPT-3.5 Turboより精度が高く高速、それでいて安価なのが特徴です。 DeepLは、言語翻訳ならびに文章校正の特化型大規模言語モデルを実装したことを発表しました。言語専門家の評価では、Google翻訳よりも1.3倍、ChatGPT-4よりも1.7倍、Microsoft翻訳よりも2.3倍、DeepLの翻訳出力が好ましいと回答したといいます。さて、この1週間の気になる生成AI 技術をピックアップして解説する「生成AIウィークリー」（第56回）では、AIとユー

misshiki 2024/07/23

リンク

漫画の1コマから続く20コマ以上を作り出す物語生成AI「SEED-Story」、イラストの制作過程動画を生成するAI「PaintsUndo」など生成AI技術5つを解説（生成AIウィークリー） | テクノエッジ TechnoEdge

2014年から先端テクノロジーの研究を論文単位で記事にして紹介しているWebメディアのSeamless（シームレス）を運営し、執筆しています。この1週間の気になる生成AI 技術をピックアップして解説する「生成AIウィークリー」（第55回）では、1枚の完成したイラスト絵を入力に、そのイラストの制作過程のタイムラプス動画を生成する「PaintsUndo」や、画像とテキストをペアにした1コマを入力に、続きの物語を生成する「SEED-Story」などを取り上げます。生成AI論文ピックアップ 1枚の画像から3Dキャラクターを1分で生成するモデル「CharacterGen」音声と静止画の顔を入力に、話している動画を生成するAI「EchoMimic」漫画の1コマを入力に、続きのコマを作り出す物語生成AI「SEED-Story」 3次元データを活用した新しい画像マッチング技術「MASt3R」イラス

misshiki 2024/07/16

リンク

他人の顔でYouTuber？　写真内の顔を思うように動かして話をさせるAI「LivePortrait」を動画生成AI「KLING」開発元が発表など生成AI技術5つを解説（生成AIウィークリー） | テクノエッジ TechnoEdge

さて、この1週間の気になる生成AI 技術をピックアップして解説する「生成AIウィークリー」（第54回）では、KLINGを開発した快手が、画像内のキャラクターの顔を自在に動かす技術「LivePortrait」を発表しました。従来の類似技術と異なり、顔の表情や頭部の動きの1フレームを12.8ミリ秒で生成できる高速さが特徴です。動きの精度も高く、調和のとれた合成映像を生成します。生成AI論文ピックアップ静止画内の顔の表情や頭部をリアルに動かすAI「LivePortrait」、1フレーム0.01秒で動作を生成 “10億の人格”を活用して大規模合成データを生成する手法をテンセントが開発ナレッジグラフを用いて回答精度を向上させる、マイクロソフト開発のLLM拡張技術「GraphRAG」がGitHubに登場プロンプトの複雑さに応じ、強いLLMか弱いLLMかを自動選択するモデル「RouteLLM」ソ

misshiki 2024/07/09

リンク

生成AIグラビアをグラビアカメラマンが作るとどうなる？第27回：SD3 Mediumリリース！Part2(西川和久) | テクノエッジ TechnoEdge

現役グラビアカメラマンでありエンジニアでもある西川和久氏による生成AIグラビア連載の第27回は、前回に続いて最新の画像生成AIモデル Stable Diffusion 3 Medium について。『生成AIグラビアをグラビアカメラマンが作るとどうなる？連載』記事一覧』前回に引き続きStable Diffusion 3 Mediumの話連載第26回にSD3 Medium(以降SD3 Medium)の話を書いたが、今回はその続きとなる。前回の記事ではSD3 Mediumの特徴として Baseモデルなのに高画質。そして日本人含むアジア系もOK 商用利用不可。個人レベルでの商用利用は、クリエイターライセンス($20/月)を契約結構な頻度で致命的な問題が発生する Promptで左右など、位置関係が指示でき再現可能。文字もOK(英語のみ) 生成環境は現状でComfyUI(系)のみ。基本Work

misshiki 2024/07/02

“最新の画像生成AIモデル Stable Diffusion 3 Medium について。”

リンク

AI生成の動画を“5倍以上長く”する拡張モデル「ExVideo」、無音動画に“それっぽい音”を挿入できる「FoleyCrafter」など生成AI技術5つを解説（生成AIウィークリー） | テクノエッジ TechnoEdge

Googleがオープンな言語モデル「Gemma 2」を開発者向けに公開しました。90億パラメータと270億パラメータの2サイズを提供しています。さて、この1週間の気になる生成AI 技術をピックアップして解説する「生成AIウィークリー」（第53回）では、生成する動画時間の延長や無音ビデオに適した音を生成するなど動画AIに関する内容が盛りだくさんです。生成AI論文ピックアップ既存のAIが生成する動画の時間を長くするモデル「ExVideo」、Stable Video Diffusion生成動画を5倍以上の長さに拡張言語より視覚に重きを置く、オープンなマルチモーダル大規模言語モデル「Cambrian-1」はGPT-4VやGemini Proと同等レベルイベントカメラを使用するAIビデオ超解像技術「EvTexture」、特にテクスチャ領域で画質向上長い動画を理解できるオープンソースなAIモ

misshiki 2024/07/01

リンク

はてなブックマーク

タグ

ブックマーク / www.techno-edge.net (140)

お知らせ

月間はてなブックマーク数ランキング（2024年9月）

今週のはてなブックマーク数ランキング（2024年9月第5週）

今週のはてなブックマーク数ランキング（2024年9月第4週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス