jp-mykのブックマーク - はてなブックマーク

画像生成AIの進化が早すぎる　2024年に起きたことまとめ (1/4)

AIで生成した画像を動画にできるようになった。当連載のオリジナルキャラクター「明日来子さん」にメガネをかけてもらったところ。レンズの屈折まで反映されている（hailuo AIで作成） 2024年、画像生成AIに起きたことを振り返ってみます。今年もすさまじいペースで物事が動きました。今年起きたことに注目するなら、高精細化と高品質化が進む一方、一貫性をいかに実現するのかがポイントでした。一貫性技術は、動画生成AI分野の拡大をもたらし、さらに、3D化の実現までも可能性として見せはじめました。それぞれの技術はお互いに影響を与えつつ、別々に進化し、より専門化が進んでいます。この連載によく登場してくる作例のキャラクター「明日来子さん」を通じて、どのように技術変化が進んだのかを見ていきましょう。 ※記事配信先の設定によっては図版や動画等が正しく表示されないことがあります。その場合はASCII.jpをご覧

jp-myk 2024/12/09

リンク

画像生成AI「FLUX.1」が相当ヤバい　LoRAで画風の再現も簡単に (1/5)

画像生成AI「Stable Diffusion」開発者たちが突然発表した新モデル「FLUX.1」、これが楽しすぎてはまりこんでいます。私の本業はゲーム会社。出展を予定している東京ゲームショウまで1ヵ月で、やらないといけないことが山積みなのに、FLUX.1が面白すぎて魅力に抗えません。わずか30分の学習で画風が安定 FLUX.1が決定的に変えてきそうなのはLoRAです。LoRAは学習済みのウェイトモデルを利用することで、少ない枚数であっても学習ができるということで、画像生成AIの分野では広く普及している手法です。FLUX.1は、Stable Diffusionで使われてきたLoRAの方法論を動かすことができることがわかっています。そのため、FLUX.1のリリース後、ユーザーコミュニティーでさっそくLoRAの環境の整備が始まり、何ができるのかを試すフェーズに入っています。これまでの「Sta

jp-myk 2024/09/03

リンク

「あはは」も再現？味気ないAIとのおしゃべりを豊かにする音声対話技術

若手ディープテック研究者の育成を支援する産業技術総合研究所（産総研）の「覚醒プロジェクト」。この連載では、2023年度の覚醒プロジェクトに採択された研究者の研究内容を紹介する。今回は、表現力豊かな音声合成技術の開発に取り組む、東京大学大学院の中田亘さん、関健太郎さんのチームを取り上げる。代表の中田さんに話を聞いた。研究実施者：中田亘、関健太郎（東京大学大学院）研究テーマ：音声対話システムにおける表現力豊かな音声合成のためのデータセット整備と大規模言語モデルの言語知識の活用担当PM：谷中瞳（東京大学大学院情報理工学系研究科准教授（卓越研究員））無機質な音声を表現力のある声にどう近づけるかスマホやスマート・スピーカーに話しかけると音声で応えてくれるSiriやAlexaといった音声アシスタントは、今や日常的に使われている。だが、その声はというと明らかに人工的で、どこか無

jp-myk 2024/08/25

リンク

アップル、高度な言語理解を持つ新型AIモデル「MM1」を発表

アップルの研究チームは3月14日、画像とテキストを理解し処理する能力を持つマルチモーダル大規模言語モデル「MM1」を発表した。今のところ論文のみの公開で、一般公開の時期は明かされていない。一部ベンチマークではGPT-4Vをも凌ぐ性能を発揮複数（30億、70億、300億）のパラメータサイズを備えるMM1は、10億以上の画像および30兆語以上のテキスト、GitHubのコード例などの多様なデータセットを用い、教師なし学習と教師あり学習を組み合わせる独自の方法で学習され、多様なタスクに対して高い精度を示すという。各種ベンチマークの結果によると、30億および70億パラメーターのモデルはそれぞれのモデルサイズにおいて過去最高を記録。特にVQAv2（画像理解）、TextVQA（画像内のテキスト情報）、ScienceQA（科学知識）、MMBench（マルチモーダル）、MathVista（数学）などの

jp-myk 2024/03/19

リンク

日本語に強く、たった130億パラメーター　NECが作った国産LLMの価値 (1/2)

NECは、130億パラメーターという軽量化を実現した独自の日本語大規模言語モデル（LLM）を発表した。NEC Corporate EVP兼CTOの西原基夫氏は、「世界トップクラスの日本語性能を有する、軽量なLLMを開発することに成功した。すでにNEC社内で利用を開始しており、文書作成や社内システム開発におけるソースコード作成業務など、さまざまな作業の効率化に応用している」とアピールした。構想4年、開発2年で全社を挙げて仕上げた独自LLM ChatGPTをはじめとする生成AIは、急速な勢いで活用が進んでいるが、既存のLLMのほとんどは英語を中心に学習しており、高い日本語性能を有しつつ、各業種の業務で活用するためのカスタマイズが可能なLLMはほぼない状況にある。NECでは、自社で独自のLLMを開発することにより、日本の企業における生成AIのビジネス活用をより加速させ、企業の生産性向上に貢献す

jp-myk 2023/07/11

リンク

グーグル、高クオリティかつ高速なテキスト画像生成モデル「Muse」を発表

グーグルは1月2日、従来のモデルよりも大幅に効率的でありながら、最先端の画像生成性能をもつテキスト画像AI生成モデル「Muse」を発表した。競合モデルと同クオリティかつ超高速化近年「Stable Diffusion」やOpenAIの「DALL-E 2」など、テキストから画像を生成するAIは驚くべき進化を見せている。グーグルもすでに「Imagen」と「Parti」という画像生成AIを発表しているが、「Muse」はそのどれとも異なる新しいモデルだ。

jp-myk 2023/01/06

リンク

OpenStackのファイル共有サービス「Manila」とは？ネットアップに聞く

ネットアップが創設した「OpenStack Manila」プロジェクトは、OpenStackをベースとしたオープンソースの共有ファイルサービスになる。「OpenStack Summit 2015」の開催とあわせて来日したジョナサン・キサーネ氏とロバート・エスカー氏にプロジェクトの概要を聞いた。（インタビュアー　TECH.ASCII.jp大谷）クラウドアプリケーションに最適なOpenStackファイルサービス大谷：Manilaプロジェクトが生まれたきっかけを教えてください。キサーネ氏：クラウドは現在のビジネスにおいて大きなパラダイムシフトだ。これを利用するにあたっては、さまざまなOSSやITインフラの選択肢があり、OpenStackはその基盤になるものだ。パブリックやプライベートのクラウドを利用するのにあたって、お客様のワークロードは負荷になってきている。こうした中、Manilaのプロ

jp-myk 2019/08/08

リンク

ヤフー「PowerEdge R6415」導入、日本のISPで初のEPYCユーザーに

AMDは4月4日、ヤフーがDell EMC「PowerEdge R6415」サーバーを導入したと発表した。 PowerEdge R6415はAMDのサーバー向けCPU「EPYC 7551P」プロセッサーを搭載する1Uサイズのシングルソケット・サーバー・ソリューション。最大で10枚のPCIe NVMe SSDと、2TBのメモリーを搭載できる。AMDによると、ヤフーがEPYC 7000リーズ・プロセッサーを導入する日本初のインターネット・サービス・プロバイダーだという。

jp-myk 2018/04/04

リンク

ASCII.jp：Twitterのライバル？　実は、新しい「マストドン」（Mastodon）とは！｜遠藤諭のプログラミング＋日記

ドイツの24歳の若者が作った日本テレビで『週刊パソコン丼』という番組をやらせてもらっていたことがあった。当時やっていた月刊アスキーがページ数的にパツンパツンなので、テレビにまではみ出した感じだった。ちょうどインターネットが使われはじめたタイミングの'96年~'97年、深夜時間帯の情報番組である。その中に、「私とパソコン」という30秒ほどのユーザー訪問コーナーがあった。古谷徹さん、いしかわじゅんさん、チャック・ウィルソンさん、爆笑問題、谷山浩子さん、杉田かおるさん、ヒロコ・グレースさん、渡辺香津美さんなど、実に、たくさんの方々に出演いただいたのだが（約90人）、先日、そのうち何本かを見ていたら、『サクラ大戦』シリーズなどで有名な広井王子さんの回があった。モバイルギア（NECが発売していたフルキーボード端末）を取り出した広井氏は、「これからのコンピューターの使い方」と断った上で、「デジカ

jp-myk 2017/04/26

リンク

グーグルDeepMind、次世代人工知能技術「ディファレンシャブル・ニューラル・コンピューター」を発表

ディープマインド（DeepMind）は10月12日、次世代の人工知能技術として「ディファレンシャブル・ニューラル・コンピューター（Differentiable Neural Computers：DNC)」を発表した。ディープマインドは人工知能 Alpha Goによって囲碁世界チャンピオンを打ち負かしたことが記憶に新しいグーグルのAI研究チーム。近年ではコンピューター・ゲームのルールを自分で学びクリアする「DQN（Deep Q-Network）」を発表している。新AI 技術のDNC（機械式計算機として名高いバベッジのディファレンシャル・エンジンを連想させる名前）は、DQNの技術を更に進化させたアーキテクチャを採用し、既存ディープラーニングよりも学習精度や汎用性が高いAI 技術のようだ。

jp-myk 2016/10/15

リンク

豊橋技科大、日本MS、BBTが機械学習による自動翻訳でコラボ

具体的には、豊橋技科大はデータ収集時における分野（ドメイン）ごとの重要語句抽出や分類、さらに匿名化／非識別化などによるサービス利用者からの安全なプライベートデータ提供のフレームワーク構築を行う。日本MSは、ビッグデータ蓄積と機械学習処理、機械翻訳エンジンなどの基盤として「Microsoft Azure」クラウドを提供する。BBTは新会社エーアイスクエアを設立し、高精度の機械翻訳を活用した企業向けサービス開発（Webサイト自動翻訳、コールセンターなど）とビジネス展開を行う。なお、マイクロソフトはすでに、50の言語に対応した機械翻訳エンジン「Microsoft Translator」をはじめとして、音声認識や言語認識、言語分析などのAPI群を「Microsoft Cognitive Services」として提供している。今回の取り組みにおいてもこれは活用される予定だが、収集したデータ（対訳コ

jp-myk 2016/06/24

リンク

国内販売は？音声認識＆人工知能のAlexaで生まれる未来

6月2日、AWS Summitの2日目のDeveloper Conference会場では、音声認識プラットフォームである「Amazon Echo＆Alexa」のセッションが行なわれた。日本で未発売のAmazon Echoだが、開発者の関心は高く、音声と連携したサービスの新時代を予感させた。 Amazonは音声こそが将来と信じている今回、Amazon Echo＆Alexaのセッションを担当するAVS（Alexa Voice Services）のシニアエバンジェリストであるアミット・ジョトワニ氏は、会場に対して「Hello Alexa！」を呼びかける。カウントダウンと共に会場がAlexaを呼び出すと、Alexaは英語で「こんにちは。会場のみなさんは楽しそうですね」と挨拶する。ジョトワニ氏は、まず「タッチインターフェイスの時代は過去の時代のものになる」という記事を引用し、音声インターフェイス

jp-myk 2016/06/04

リンク

スマホと組むと便利になる、Googleの知られざる検索機能

Google検索の15年に渡る進化の過程には、公にはプレス発表されないようなマイナーチャンジが意外と多い。でも知っているとすごく便利なのに……と言うわけで、Google検索の新機能と年末年始に役立つティップスを、グーグルの開発エンジニア自らがレクチャーする会があると聞いて行ってきました。「完璧な検索エンジンは、検索の意図を理解し、意図に沿って欲しい情報を提供する」とはグーグルの最高経営責任者、ラリー・ペイジの言葉。「もしかして：」検索（現在では「次の検索結果を表示しています:」に変更）が始まり、その後、音声検索やナレッジグラフなど、検索がよりユーザーに歩み寄りモノとモノの関係性を理解して提示するように進化しているという。「答える」「話す」「先回り」など、検索がアシスタントの役割を担うように開発を進めているという。

jp-myk 2014/12/19

リンク

ボカロじゃない音声合成ソフト「CeVIO」ってなんぞ!? (3/4)

元気、怒り、哀しみの感情を手軽に調整できる ──　CeVIO Creative Studioも、MMDAgentと関連しているんですか？加藤　文章から音声を合成する「Open JTalk」や声に感情を付ける「HTS」といったボイスエンジン部分は共通しています。ものすごく簡単に説明すると、ボーカロイドとボイスロイドを足したようなソフトです。声質やスピード、大きさなどのパラメーターなどを調整することで無限の声質を作り出せます。 ──　ボーカロイドとの違いは？加藤　特徴は、感情値がパラメーター化されていていることです。元気／怒り／哀しみという3種類を操作することで、テキストや歌声で感情を表現できます。あとは我々は「音素グラフ」と名付けていますが、母音子音の単位で音量／強さ／トーンをいじることもできます。母音子音を分けて調整できるので、表現の幅がより広い。ひとつの音符に複数の単語を入られるとか