タグ

ブックマーク / ascii.jp (15)

  • 画像生成AI「FLUX.1」が相当ヤバい LoRAで画風の再現も簡単に (1/5)

    画像生成AI「Stable Diffusion」開発者たちが突然発表した新モデル「FLUX.1」、これが楽しすぎてはまりこんでいます。私の業はゲーム会社。出展を予定している東京ゲームショウまで1ヵ月で、やらないといけないことが山積みなのに、FLUX.1が面白すぎて魅力に抗えません。 わずか30分の学習で画風が安定 FLUX.1が決定的に変えてきそうなのはLoRAです。LoRAは学習済みのウェイトモデルを利用することで、少ない枚数であっても学習ができるということで、画像生成AIの分野では広く普及している手法です。FLUX.1は、Stable Diffusionで使われてきたLoRAの方法論を動かすことができることがわかっています。 そのため、FLUX.1のリリース後、ユーザーコミュニティーでさっそくLoRAの環境の整備が始まり、何ができるのかを試すフェーズに入っています。これまでの「Sta

    画像生成AI「FLUX.1」が相当ヤバい LoRAで画風の再現も簡単に (1/5)
    jp-myk
    jp-myk 2024/09/03
  • 「あはは」も再現? 味気ないAIとのおしゃべりを豊かにする音声対話技術

    若手ディープテック研究者の育成を支援する産業技術総合研究所(産総研)の「覚醒プロジェクト」。この連載では、2023年度の覚醒プロジェクトに採択された研究者の研究内容を紹介する。 今回は、表現力豊かな音声合成技術の開発に取り組む、東京大学大学院の中田 亘さん、関 健太郎さんのチームを取り上げる。代表の中田さんに話を聞いた。 研究実施者:中田 亘、関 健太郎(東京大学大学院) 研究テーマ:音声対話システムにおける表現力豊かな音声合成のためのデータセット整備と大規模言語モデルの言語知識の活用 担当PM:谷中 瞳(東京大学大学院 情報理工学系研究科 准教授(卓越研究員)) 無機質な音声を表現力のある声にどう近づけるか スマホやスマート・スピーカーに話しかけると音声で応えてくれるSiriやAlexaといった音声アシスタントは、今や日常的に使われている。だが、その声はというと明らかに人工的で、どこか無

    「あはは」も再現? 味気ないAIとのおしゃべりを豊かにする音声対話技術
    jp-myk
    jp-myk 2024/08/25
  • アップル、高度な言語理解を持つ新型AIモデル「MM1」を発表

    アップルの研究チームは3月14日、画像とテキストを理解し処理する能力を持つマルチモーダル大規模言語モデル「MM1」を発表した。今のところ論文のみの公開で、一般公開の時期は明かされていない。 一部ベンチマークではGPT-4Vをも凌ぐ性能を発揮 複数(30億、70億、300億)のパラメータサイズを備えるMM1は、10億以上の画像および30兆語以上のテキスト、GitHubのコード例などの多様なデータセットを用い、教師なし学習と教師あり学習を組み合わせる独自の方法で学習され、多様なタスクに対して高い精度を示すという。 各種ベンチマークの結果によると、30億および70億パラメーターのモデルはそれぞれのモデルサイズにおいて過去最高を記録。特にVQAv2(画像理解)、TextVQA(画像内のテキスト情報)、ScienceQA(科学知識)、MMBench(マルチモーダル)、MathVista(数学)などの

    アップル、高度な言語理解を持つ新型AIモデル「MM1」を発表
    jp-myk
    jp-myk 2024/03/19
  • 日本語に強く、たった130億パラメーター NECが作った国産LLMの価値 (1/2)

    NECは、130億パラメーターという軽量化を実現した独自の日語大規模言語モデル(LLM)を発表した。NEC Corporate EVP兼CTOの西原基夫氏は、「世界トップクラスの日語性能を有する、軽量なLLMを開発することに成功した。すでにNEC社内で利用を開始しており、文書作成や社内システム開発におけるソースコード作成業務など、さまざまな作業の効率化に応用している」とアピールした。 構想4年、開発2年で全社を挙げて仕上げた独自LLM ChatGPTをはじめとする生成AIは、急速な勢いで活用が進んでいるが、既存のLLMのほとんどは英語を中心に学習しており、高い日語性能を有しつつ、各業種の業務で活用するためのカスタマイズが可能なLLMはほぼない状況にある。NECでは、自社で独自のLLMを開発することにより、日の企業における生成AIのビジネス活用をより加速させ、企業の生産性向上に貢献す

    日本語に強く、たった130億パラメーター NECが作った国産LLMの価値 (1/2)
    jp-myk
    jp-myk 2023/07/11
  • グーグル、高クオリティかつ高速なテキスト画像生成モデル「Muse」を発表

    グーグルは1月2日、従来のモデルよりも大幅に効率的でありながら、最先端の画像生成性能をもつテキスト画像AI生成モデル「Muse」を発表した。 競合モデルと同クオリティかつ超高速化 近年「Stable Diffusion」やOpenAIの「DALL-E 2」など、テキストから画像を生成するAIは驚くべき進化を見せている。グーグルもすでに「Imagen」と「Parti」という画像生成AIを発表しているが、「Muse」はそのどれとも異なる新しいモデルだ。

    グーグル、高クオリティかつ高速なテキスト画像生成モデル「Muse」を発表
    jp-myk
    jp-myk 2023/01/06
  • OpenStackのファイル共有サービス「Manila」とは?ネットアップに聞く

    ネットアップが創設した「OpenStack Manila」プロジェクトは、OpenStackをベースとしたオープンソースの共有ファイルサービスになる。「OpenStack Summit 2015」の開催とあわせて来日したジョナサン・キサーネ氏とロバート・エスカー氏にプロジェクトの概要を聞いた。(インタビュアー TECH.ASCII.jp大谷) クラウドアプリケーションに最適なOpenStackファイルサービス 大谷:Manilaプロジェクトが生まれたきっかけを教えてください。 キサーネ氏:クラウドは現在のビジネスにおいて大きなパラダイムシフトだ。これを利用するにあたっては、さまざまなOSSやITインフラの選択肢があり、OpenStackはその基盤になるものだ。パブリックやプライベートのクラウドを利用するのにあたって、お客様のワークロードは負荷になってきている。こうした中、Manilaのプロ

    OpenStackのファイル共有サービス「Manila」とは?ネットアップに聞く
    jp-myk
    jp-myk 2019/08/08
  • ヤフー「PowerEdge R6415」導入、日本のISPで初のEPYCユーザーに

    AMDは4月4日、ヤフーがDell EMC「PowerEdge R6415」サーバーを導入したと発表した。 PowerEdge R6415はAMDのサーバー向けCPU「EPYC 7551P」プロセッサーを搭載する1Uサイズのシングルソケット・サーバー・ソリューション。最大で10枚のPCIe NVMe SSDと、2TBのメモリーを搭載できる。AMDによると、ヤフーがEPYC 7000リーズ・プロセッサーを導入する日初のインターネット・サービス・プロバイダーだという。

    ヤフー「PowerEdge R6415」導入、日本のISPで初のEPYCユーザーに
    jp-myk
    jp-myk 2018/04/04
  • ASCII.jp:Twitterのライバル? 実は、新しい「マストドン」(Mastodon)とは!|遠藤諭のプログラミング+日記

    ドイツの24歳の若者が作った 日テレビで『週刊パソコン丼』という番組をやらせてもらっていたことがあった。当時やっていた月刊アスキーがページ数的にパツンパツンなので、テレビにまではみ出した感じだった。ちょうどインターネットが使われはじめたタイミングの'96年~'97年、深夜時間帯の情報番組である。その中に、「私とパソコン」という30秒ほどのユーザー訪問コーナーがあった。 古谷徹さん、いしかわじゅんさん、チャック・ウィルソンさん、爆笑問題、谷山浩子さん、杉田かおるさん、ヒロコ・グレースさん、渡辺香津美さんなど、実に、たくさんの方々に出演いただいたのだが(約90人)、先日、そのうち何かを見ていたら、『サクラ大戦』シリーズなどで有名な広井王子さんの回があった。 モバイルギア(NECが発売していたフルキーボード端末)を取り出した広井氏は、「これからのコンピューターの使い方」と断った上で、「デジカ

    ASCII.jp:Twitterのライバル? 実は、新しい「マストドン」(Mastodon)とは!|遠藤諭のプログラミング+日記
    jp-myk
    jp-myk 2017/04/26
  • グーグルDeepMind、次世代人工知能技術「ディファレンシャブル・ニューラル・コンピューター」を発表

    ディープマインド(DeepMind)は10月12日、次世代の人工知能技術として「ディファレンシャブル・ニューラル・コンピューター(Differentiable Neural Computers:DNC)」を発表した。 ディープマインドは人工知能AlphaGoによって囲碁世界チャンピオンを打ち負かしたことが記憶に新しいグーグルAI研究チーム。近年ではコンピューター・ゲームのルールを自分で学びクリアする「DQN(Deep Q-Network)」を発表している。新AI技術のDNC(機械式計算機として名高いバベッジのディファレンシャル・エンジンを連想させる名前)は、DQNの技術を更に進化させたアーキテクチャを採用し、既存ディープラーニングよりも学習精度や汎用性が高いAI技術のようだ。

    グーグルDeepMind、次世代人工知能技術「ディファレンシャブル・ニューラル・コンピューター」を発表
    jp-myk
    jp-myk 2016/10/15
  • 豊橋技科大、日本MS、BBTが機械学習による自動翻訳でコラボ

    具体的には、豊橋技科大はデータ収集時における分野(ドメイン)ごとの重要語句抽出や分類、さらに匿名化/非識別化などによるサービス利用者からの安全なプライベートデータ提供のフレームワーク構築を行う。日MSは、ビッグデータ蓄積と機械学習処理、機械翻訳エンジンなどの基盤として「Microsoft Azure」クラウドを提供する。BBTは新会社エーアイスクエアを設立し、高精度の機械翻訳を活用した企業向けサービス開発(Webサイト自動翻訳、コールセンターなど)とビジネス展開を行う。 なお、マイクロソフトはすでに、50の言語に対応した機械翻訳エンジン「Microsoft Translator」をはじめとして、音声認識や言語認識、言語分析などのAPI群を「Microsoft Cognitive Services」として提供している。今回の取り組みにおいてもこれは活用される予定だが、収集したデータ(対訳コ

    豊橋技科大、日本MS、BBTが機械学習による自動翻訳でコラボ
    jp-myk
    jp-myk 2016/06/24
  • 国内販売は?音声認識&人工知能のAlexaで生まれる未来

    6月2日、AWS Summitの2日目のDeveloper Conference会場では、音声認識プラットフォームである「Amazon Echo&Alexa」のセッションが行なわれた。日で未発売のAmazon Echoだが、開発者の関心は高く、音声と連携したサービスの新時代を予感させた。 Amazonは音声こそが将来と信じている 今回、Amazon Echo&Alexaのセッションを担当するAVS(Alexa Voice Services)のシニアエバンジェリストであるアミット・ジョトワニ氏は、会場に対して「Hello Alexa!」を呼びかける。カウントダウンと共に会場がAlexaを呼び出すと、Alexa英語で「こんにちは。会場のみなさんは楽しそうですね」と挨拶する。 ジョトワニ氏は、まず「タッチインターフェイスの時代は過去の時代のものになる」という記事を引用し、音声インターフェイス

    国内販売は?音声認識&人工知能のAlexaで生まれる未来
    jp-myk
    jp-myk 2016/06/04
  • スマホと組むと便利になる、Googleの知られざる検索機能

    Google検索の15年に渡る進化の過程には、公にはプレス発表されないようなマイナーチャンジが意外と多い。でも知っているとすごく便利なのに……と言うわけで、Google検索の新機能と年末年始に役立つティップスを、グーグルの開発エンジニア自らがレクチャーする会があると聞いて行ってきました。 「完璧な検索エンジンは、検索の意図を理解し、意図に沿って欲しい情報を提供する」とはグーグルの最高経営責任者、ラリー・ペイジの言葉。「もしかして:」検索(現在では「次の検索結果を表示しています:」に変更)が始まり、その後、音声検索やナレッジグラフなど、検索がよりユーザーに歩み寄りモノとモノの関係性を理解して提示するように進化しているという。 「答える」「話す」「先回り」など、検索がアシスタントの役割を担うように開発を進めているという。

    スマホと組むと便利になる、Googleの知られざる検索機能
    jp-myk
    jp-myk 2014/12/19
  • ボカロじゃない音声合成ソフト「CeVIO」ってなんぞ!? (3/4)

    元気、怒り、哀しみの感情を手軽に調整できる ── CeVIO Creative Studioも、MMDAgentと関連しているんですか? 加藤 文章から音声を合成する「Open JTalk」や声に感情を付ける「HTS」といったボイスエンジン部分は共通しています。ものすごく簡単に説明すると、ボーカロイドとボイスロイドを足したようなソフトです。声質やスピード、大きさなどのパラメーターなどを調整することで無限の声質を作り出せます。 ── ボーカロイドとの違いは? 加藤 特徴は、感情値がパラメーター化されていていることです。元気/怒り/哀しみという3種類を操作することで、テキストや歌声で感情を表現できます。あとは我々は「音素グラフ」と名付けていますが、母音子音の単位で音量/強さ/トーンをいじることもできます。母音子音を分けて調整できるので、表現の幅がより広い。ひとつの音符に複数の単語を入られるとか

    ボカロじゃない音声合成ソフト「CeVIO」ってなんぞ!? (3/4)
    jp-myk
    jp-myk 2014/10/27
  • 実録!HTML5でモバイルWebアプリ開発

    スマートフォンの流行でいま注目を集めるモバイルWebアプリ開発。関西発のイノベーションカンパニー「マインドフリー」の開発チームが、WebSocketやHTML5 Canvasといった最新技術を使ったモバイルWebアプリ開発のポイントを解説します。

    実録!HTML5でモバイルWebアプリ開発
  • 古籏一浩のJavaScriptラボ

    活躍の舞台をどんどん広げているJavaScript連載では、JavaScript関連書の執筆でおなじみの古籏一浩氏が、最新の活用Tipsから今後注目のAjax/JavaScriptライブラリーの解説まで、“楽しくできて役立つネタ”をお届けします。

    古籏一浩のJavaScriptラボ
  • 1