DMMボイスは、AI技術を活用した音声生成サービスです。 本サービスの特徴である多彩なボイスモデルから声を選ぶことで、感情あふれるセリフを自在に表現。ドラマティックなシーンのアフレコから心に響くナレーションまで、幅広いシーンにご活用いただけます。
AI翻訳アプリが主流の時代に、あえて専用端末で挑む。日本発のAI通訳機ポケトークは、教育現場から公共サービスまで、アメリカ市場で急成長を遂げている。 5年ぶりの新モデル ソースネクスト傘下のポケトークは5年ぶりとなる新機種「ポケトークS2」を10月15日に発表した。新機種は、双方向自動翻訳機能を搭載し、世界170以上の国と地域で使用可能なAI通訳機だ。従来のモデルからの大きな変更点は、特に法人や公共機関のニーズに応える形でセキュリティや管理機能が強化されている点だ。ユーザーインターフェースの改善やバッテリー寿命の延長など、実用面での若干の向上も図られている。また、AI技術の進歩により、翻訳の品質も徐々に向上しているという。 興味深いのは、処理性能に関しては5年前の前世代機種と大きな違いがないという点だ。前世代機種にも継続してソフトウェアアップデートを提供しており、サービス利用料を支払えば、
この本では、初心者・入門者の方に向けて、RAGの知識や使い方を体系的にまとめました。少し難易度の高い内容になりますが、本書の中で事前に学んでおくべき項目を示しているため、ご安心ください。 【概要】 ・内容:RAGの概要【入門者向けの基礎知識】、RAGの処理フロー【In-Context Learning / Embedding / Vector Search】、RAGのビジネス活用ロードマップ【大企業向け】、RAGの実装アプローチ、RAGの大分類【Document RAG】、RAGの大分類【SQL RAG】、RAGの大分類【Graph RAG】、RAGの精度評価アプローチ、RAGの精度評価方法【LangChain Evaluation】、RAGの精度評価方法【Ragas】、RAGの精度改善手法【データ品質 / プロンプト品質 / ベクトル検索】、RAGの精度改善のためのLLMOps概論、LL
こんにちは。ストックマークのリサーチャーの広田です。今日は私が新しく立ち上げた GraphRAG プロジェクトの仲間を募集するために、GraphRAG プロジェクトについて紹介したいと思います。 広田航 Researcher 大阪大学大学院情報科学研究科を卒業後、米国に渡り Megagon Labs で Conversational AI や entity matching の研究を行う。その後帰国しストックマークに参画。現在はナレッジグラフ構築や LLM を活用した情報抽出の研究を行う。 まず GraphRAG プロジェクトの背景を紹介したいと思います。 ストックマークは「価値創造の仕組みを再発明し人類を前進させる」というミッションを掲げ、「AIと人による新しい価値創造プロセスを発明する」を目指して Research Unit を組成しています。情報の量が急激に増えている現代において、情
メタが提供しているAIモデル「Llama 3.1」を活用したアプリ開発ツール「LlamaCoder」が人気を集めている。 LlamaCoderは、AI企業のTogether AIが開発したオープンソースのウェブアプリケーション。「計算機アプリを作って」といった指示を与えるだけで、フルスタックのアプリケーションを生成する。メタのLlama 3.1 405Bモデルを基盤に、Together AIのLLM推論技術を活用している。 メタによれば、LlamaCoderはリリースからわずか1ヵ月余りで、GitHubで2000以上のスターを獲得し、数百人の開発者がリポジトリをクローンした。さらに、20万以上のアプリがLlamaCoderを使用して生成されたという。 Together AIの開発者関係責任者であるHassan El Mghari氏は、「開発者たちはこれを気に入っています。クイズアプリ、ポモ
画像生成AIが誰でも使えるようになってだいぶ時間が経過し、一般化、産業化が進んでいます。先日はAmazon Web Service(AWS)のAIフルマネージドAPIホスティングサービス「Amazon Bedrock」で、Stability AIの画像生成AIモデル「Stable Image Ultra」、「Stable Diffusion 3 Large」、「Stable Image Core」が利用できるようになりました。時代はAI活用の方向へ加速しています。 【画像】「漫画風の絵コンテを作ってくれるAIアプリ」が生成した絵コンテ このような流れの中で、我々もAIを使ってもっと楽しく、もっと創造的になっていけるのではないでしょうか? 今回はAIを使ったアプリ制作を通じて感じた未来について語りたいと思います。 ■ 多様なモデルとAPI 従来はゲーミングPCのようなGPU搭載PCを使って利
はじめに ソースコードをLLMに読んでもらうとき、単一ファイルだと楽なのですが、GitHubのリポジトリのように複数ファイルから構成されるプロジェクトだと困ってしまいますね。 リポジトリごとLLMに読んでもらえるようにいい感じにテキスト化できると良いですね。そんなソフトがありました。しかも2つ。 両方ともほとんどコンセプトは同じです。特に後者のgenerate-project-summaryは使い方も含めて、自分のやりたいことが、すでに開発者の清水れみおさんが以下の記事にまとめていました。 なので、あんまり書く必要ないのですが、せっかくなのでgpt-repository-loaderの使い方と、出力したファイルの別の活用方法について書いてみたいと思います。 gpt-repository-loaderでリポジトリをテキストに変換 使い方はREADMEに書いてあります。シンプルなソフトなので、
非常に高性能な画像生成AI「ImageFX(Imagen 3)」の登場です。 FLUX.1がMidjourneyと並ぶ最高峰の画像生成AIとして注目を浴び始めてから2週間もたたないうちに、新しいAI画像サービスが、なんとGoogleから登場しました。それがImageFXです。 Googleは画像生成AIの新バージョンであるImagen 3をリリースしたばかりですが、この技術を使った「ImageFX」というサービスをGoogle AI Test Kitchenでスタートしています。これが生成する人物画像がとてもリアルだというので評判です。GeminiでもImagenを使った画像生成は可能なのですが、制限が厳しく、人物を含んだ画像の生成ができなくなっています。 ▲GeminiのImagenでは人物画像が生成できない ImageFXは、テキストプロンプトを入れると、4枚の画像が生成されるという仕
Sakana AI、科学論文の調査から作成、レビューまですべてAIが自動で実行するThe AI Scientistを発表 Sakana AIは2024年8月13日、大規模言語モデル (LLM) を複数組み合わせてアイデアの生成、必要なコードの記述、実験の実行/結果の要約、視覚化、レビューまで、論文作成のライフサイクル全体を自動化するAI駆動型の論文作成システム「The AI Scientist」を発表した。 The AI Scientist: Towards Fully Automated Open-Ended Scientific Discovery 「AIサイエンティスト」: AIが自ら研究する時代へ(上記ブログの日本語訳) Introducing The AI Scientist: The world’s first AI system for automating sc
Preferred Networksの岡野原氏が、「LLMの最前線と今後の展望」というテーマで、LLMの現状と今後について話をしました。全2回。 岡野原大輔氏の自己紹介 岡野原大輔氏:今日は、たくさん資料を用意しているので、少し巻きでどんどんいきたいと思います。 さっそく自己紹介をできればと思います。(スライドを示して)私はPreferred Networksの岡野原と申します。西川と一緒に会社を経営し、もう15年ですかね。Preferred Networksという会社としては、今年10周年を迎えました。 私自身は、今、「Twitter(現X)」で@hillbigという名前で、よくいろいろな論文をツイート(ポスト)をしているので、それで知っている方もいるかもしれません。そういった最先端の研究の状況を追いながら自分たちも作って、それを社会実装していく製品、サービスなどを作っていく部分に力を入
■記事の対象ユーザ 1.SDXLのLoRAを作っている(=つよつよグラボを持っている) 2.衣装LoRAを作ってみたが上手く行かない 3.データセットとキャプションをどうしたら良いか判らない 1ヵ月近く服LoRA沼にハマる羽目になった■ようするに? 「え!?VRoid Studioの素材だけで衣装LoRAを!?」「できらぁ!!」 はじめにちょっと前に「コピー機学習法」による差分LoRA作りの記事で書いたことで 「おで、LoRA、すこしわかる」程度になった気でいたんだけど、調子に乗って同じ感覚で服LoRAにも挑戦したところ、勝手が違いすぎて全く上手くいかず結局1ヶ月くらい沼に浸かることになったんよ。 Khaulaちゃんは賢いねいつものコピー機学習法は変化前と変化後の2枚だけでLoRAを作る手法だから、データセットについてはあまり意識する必要がなかったんだけど、キャラクターLoRAとか服LoR
G-gen の堂原と又吉です。当記事では、Amazon Web Services(AWS)、Microsoft Azure、Google Cloud(旧称 GCP)が提供するフルマネージドな RAG サービスの比較を行います。 はじめに 当記事について RAG とは 3社比較 前提条件 機能比較 料金シミュレーション 想定シナリオ AWS Azure Google Cloud 総評 AWS Azure Google Cloud 詳細の解説 Knowledge bases for Amazon Bedrock(AWS)の詳細 構成図 プロダクト一覧 Knowledge bases for Amazon Bedrock Amazon S3 Amazon OpenSearch Service できること 検索 対応データソース 料金 概要 基盤モデル利用料金 ベクトルデータベース料金 Azure
ティム・オライリーとシリコンバレーの贖罪 2024.07.10 Updated by yomoyomo on July 10, 2024, 11:00 am JST きっかけは、『ブログ 世界を変える個人メディア』や『あなたがメディア! ソーシャル新時代の情報術』の著書で知られるジャーナリストのダン・ギルモアが、16年務めた教職を辞すという「引退」について書いているのを4月に読んだことでした。 調べてみると、彼は1951年生まれの73歳らしいのですが、ふと、自分が20年以上前からその言説を参考にしてきたベテランたちの何人かも70歳前後なのに気付きました。それは例えば、ブログやポッドキャストの発展に大きく関わったデイヴ・ワイナーや、やはりベテランブロガーにして『グーグル的思考』、『パブリック 開かれたネットの価値を最大化せよ』、『デジタル・ジャーナリズムは稼げるか』の著書で知られるジェフ・ジ
経済産業省では、進化・発展を続けている生成AIのコンテンツ制作への利活用の可能性に着目し、コンテンツ制作に携わる産業界のみなさまに向けて、利活用の方向性をお示しするガイドブックを作成・公表しました。 趣旨・概要 経済産業省では、進化・発展を続けている生成AIのコンテンツ産業における活用可能性に着目し、利活用の促進に向けて、特にゲーム・アニメ・広告の各産業における利活用ケースを調査し整理するとともに、政府関係省庁の各種ガイドライン等を前提として、コンテンツ制作において生成AIを利活用する際の法的留意点及び対応策を検討してまいりました。このたび、それらの調査・検討等の成果として、コンテンツ制作に携わる産業界のみなさまに向けて、知的財産権等の権利・利益の保護に十分に配慮した、コンテンツ制作における生成AIの適切な利活用の方向性をお示しするものとして、「コンテンツ制作のための生成AI利活用ガイドブ
生成AIに疑似コードで指示すると自然言語よりも効率的にプログラムが生成できるというアイデアから生まれた、生成AI用の疑似言語「SudoLang」 ChatGPTやCopilotなどの生成AIを用いてコードを生成しようとすると、多くの場合プロンプトを自然言語で書くことになるでしょう。 しかし自然言語で的確にプログラムの内容を表現するのは、ときに面倒だったり、あいまいさを排除することが難しかったりします。 一方で、プログラマが自分でコードを書こうとするとき、あるいは他のプログラマとコードの内容を議論するときに、自然言語をプログラミング言語のような構文で書く、いわゆる「擬似コード」を使うことがよくあります。 例えばこんな風に自然言語をコードっぽくホワイトボードに書いたことのあるプログラマの方は多いのではないでしょうか? 入力値を処理するための関数(A、B){ Aは数字かどうか確認する Bは日付か
ブースは、韓国の音声AI企業Supertoneが出展したもの。角刈りオジサンの美少女ボイスは、リアルタイム音声変換ソフト「SHIFT」のデモによるものだった。このSHIFT、少女だけでなく少年、成人女性、成人男性、渋いおじいさん、悪魔などさまざまな声がプリセットされており、リアルタイムかつ高精度に声を変換できるのが特徴。 独自の音声合成基盤モデル「NANSY」(Neural Analysis & Synthesis)を採用しており、ユーザーの声の事前学習も、10秒程度のサンプルスクリプトを読み上げるだけで完了。ユーザーとキャラクターの音声の混合比率や感情の表現度合い、音の高低なども細かく調整可能だ。 同様の技術として「RVC」(Realtime Voice Changer)などが有名だが、快適に利用するにはNVIDIAの高性能なGPUを必要とする。一方、SHIFTはCPUのみで47ミリ秒と
こんにちは! 今日は、動画の生成AIが一つ強いのが出てきて、それを触っていました。 RunwayというやつのGen-3というものです。 興味ある人は触ってみてください! というわけで、動画生成AIは「まだまだ時間がかかるよね」と言われているものなんですが、2024年7月時点ではどうだったのか、と言うのを記録しておくと、将来見たときにちょっと面白いのではと思うので、メモがてら書いてみます。 どんな感じ?動画は綺麗だし、それなりに自然という印象です。ただし、写真よりも、変なところが目立つので、実用性があるのか?というとかなり難しいだろうなあ、と。 広告とかで使えるんじゃないか!という期待もあると思うんですが、正直結構大変だろうなあ、と思いました。 違和感が少なかったものまず、比較的違和感がなかったものから紹介します。 「東洋人のCEOが製品発表会でプレゼンをするが、手にはドリルがついている」と
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く