[速報]GitHub、自然言語による指示だけでアプリケーションを生成する「GitHub Spark」テクニカルプレビュー公開 GitHubは、日本時間10月30日未明に開幕したイベント「GitHub Universe'24」で、自然言語による指示だけで、パーソナライズされた小規模なアプリケーション(Micro-App)をすぐに生成できる「GitHub Spark」の テクニカルプレビューを発表しました 。 下記はGitHub Sparkのデモとして公開された動画の一部をキャプチャしたものです。 例えばユーザーは、ダッシュボードから「An app for me to log all the cities I've travelled with a review and star rating」(これまで旅行したことのあるすべての都市のレビューと星の数での評価を記録するアプリ)のように、作りた
Stable Diffusionの共同開発者たちによって設立されたベンチャー企業「Black Forest Labs(BFL)」が8月1日(現地時間)に発表した最新の画像生成AIモデル「FLUX.1」。画像生成アプリ「ComfyUI」が対応を発表しているので、ローカル環境で動くかどうかを試してみた。 画像生成AIは「Midjourney」「Stable Diffusion」「DALL-E」の三つ巴 現在、画像生成AIの分野は主に「Midjourney」、「Stable Diffusion」、「DALL-E 3」の3つがそれぞれ独自のアプローチでユーザーを集めている。 Midjourneyは直感的なインターフェースと美しい芸術的な出力で知られ、主にクリエイティブな専門家やアーティストに人気がある。 一方、Stable Diffusionはオープンソースの柔軟性と強力なカスタマイズ能力で、技術
マイクロソフト、初心者向け生成AI学習教材「生成AIアプリケーションの開発を始めるために必要な全知識を学べる12講座」を無償公開 コースの内容には、大規模言語モデル(LLM)がどのように動くかを理解する。「生成 AI と大規模言語モデルの紹介」、ユースケースに適したAIモデルを選択できるようにする「様々なLLMの調査と比較」、プロンプトの構造と使用法の理解のための「プロンプト・エンジニアリングの基礎」、埋め込み技術を利用したデータ検索アプリケーションを構築する「Vector Databasesを利用した検索アプリケーションの構築」、外部APIからデータを取得するためFunction Callingを設定する「Function Callingとの統合」など、入門的な内容から高度なアプリケーションの開発まで多岐にわたるレッスンが用意されています。 レッスン内容は日本語による説明と図で構成 各レ
音楽生成AI「Suno AI」がX(旧Twitter)上で話題になっている。歌詞や曲調を文章で指示するだけで音楽を自動生成するサービスで、PCやスマートフォンのWebブラウザ上から利用できる。生成した音楽の出来栄えには、プロの音楽家からも驚きの声が上がっている。 Suno AIは、米国を拠点とする音楽家とAIの専門家たちからなる米Sunoが運営するサービス。開発者の中には、米MetaやTikTokを運営する中国ByteDanceなどに所属していた人たちもいるという。利用にはGoogleやMicrosoft、Discordのアカウントが必要で、12月14日時点ではβ版を提供中。1日5回まで無料で音楽を生成できる他、有料プランもある。 早速使ってみた そのお手並みは? 記者も試しに利用してみた。メニューにある「Create」を押し、「記事を書くのがはかどる音楽を作成してください」と指示を入れた
[速報]AWS、Copilot対抗となる「Amazon Q」発表。生成AIによるシステム開発支援や業務支援など、多様なAIサービスを提供。AWS re:Invent 2023 Amazon Web Services(AWS)は、ラスベガスで開催中のイベント「AWS re:Invent 2023」の基調講演で、生成AIを用いて多様なAIサービスを提供する「Amazon Q」を発表しました。 マイクロソフトが「GitHub Copilot」や「Microsoft 365 Copilot」など「Copilot」を同社の生成AIサービスの包括的なブランドとしているように、AWSは「Amazon Q」ブランドにおいてコーディング支援やデータ分析、業務支援、コールセンター支援などの多様なAIサービスを発表しました。 今回発表されたAmazon Qの機能は以下です。 AWS上でのシステム開発支援 AWS
2023年11月、ChatGPTの新機能「GPTs」が公開されました。 GPTsを活用すれば、ChatGPT上で手軽にGPT搭載ツールを作れます。しかもプログラミングなどの特別な知識も必要なく、自然言語だけで誰でも簡単に作成できるんです! こんな画期的な機能、使わないなんて大損ですよ! というわけで本記事では、GPTsの使い方について詳しく解説します。プログラミング知識ゼロの筆者が、実際にGPTsでツールを作成した様子をお見せしますので、ぜひ最後までご覧ください! 【現在最強】GPTsの活用事例5選 ここでは2024年2月現在、SNS上で特に話題になっているGPTsの活用事例5選を紹介します! 【Video AI by invideo】プロンプトから動画を生成できる! SNS用ショート動画をお求めの方におすすめのGPTsがあります。 それが、プロンプトから動画を生成してくれる「Video
Stability AI は商用利用可能な日本語画像言語モデル「Japanese Stable VLM」をリリースしました。 Japanese Stable VLM 「Japanese Stable VLM」は、「Japanese Stable LM Instruct Gamma 7B」をベースとした日本語画像言語モデル(Vision-Language Model、略してVLM)です。入力した画像に対して文字で説明を生成できる画像キャプショニング機能に加え、画像についてのユーザーの質問に回答することもできます。 研究目的に作られた最初のバージョン「Japanese InstructBLIP Alpha」とは、主に以下の2点の違いがあります。 商用利用可能* ライセンス 最新手法 LLaVA-1.5 のモデル構造・学習手法を適用 ベースとする言語モデルを「Japanese Stable LM
無料でも20曲作ることができますが、商用利用は不可なので、商用利用したい場合はプロフェッショナルプラン以上の契約が必要です。プロフェッショナルプランは月額11.99ドルです。プロフェッショナルプランにすると月間500曲作れるようになり、さらに1曲あたりの長さも90秒と長くなります。 UIはシンプルで、左上の入力欄にプロンプトを入れるだけ。プロンプトは楽器・ジャンル・雰囲気などを入れて、BPMも指定しておくとよさそうです。 Stable Audioで作ってみた曲の実例 またじっくりとStable Audioを触りたいと思いますが、ざっくりと作った楽曲を貼っておきます。 Stable Audio早速試してみた。いい感じに仕上がったんだけど、プロンプトの入れ方は研究が必要そう。Guitarって入れたけどエレピっぽい音になっちゃった。ドラムのローファイ感とかはすごく良い。 pic.twitter.
はじめに OpenAIのDevDayで発表されたText2SpeechのAPIを使ってみたいと思います。Text2Speechとは簡単にいうとテキストの読み上げ機能です。 日本語を読ませる場合、まだ少し英語訛りですが、なかなか人間っぽい発音を行います。 今回はこのText2SpeechのAPIを使って遊んでみたいと思います。 なにを作るのか? 先程記載したように、Text2Speechでは発話を行うことができます。 この特徴とGPTの会話ができる特性を組み合わせれば、会話っぽいことができるのではないかと思い実装してみました。 今回は試験的に実装を行うため、GPTには「動物博士」としてのロールを与えて動物の雑学を教えてもらいました。 完成形は以下のような動画になります。Text2Speechを利用しているため音声ONの状態での閲覧を推奨します。 発音が英語話者っぽくなっていることや漢字を稀に
はじめに 新規事業部統括部インターンの高橋です。ここ最近はすさまじいスピードで様々な生成AIがリリースされていますね。そのなかでもChatGPTをはじめとするLLMの活用には注目が集まっており、多くの方が使用していると思います。 LLM(Large Language Model)とは大量のテキストデータを学習した言語モデルのことで、一般的な事柄であれば私たちの質問に対して十分納得感のある回答を返してくれます。しかし、LLMが学習したデータに含まれない事柄については正しく回答することができません。 この問題を解決する方法としてRAG(Retrieval Augmented Generation)という手法が用いられます。これは、LLMに外部の情報源(ここでは社内ドキュメントなど)を与えることで、それを参照して回答を生成してもらおうという手法です。ユーザは事実に基づく情報をベースにした回答を得
マイクロソフトは9月7日(現地時間)、同社の生成AIツール「Copilot」シリーズの顧客が著作権侵害で訴えられた場合、マイクロソフトが顧客を弁護し、賠償金を肩代わりすることを明らかにした。 無料版「Bing」チャットはもちろん対象外 今回発表されたCopilot著作権コミットメント(約束・取り組み)は、同社の既存の知的財産補償サポートを商用Copilotサービスにも拡大するもので、6月に発表された「AIカスタマーコミットメント」に基づくものだ。 対象となるのは、Word、Excel、PowerPointなどに生成AIを導入する「Microsoft 365 Copilot」、プログラミングを支援する「GitHub Copilot」などを含むマイクロソフトの商用Copilotサービスおよび「Bing Chat Enterprise」の有料版。 ただし、著作権保護のために製品に組み込まれたガー
米Metaは7月18日(現地時間)、大規模言語モデル「Llama 2」を発表した。利用は無料で商用利用も可能としている。最大サイズの700億パラメーターモデルは「ChatGPT(の3月1日版)と互角」(同社)という。 ダウンロードには、Metaが用意するフォームから名前とメールアドレス、国、組織名を入れ、利用規約に同意した旨を送信する。Metaが受理すると専用URLが送られてくるため、同社がGitHubで公開しているダウンロード用のスクリプトと合わせるとLlama 2の各モデルをダウンロードできるようになる。 モデルサイズは70億、130億、700億パラメーターの3種類があり、それぞれベースモデルとチャット向けに追加学習(ファインチューニング)したモデルを用意する。いずれも4096トークン(おおよそ単語数の意)まで文脈を読める。 性能は、Llama-2-70b-chat(700億のチャット
rinna社から、日本語に特化した強化学習済みの「対話GPT言語モデル:rinna/japanese-gpt-neox-3.6b-instruction-ppo」をオープンソースで公開したとの大ニュースがありましたので、早速ためしてみます!😀 無料のGoogle Colabで動くお試し用の簡易プログラムも作ってみましたので、ぜひお試しください。 1.モデル特徴(プレス文から)36億パラメータ(3.6B)を持つ汎用GPT言語モデルをベースに、対話GPT言語モデルへのfine-tuningと強化学習を行っています。 強化学習には、HH-RLHFの一部を日本語に翻訳したデータを用いています。 強化学習済みのモデルは、Hugging Faceに商用利用可能なMIT Licenseで公開されています。 特定の利用目的に対して性能を最適化させたい場合には、fine-tuningやin-context
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く