並び順

ブックマーク数

期間指定

  • から
  • まで

1 - 40 件 / 121件

新着順 人気順

GenerativeAIの検索結果1 - 40 件 / 121件

  • LLMの現在 - Speaker Deck

    今のLLMを取り巻く状況について紹介します。

      LLMの現在 - Speaker Deck
    • 画像生成AI、安いPCでも高速に 衝撃の「Stable Diffusion WebUI Forge」 (1/4)

      Stable Diffusion Forgeを表示した様子。基本的な操作は既存のStable Diffusion WebUI AUTOMATIC1111とほぼ同じ 画像生成AI「Stable Diffusion」用の新しいユーザーインターフェース「Forge」が2月6日に登場しました。開発したのは、これまで「Controlnet」や「Fooocus」などStable Diffusion関連の様々な重要技術を開発してきたillyasviel(イリヤスベル)さん。何よりインパクトが大きいのは、グラフィックボードのVRAM容量が小さい安価なPCでも最新版のStable Diffusion XL(SDXL)が動かせることです。 RTX 40シリーズが求められたSDXL SDXLは、2023年8月にStablity AIが発表した画像生成AI。高画質な出力ができる一方、コミュニティーサイトで話題にな

        画像生成AI、安いPCでも高速に 衝撃の「Stable Diffusion WebUI Forge」 (1/4)
      • Sora: Creating video from text

        Sora Creating video from text Sora is an AI model that can create realistic and imaginative scenes from text instructions. Read technical report We’re teaching AI to understand and simulate the physical world in motion, with the goal of training models that help people solve problems that require real-world interaction. Introducing Sora, our text-to-video model. Sora can generate videos up to a mi

          Sora: Creating video from text
        • 高木浩光@自宅の日記 - Claude 3に例の「読了目安2時間」記事を解説させてみた

          ■ Claude 3に例の「読了目安2時間」記事を解説させてみた Anthropicの先日出たばかりのClaude 3(Opus)が、ChatGPTのGPT-4を超えてきたと聞いて、自分の原稿を解説させてみたところ、確かに革新的な進歩が見られる。もはや内容を「理解」しているようにしか見えない。GPT-4では、昨年11月に試した時には、そうは見えず、優れた文章読解補助ツールという感じでしかなかった。 一昨年のCafe JILIS「高木浩光さんに訊く、個人データ保護の真髄 ——いま解き明かされる半世紀の経緯と混乱」は、発表した当時、長すぎて読めないから誰か要約してという悲鳴があがっていた。その後、ChatGPTの登場で、その要約能力に期待されたが、冒頭のところしか要約してくれなかったり、薄い論点リストが出てくるだけで、その期待に応えられるものではなかった。 もっとも、GPT-4でも、質問力があ

          • 【書評】『頭がいい人のChatGPT&CoPpilotの使い方』 の『プロンプト』事例集が秀逸!(神田敏晶) - エキスパート - Yahoo!ニュース

            KNNポール神田です。 『頭がいい人のChatGPT&CoPilotの使い方』橋本大也 著を読んだ。 これは、ChatGPTの使い方がよくわからなかった人への再入門するのにピッタリな書籍だと思う。 この書のとてもユニークな点を述べるとするならば、著者の橋本大也氏の、『ChatGPT』や『Copilot』に対する、使い勝手の良い方法が、具体的な『プロンプト』として数多くの事例を散りばめられている点に尽きる。 そして、それらが、事例を元に、仕事で必要な調べ物を『調査』させ、『考え』させ、『要約』させ、『分類・整理』させ、『シミュレーション』させることができることをステップバイステップで進めている。最終的に多岐にわたるプレゼンの場での『グラフ』や『ダイアグラム』『映像』による表現にまで網羅している。 ■この本の『プロンプト』を『写経』するだけで、ビジネスパーソンのAIニーズに対応なによりも、ビジ

              【書評】『頭がいい人のChatGPT&CoPpilotの使い方』 の『プロンプト』事例集が秀逸!(神田敏晶) - エキスパート - Yahoo!ニュース
            • 画像生成AIの著作権問題、文化庁議論で争点はっきり (1/4)

              2月29日に、文化庁で「文化審議会著作権分科会」の第7回が開催されました。著作権の専門家によってその制度について議論をする場ですが、今年度は2023年7月より「AIと著作権」について議論されてきました。3月に文化庁から政府に報告する「AIと著作権に関する考え方について(素案)」の最終案に近いものが発表され、1月下旬から2月上旬にかけて募った「パブリックコメント(パブコメ)」の結果報告もされるということもあり、注目されました。登場したのは「AIと著作権に関する考え方について(素案)令和6年2月29日時点版」、パブコメの結果を受けて、これまでの内容に微修正が施されていました。しかし、そこからわかったのは、文化庁の一貫したスタンスでした。 文化庁 文化審議会 著作権分科会 法制度小委員会(第7回) パブコメへの反応は「素案の内容周知」 発表物から議論を集めたのが発表資料に「パブコメの結果」が追加

                画像生成AIの著作権問題、文化庁議論で争点はっきり (1/4)
              • ソースコードをリポジトリ丸ごとLLMに読んでもらう方法

                はじめに ソースコードをLLMに読んでもらうとき、単一ファイルだと楽なのですが、GitHubのリポジトリのように複数ファイルから構成されるプロジェクトだと困ってしまいますね。 リポジトリごとLLMに読んでもらえるようにいい感じにテキスト化できると良いですね。そんなソフトがありました。しかも2つ。 両方ともほとんどコンセプトは同じです。特に後者のgenerate-project-summaryは使い方も含めて、自分のやりたいことが、すでに開発者の清水れみおさんが以下の記事にまとめていました。 なので、あんまり書く必要ないのですが、せっかくなのでgpt-repository-loaderの使い方と、出力したファイルの別の活用方法について書いてみたいと思います。 gpt-repository-loaderでリポジトリをテキストに変換 使い方はREADMEに書いてあります。シンプルなソフトなので、

                  ソースコードをリポジトリ丸ごとLLMに読んでもらう方法
                • 1行もコードを書かずに画像生成AIツール作ってみた - Qiita

                  以下のXを見て、早速「Create」を試してみたので、実際に使った所感をまとめます AIがリアルタイムでWebページを作ってくれる神サイト ㅤ 会話だけで、理想のUIを実現することが可能 ㅤ 使い方・活用法をツリーにまとめます! ㅤ ブックマーク保存をおすすめします↓ pic.twitter.com/J1cJkUkyO8 — すぐる | ChatGPTガチ勢 𝕏 (@SuguruKun_ai) March 25, 2024 一言で言うとヤバいです... 詳細は以下のサイトでも解説しています Createとは Create 公式サイト Createは、1行のコードを書かなくても自然言語を使って、高度なAIを搭載したアプリやツールが作成できる生成AI搭載のノーコードツールです。 エンジニアでなくともChatGPT APIやStable Diffusion APIを組み込んだアプリが簡単に作れ

                    1行もコードを書かずに画像生成AIツール作ってみた - Qiita
                  • 「それは、本当に安全なんですか?」 セキュリティ専門家が「GitHub Copilot」の全社一斉導入時に考えたあれこれ

                    「GitHub Copilot 導入時に考えたセキュリティのあれこれ」というタイトルで登壇したのは、freee株式会社のただただし氏。タイミー社主催の「GitHub Copilotで拓く開発生産性」で、「GitHub Copilot 」を全社一斉導入する際に考えるべきセキュリティリスクについて発表しました。 freee株式会社 PSIRT マネージャーのただただし氏 ただただし氏:freee株式会社のただただしと申します。 今日は、「GitHub Copilot 導入時に考えたセキュリティのあれこれ」ということで、Copilotのセキュリティリスクについて語るわけですが、考えてみたら、GitHubの中の人を前にこんなことをしゃべるのは相当大胆な話だと思います。最後にいいことで締めるのでちょっと我慢してください。 自己紹介をいたします。ただただしと申します。PSIRTという組織でマネージャー

                      「それは、本当に安全なんですか?」 セキュリティ専門家が「GitHub Copilot」の全社一斉導入時に考えたあれこれ
                    • AI検索「Perplexity」がかなり便利だったので紹介します (1/5)

                      「ChatGPTはすぐに嘘をつくから調べものには使えない」という意見をよく聞くが、これには大きな誤解がある。 そもそもChatGPTの心臓部である大規模言語モデル(LLM)は、膨大な知識を元にテキストを「生成」する仕組みだ。 逆に言うと、知識として持っていないことは一切わからないので、知らないことについて説明を求められても能力的に不可能なのだ。 だから、知識にない質問をされると答えられないだけでなく、苦し紛れに幻覚(ハルシネーション)を起こしてしまう。これが「すぐに嘘をつく」と言われる理由だ。 結論を書いてしまうと「ChatGPTは検索ツールではない」のだ。むしろ「ChatGPTがいちばん苦手とすることが検索」なのだ。 今回はこの欠点を補い、AIを活用した新しい検索の形を実現するという触れ込みのサービス「Perplexity.ai」を紹介していく。 Perplexity.aiとは Perp

                        AI検索「Perplexity」がかなり便利だったので紹介します (1/5)
                      • 今日から始めるChatGPT+Zapierで雑パーソナライズ情報収集 - LayerX エンジニアブログ

                        皆さんこんにちは。CTOの松本です。LLM使ってますか?ChatGPT毎日触ってますか? LLMに熱狂してすでに1年以上が経ちましたが周辺エコシステムが充実してきたことでいろいろな取り組みがとても簡単に実現出来るようになったなーと感じています。 ということで今回はZapierを使った小ネタのご紹介です。 AI・LLM事業部の今 とその前に、AI・LLM事業部での取り組みから着想を得たものでして、AI・LLM事業部について簡単に紹介させてください。 LayerXの新規事業であるAI・LLM事業部では、バクラクでも取り組んできたビジネス文書の解析の延長としてLLMを活用して文書分析エンジンの開発を進めています。現在このエンジンを使ったエンタープライズ向けの新規プロダクト開発にいそしんでおります。とても楽しいですし、最近は様々なお客様からの引き合いも増えておりまして、事業成長に向けて満を持しての

                          今日から始めるChatGPT+Zapierで雑パーソナライズ情報収集 - LayerX エンジニアブログ
                        • Google検索も不要に? 検索AI「Perplexity」がスゴすぎてちょっと怖い

                          “AI検索”サービス「Perplexity」(パープレキシティ)がスゴい。 Perplexityは、質問に対してテキストで答えてくれる、チャットbot型生成AIだ。ChatGPTと似ているが、検索に特化しており、「Webの最新情報をベースに検索できる」点が異なる。 例えば、7月4日時点で東京都知事選(7月7日投開票)の最新状況を聞くと、こんなふうに答えてくれる。

                            Google検索も不要に? 検索AI「Perplexity」がスゴすぎてちょっと怖い
                          • まるで“いけない話ができるChatGPT” ローカルAI「Command R+」の爆発的な可能性 (1/5)

                            筆者の環境で、LM StudioでCommand R+を動作させている様子。会話相手は自作キャラクターの「明日来子(あすきこ)さん」 PCローカル環境で動作する大規模言語モデル(LLM)「Command R+」を使っていますが、相当優秀ですね。体感ではChatGPT(GPT-4)と変わらないレベル。さらに、ChatGPTが回答を拒絶するような会話もできてしまいます。これが体験できるようになったのは、LM Studioに代表されるローカルLLMを動かすためのアプリ環境が整ってきたためです。今年に入り、Command R+を始めとしたローカルLLMが高性能化してきたことと並行し、手軽に使える派生モデルも増えはじめ、一気にあわただしくなってきました。 導入が難しかったローカルLLM、「LM Studio」で簡単に Command R+を試すのに使っているのが、LLMの主要モデルを実行するための統

                              まるで“いけない話ができるChatGPT” ローカルAI「Command R+」の爆発的な可能性 (1/5)
                            • Google Cloud、無料で生成AIを学べる教材「The Arcade」を公開。ゲーム感覚でポイントを稼ぎ、賞品も獲得可能

                              提供される教材を順に学んでいくことで、Google Cloudの生成AIツールであるVertex AIや Generative AI Studio を実際に体験できると説明されています。 教材はテキスト形式のチュートリアル The ArcadeのWebサイトを見る限り、シューティングゲームのような楽しい要素が含まれているのかなと思ったのですが、実際に試してみると、解説を読みつつ実際のツールを操作しながらチュートリアルをこなしていくテキスト形式の実践的な教材のようでした。 下記は実際の教材画面の一部です。 教材をこなしていくとポイントを獲得することができるので、これがゲーミフィケーションの要素となっているようです。また、ポイントを獲得すると賞品としてノベルティがもらえるとされています。 公開されている教材は下記のレベル1とレベル2の2つ。これから毎月教材が追加されていく予定です。 Level

                                Google Cloud、無料で生成AIを学べる教材「The Arcade」を公開。ゲーム感覚でポイントを稼ぎ、賞品も獲得可能
                              • ゼロからRAGを作るならこんなふうに

                                どんな人向けの記事? これからRAGを作ってみたい DifyやLangChainにこだわらず、自分で開発をハンドリングしたい ベクトルDBや埋め込みモデルの選定の勘所をサッと知りたい ここではRAGとは何かのような話題は扱いません。 RAGが、ほぼAI活用の現実的な最適解になりつつある LLMは高度な知的タスクを実行可能である。 そんな理解が世界に広まっていく中で、企業は自らが蓄えたデータをLLMに組み合わせてどう活用するか躍起になっています。これからはビッグデータだ!という時代を経ているため、情報インフラに投資した企業も多く、AIでデータを活用する流れはもはや確定路線と言えます。 この問題を解決する手法として一番最初に思いつくのは、モデル自体を改変するファインチューニングです。しかし、ファインチューニングにはいくつかの実用上の問題があります。ファインチューニング自体に専門知識が必要である

                                  ゼロからRAGを作るならこんなふうに
                                • RAG入門: 精度改善のための手法28選 - Qiita

                                  RAGの精度改善するために何があるかを学びました。基本系のNaive RAGを知っている人向けの記事です。 方法が多すぎるので、Youtubeの「RAG From Scratch」を中心に少し整理してみました。LangChainをよく使っているので、LangChain出典が多いです。 全体像 まずは、RAGの全体像。Indexingが同じ流れにあるのが少しわかりにくいのですが、実行タイミングとしてはRAGの前準備としてやっておきます。 画像出典: RAG from scratch: Overview もう少し粒度を細かくした図です。 画像出典: RAG from scratch: Overview 表形式で分類します。Generationだけ少し特殊です。 大分類 中分類 内容

                                    RAG入門: 精度改善のための手法28選 - Qiita
                                  • Command-R+の衝撃! 100Bモデルで本当にこんなことできんの!?ダウンロードしてローカルで実行可能|shi3z

                                    Command-R+の衝撃! 100Bモデルで本当にこんなことできんの!?ダウンロードしてローカルで実行可能 Transformerの発明者らが起業したCohereAIがとんでもないモデルを出してきた。この業界では毎週のように「えーー!」ということが起きるのだが、その中でも年に1,2回起きる「えーーーっ」が起きたのでブログでも紹介しておきたい。 Command-R+(おそらくコマンダープラスと読むのが正しい)というモデルは、わずか100Bで、GPT-4,Claude-3並と言われるモデルだ。しかし、それを主張するだけのモデルなど腐るほどある。だが、実際に触ってみると期待外れということが多かった。 ところがCommand-R+は、その性能は桁違いである。というか、もはや僕という人間如きがちょっと触ったくらいでは「GPT-4よりいいね」とか「ここら辺甘いね」とか判断がつかなくなってきてる。しか

                                      Command-R+の衝撃! 100Bモデルで本当にこんなことできんの!?ダウンロードしてローカルで実行可能|shi3z
                                    • テキスト生成AI『Claude』が提供する60以上の「プロンプト集」が使える!すぐに苦手な仕事を自動化せよ | ライフハッカー・ジャパン

                                      だれにでも苦手な業務はあるもの。もしあなたが会議のメモを作成したり、表計算の数式を割り出したりするのをおっくうに感じているのなら、いっそこれらのタスクをAIにまかせて自動化してしまうのも手です。 そこで活用したいのが、米Anthropic(アンスロピック)社が提供している生成AI「Claude(クロード)」向けに開発された、ビジネスや個人的なタスクに最適化されたプロンプトライブラリーです。 プロンプトとは、対話型AIとのやりとりにおいてユーザーが入力する文章のこと。Anthropicが提案する定型プロンプトとデータを入力すれば、Claudeが特定のタスクを狙い通りにこなしてくれるので、仕事の効率化が期待できそうです。 生成AI「Claude」とはScreenshot: 山田ちとら via AnthropicAnthropicは「人間のような知性を持つAI」の開発を目指し、GoogleとOp

                                        テキスト生成AI『Claude』が提供する60以上の「プロンプト集」が使える!すぐに苦手な仕事を自動化せよ | ライフハッカー・ジャパン
                                      • 【未経験者大歓迎】RAG超入門:AWSが推奨するRAGを体験するハンズオン - Qiita

                                        2024/5/5更新:生成AIに興味を持った方向け、続編を投稿しました。 「Qiitaに聞いた!!」をAmazon Bedrockで作った!(Claude 3でRAG) タイトルはふざけてますが、プロンプトエンジニアリングにより本投稿と同様の内容を行う解説をしています。 (BedrockのClaude 3モデルと、Google検索を使った構成です) 生成AIはとても注目度が高い技術ですが、すこしとっつきにくいところがあるかもしれません。新しいモデルや活用手法が毎日のように登場し、ウォッチし続けるのはかなり大変です。 タイミングを逃して入門できていない方向けに、 とりあえず作って体感してみよう というコンセプトで、ハンズオン記事を作成しました。🎉🎉🎉 ハンズオンの内容は「RAG」です。RAGは生成AIの活用法としてよく出てくるキーワードです。ハンズオンでは、ただのRAGではなく最先端の

                                          【未経験者大歓迎】RAG超入門:AWSが推奨するRAGを体験するハンズオン - Qiita
                                        • NTT、国産の生成AI「tsuzumi」サービス開始--「2027年に売上1000億円」と島田社長

                                          日本電信電話(NTT)は3月25日、独自に開発した大規模言語モデル(LLM)「tsuzumi」の商用提供を企業向けに開始した。代表取締役社長を務める島田明氏は「2027年までに売上1000億円を目指す」と述べた。 tsuzumiは、NTTが2023年11月に発表した国産LLMだ。特徴の1つはモデルを大幅に軽量化した点で、パラメーター数は軽量版で70億と、OpenAIが提供する「GPT-3」の25分の1程度しかない。これによって、1つのGPUで動作し、大規模ハードウェア不要で事務所内でのオンプレミス利用にも対応する。 2つ目の特徴は「世界トップレベルの日本語処理能力」だ。パラメーターを軽量化したにも関わらず、GPT3.5と日本語性能で比較した場合の勝率は8割を超え、英語においても高い処理能力を達成しているという。さらに、マルチモーダルにも対応し、パワーポイントの図表読解や聴覚も備える。 3つ

                                            NTT、国産の生成AI「tsuzumi」サービス開始--「2027年に売上1000億円」と島田社長
                                          • グーグルの新たな画像生成AIツール「ImageFX」の使い方

                                            印刷する メールで送る テキスト HTML 電子書籍 PDF ダウンロード テキスト 電子書籍 PDF クリップした記事をMyページから読むことができます Googleが人工知能(AI)に多額の投資を行ってきたことを考えれば、同社が先頃、独自の画像生成AIツール「ImageFX」を公開したのは、意外なことではない。ImageFXは、OpenAIの「DALL-E 3」や「Midjourney」「Image Creator from Microsoft Designer」といった多くの画像生成AIツールの強力なライバルになるはずだ。 ImageFXは、テキストから画像を生成するGoogleのテクノロジー「Imagen」の最新世代である「Imagen 2」を利用する。ImageFXで作成されるすべての画像には、DeepMindの「SynthID」が埋め込まれる。SynthIDは、肉眼では見えない

                                              グーグルの新たな画像生成AIツール「ImageFX」の使い方
                                            • Google、オープンな生成AIモデル「Gemma」公開 商用利用OK、Geminiと同じ技術の軽量LLM

                                              また、Gemmaの事前トレーニング済みモデルでは、学習データから特定の個人情報やその他の機密データを除外していると安全性もアピール。開発者や研究者向けに、安全で責任あるAIアプリケーションを構築できるというツールキット「Responsible Generative AI Toolkit」も併せて公開している。 関連記事 Google、“現行最強”の生成AI発表 月2900円で利用可 チャットAIサービスはBard→Geminiに刷新 米Googleは2月8日(現地時間)、「現行最強」をうたう生成AI「Gemini Advanced」を発表した。すでにサービスを提供開始しており、月額2900円で利用可能。2カ月間の無料試用期間も用意する。 Google、「Gemini 1.5 Pro」限定リリース コンテキストウィンドウは100万トークン Googleは、生成AIの次世代モデル「Gemini

                                                Google、オープンな生成AIモデル「Gemma」公開 商用利用OK、Geminiと同じ技術の軽量LLM
                                              • DB Pilot - DuckDB GUI Client

                                                DuckDB GUI Client DB Pilot is a database GUI client for DuckDB and various other databases. Available for Mac, with Linux and Windows support coming soon. Working with SQL has never been easier - thanks to DB Pilot's integrated AI assistant.

                                                  DB Pilot - DuckDB GUI Client
                                                • 生成AIのRAG構成を大手3社(AWS、Azure、Google Cloud)で徹底比較してみた - G-gen Tech Blog

                                                  G-gen の堂原と又吉です。当記事では、Amazon Web Services(AWS)、Microsoft Azure、Google Cloud(旧称 GCP)が提供するフルマネージドな RAG サービスの比較を行います。 はじめに 当記事について RAG とは 3社比較 前提条件 機能比較 料金シミュレーション 想定シナリオ AWS Azure Google Cloud 総評 AWS Azure Google Cloud 詳細の解説 Knowledge bases for Amazon Bedrock(AWS)の詳細 構成図 プロダクト一覧 Knowledge bases for Amazon Bedrock Amazon S3 Amazon OpenSearch Service できること 検索 対応データソース 料金 概要 基盤モデル利用料金 ベクトルデータベース料金 Azure

                                                    生成AIのRAG構成を大手3社(AWS、Azure、Google Cloud)で徹底比較してみた - G-gen Tech Blog
                                                  • 自動文字起こしサービスである、OpenAIの「Whisper API」とAWSの「Amazon Transcribe」の精度を比較してみた | DevelopersIO

                                                    自動文字起こしサービスである、OpenAIの「Whisper API」とAWSの「Amazon Transcribe」の精度を比較してみた はじめに 今回は、OpenAIのWhisper APIとAmazon Transcribeという2つの音声文字起こしサービスを試し、それぞれの精度を比較してみました。 Amazon Transcribeは、音声をテキストに変換する自動音声認識サービスです。 ストリーミングとバッチ処理のどちらでも文字起こしが可能です。 攻撃的な言葉を指定すると、Amazon Transcribeがそれらの言葉を文字起こしから自動的に削除する語彙フィルタリングなどの機能もあります。 Amazon Transcribeの詳細は、下記の記事をご参考ください。 OpenAIには音声をテキストに変換する「Whisper」という音声認識モデルがあり、WhisperをAPIの形で呼び

                                                      自動文字起こしサービスである、OpenAIの「Whisper API」とAWSの「Amazon Transcribe」の精度を比較してみた | DevelopersIO
                                                    • 自律型AIソフトウェアエンジニア「Devin」発表。課題から情報収集して環境構築・ビルド・デプロイまで | テクノエッジ TechnoEdge

                                                      ITジャーナリスト/Publickeyブロガー。IT系の雑誌編集者、オンラインメディア発行人を経て独立。2009年にPublickeyを開始しました。 AIスタートアップのCognitionは、自律型のAIソフトウェアエンジニア「Devin」を発表しました。 Devinは人間が課題を与えると、自律的に情報を参照し、コーディングやデバッグ、デプロイを行い、システム構築を実現するAIソフトウェアエンジニアだと説明されています。 Cognition AI CEOのScott Wu氏以下はデモ動画からのキャプチャです。 Devinは人間のソフトウェアエンジニアと同様に、自身のコンソール画面(右上)、コードエディタ(右下)、Webブラウザ(左下)を持っています(左上は人間とチャットでやり取りする領域)。 人間がプロンプトで何らかの課題を与えると、まず課題解決のためのプランを生成します。 今回、Dev

                                                        自律型AIソフトウェアエンジニア「Devin」発表。課題から情報収集して環境構築・ビルド・デプロイまで | テクノエッジ TechnoEdge
                                                      • RAGは検索エンジンが命!Azure AI Search初心者入門 - Qiita

                                                        はじめに こんにちは! AI エンジニアのヤマゾーです。 近年、生成 AI の進化が目覚ましく、生成 AI を活用したシステムの開発が盛んに行われています。その中で最も有名なテクニックが RAG です。RAG というのは検索拡張生成 (Retrieval Augmented Generation) の略で、質問の関連情報を検索し、質問と関連情報をセットで入力して回答させる技術のことです。 各企業ではこの RAG システムを積極的に導入していますが、ほぼ確実に課題になるのが検索部分の精度です。そして検索精度を上げるためには検索エンジンの知識が必要不可欠です。 本記事では検索エンジンの筆頭サービスである Azure AI Search を題材に、検索エンジンの基本的な仕組みや検索クエリの書き方について初学者向けに解説します。 RAG の検索部分を "Retriever" と呼びますが、この語源

                                                          RAGは検索エンジンが命!Azure AI Search初心者入門 - Qiita
                                                        • Microsoft発のオープンソース版「UFO」登場! Windowsを自動操縦するAIエージェントを試す【イニシャルB】

                                                            Microsoft発のオープンソース版「UFO」登場! Windowsを自動操縦するAIエージェントを試す【イニシャルB】
                                                          • GPT-4V: 驚きを隠せない進化!凄すぎて"ズキズキワクワク"が止まりません!!! - Qiita

                                                            この記事で行なっていること 凄すぎて”ズキズキワクワク"が止まりません はじめに ついこの間、ChatGPTは2022年1月までの情報を学習した、というい発表がありましたが、さらに今回のアップデートで 画像解析機能(GPT-4V) が追加され、アップロードした画像を使った新たなタスクの実行が可能になってます。そして、それが凄すぎます 衝撃的な投稿 まずはこちらの衝撃的な投稿をご覧ください。 動画は自転車の画像と共に「サドルを下げる手助けをしてください」で始まります。 ChatGPTからレコメンドが返ってきますが、それに対して、質問者は追加で ポイントになりそうな部分を拡大してアップロード マニュアルと自分の持っているツールの写真もアップロード します。 その結果、その質問者は、サドルを下げることに成功!そんな内容です。 自分の環境で、画像解析機能(GPT-4V)を使えるのか? さて、画像解

                                                              GPT-4V: 驚きを隠せない進化!凄すぎて"ズキズキワクワク"が止まりません!!! - Qiita
                                                            • AI作曲「Suno」新バージョンがWAV高音質化、最長4分の曲を一発でエンディングまで完成。無修正で良曲量産可能に(CloseBox) | テクノエッジ TechnoEdge

                                                              このところUdioやSonautoの新機能搭載で押され気味だったAI作曲サービスの「Suno」が反撃に出ました。 バージョン3.5のEarly Access版(有料プランユーザーのみに提供)を利用すると、これまでの2分間制限が最長4分まで拡大。延長時間も従来の1分を2分に伸ばしています。これだけの長さがあれば大抵のポピュラー曲はエンディングまでいけます。 4分の曲をUdioで生成しようとすると、8回の命令が必要になります。さらに、生成に要する時間はUdioの方がはるかに長くかかるので、全体としての作業時間には大きな差が生じます。それがSuno 3.5ならば数秒でできてしまうのです。 また、Style of Musicのキーワードがサジェストされるようになっていて便利です。文字数制限は相変わらずきついですけど。 さらにうれしいのは、日本語歌詞の読み方が、従来は間違いが多かったのが、ほぼ問題な

                                                                AI作曲「Suno」新バージョンがWAV高音質化、最長4分の曲を一発でエンディングまで完成。無修正で良曲量産可能に(CloseBox) | テクノエッジ TechnoEdge
                                                              • 話題のGraphRAGとは - 内部構造の解析と実用性の考察

                                                                初めまして。経営企画本部AI推進室の鏡味、窪田、小林と申します。当社は本年度、AI推進室という新組織を発足させ、主に生成AIについての社内の利用促進、およびユーザーへ生成AIを活用したソリューションの提供を進めるべく、新技術の展開や検証を行っています。 今回は、最近話題となっている、Microsoftが発表したRAG(Retrieval Augmented Generation)技術であるGraphRAG ⧉について、元となる論文やブログ記事、GitHubのコードを元に内部の構造を解析し、さらに現時点でどの程度実用的かを考察していきます。 GraphRAGとは GraphRAGは、ナレッジグラフと生成AIの技術を組み合わせることで、従来のRAGでは対応が難しかった問い合わせに回答できるようになったRAGです。2024年2月にMicrosoftによって発表 ⧉され、その後、2024年7月にリ

                                                                  話題のGraphRAGとは - 内部構造の解析と実用性の考察
                                                                • 実務におけるRAG 〜学びと現場のノウハウ〜 | ドクセル

                                                                  RAG (Retrieval-Augmented Generation)とは ● 外部データをRetrieval(検索)して ● プロンプトをAugument(拡張)し ● クエリに対する回答をGeneration(生成) ○ クエリ := ユーザからの問合せ ・・・する技術 ※本講義では「インプット=クエリ+プロンプト」と定義 4 RAG (Retrieval-Augmented Generation)とは 登場人物______________ ビジネスでの応用先はLLMが大多数_ ❶検索アルゴリズム ● ・ベクトル検索、全文検索、及びその組合せ (Hybrid検索)がよく使用される ・…が、それに限るものではない ● ビジネスでは”言語”の基盤モデル (LLM)への応用が多い ○ 本講義も LLMに注力 一方、言語以外のモーダル (画像・音声等)も研究開発中 ❷拡張処理アルゴリズム ・

                                                                    実務におけるRAG 〜学びと現場のノウハウ〜 | ドクセル
                                                                  • 社内情報検索システムで用いられるRAGの4つの実装方法

                                                                    2 松本 和高
 株式会社エクスプラザ リードエンジニア
 X: _mkazutaka
 Github: mkazutaka
 18年にバックエンドエンジニアとしてメルカリに入社。その後、ミラ ティブ、フリーランスを得て株式会社エクスプラザに所属。フロント エンドからバックエンドまで幅広く開発しています。趣味で、FXの自 動売買Botを作成している
 現在08/30に第一子が生まれ現在育休中
 https://note.com/mkazutaka/n/n9f0e2c4dee96 CONFIDENTIAL INFORMATION: Not for Public Distribution - Do Not Copy 3 株式会社エクスプラザ (EXPLAZA, Inc.) 会社名 プロダクトの力で、豊かな暮らしをつくる ミッション 代表取締役CEO 高橋一生 代表者 2020年07月03日 設

                                                                      社内情報検索システムで用いられるRAGの4つの実装方法
                                                                    • 【これがゲームチェンジャーか!】松尾研のTanuki-8BとTanuki-8x8Bを試す|shi3z

                                                                      なぜタヌキなのか? その謎は謎のままだが、とにかく日本語性能がGemini1.5Proに次ぎ、少し前のGPT-4よりも高い上に商用利用可能という太っ腹仕様なので使わない手はない。むしろこれさえあればもう誰もGPTに課金しなくて済む、そんな未来が来るのかもしれない。 しかし、Tanukiは特殊な何かをしてるらしくMLXに簡単にコンバートできずvllmで動かすときもちょっと魔改造したvllmが必要になるという。 最近ローカルづいてる吾輩としてはできればMLXで動かしたいのだがMLXがまだTanukiに対応してない(し、そもそも何をすればTanuki対応にできるのかよくわからない)ので、とりあえず「非推奨」とされてはいるものの、Macでもギリギリ動きそうなGGUF版を動かしてみた。 from llama_cpp import Llama filename = "Tanuki-8B-dpo-v1.

                                                                        【これがゲームチェンジャーか!】松尾研のTanuki-8BとTanuki-8x8Bを試す|shi3z
                                                                      • チャットAI「Claude」人気機能「Artifacts」が誰でも使えるようになった

                                                                        Anthropicが提供するAIサービス「Claude.ai」の新機能「Artifacts」が、8月28日から全ユーザーに開放された。iOS版およびAndroid版のClaudeアプリでも利用可能だ。 Artifactsは、Claudeをアシスタントとしてコンテンツを作ることに特化した機能。ユーザーはArtifactsを通じて、Claudeとともに作成したプログラムなどを専用のウィンドウで確認し、発展させられる(関連記事:チャットAI「Claude」すごい新機能「Artifacts」の使い方、全部教えます)。 Artifacts機能は2024年6月にプレビュー版として導入後、数千万件のArtifactsが作成されるなど、多くのユーザーに活用されてきたという。機能を利用することで、コードスニペット、フローチャート、SVGグラフィックス、ウェブサイト、インタラクティブなダッシュボードなど、さま

                                                                          チャットAI「Claude」人気機能「Artifacts」が誰でも使えるようになった
                                                                        • 今さら聞けない!? AWSの生成AIサービス Amazon Bedrock入門!

                                                                          Bedrockの入門書、アマゾンのクラウド書籍でベストセラー1位です! https://www.sbcr.jp/product/4815626440/

                                                                            今さら聞けない!? AWSの生成AIサービス Amazon Bedrock入門!
                                                                          • アップル、高度な言語理解を持つ新型AIモデル「MM1」を発表

                                                                            アップルの研究チームは3月14日、画像とテキストを理解し処理する能力を持つマルチモーダル大規模言語モデル「MM1」を発表した。今のところ論文のみの公開で、一般公開の時期は明かされていない。 一部ベンチマークではGPT-4Vをも凌ぐ性能を発揮 複数(30億、70億、300億)のパラメータサイズを備えるMM1は、10億以上の画像および30兆語以上のテキスト、GitHubのコード例などの多様なデータセットを用い、教師なし学習と教師あり学習を組み合わせる独自の方法で学習され、多様なタスクに対して高い精度を示すという。 各種ベンチマークの結果によると、30億および70億パラメーターのモデルはそれぞれのモデルサイズにおいて過去最高を記録。特にVQAv2(画像理解)、TextVQA(画像内のテキスト情報)、ScienceQA(科学知識)、MMBench(マルチモーダル)、MathVista(数学)などの

                                                                              アップル、高度な言語理解を持つ新型AIモデル「MM1」を発表
                                                                            • Google、アプリ実行時に生成AIが適切なUIを構成し動的生成する「AI Generated UI」発表

                                                                              Google、アプリ実行時に生成AIが適切なUIを構成し動的生成する「AI Generated UI」発表 基本的に、アプリケーションのユーザーインターエイス(UI)は開発時に設計され実装されて、その実装通りに実行時に表示されるものです。 しかしこのUIを開発時ではなく、アプリケーションの実行時に生成AIが適切に構成して動的に生成し表示する「AI Generated UI」という仕組みを、Googleがインドのバンガロールで行われたイベント「Google I/O Connect Bengaluru 2024」で発表しました。 現時点でAI Generated UIはFlutterフレームワークの上にアーリープレビューとして実装されており、ユーザーの意図に基づいてFlutterが動的にUIコンポーネントとレイアウトを構成し、ユーザーにパーソナライズされた最適なUIを表示すると説明されています

                                                                                Google、アプリ実行時に生成AIが適切なUIを構成し動的生成する「AI Generated UI」発表
                                                                              • v0(ブイゼロ)の使い方を徹底解説!始め方や料金、プロンプトも紹介

                                                                                テキストだけでサイトやアプリを構築できるv0(ブイゼロ)と呼ばれるAIツールが、SNSを中心に話題となっています。 v0では、テキストだけで(ノーコードで)、サイトの見た目(UI:ユーザーインターフェース)やゲーム・アプリを作成できます。 とはいえ、「v0が話題なのは知っているが、どうやって使えばいいのかわからない」と疑問をもっている方は多いでしょう。 そこで本記事では、v0の始め方や使い方を徹底解説しています。また、実際に作成したプロダクトや、v0を使うコツも紹介しているため、ぜひ参考にしてみてください。 この記事を読むことで、v0の使い方がわかり、デザイナー以外の方でもクオリティの高いプロダクトを作れるようになるでしょう。 弊社SHIFT AIでは、v0の特徴や使い方、本記事では紹介してない活用例などをまとめた資料を法人様向けに提供しています。 ご興味のある方は、ぜひ以下のリンクからダ

                                                                                  v0(ブイゼロ)の使い方を徹底解説!始め方や料金、プロンプトも紹介
                                                                                • 「GAFA」は「GOMA」に? AIの未来を握る4社とは | 米誌が考える、テックの行き先

                                                                                  「いまが後継者誕生の瞬間かもしれない」──「GAFAM」が支配するテクノロジー業界についてそう語るのは、コロンビア大学ロースクールの教授ティム・ウーだ。 これまでも、グーグル、アップル、フェイスブック(現メタ)、アマゾン、マイクロソフトの頭文字をとって表現されてきたテック業界の主要メンバーたちは、Netflixを加えて「FAANG」になったり、最近ではテスラとエヌビディアの台頭で「MATANA」と呼ばれたりしてきた。 そんななか、米誌「アトランティック」が着目したのは、勢いを増す生成AIの分野で注目を集める「GOMA」だ。AIチャットボットとその類のものはまだ初期段階にあるとしながらも、「AIの世界では、すでにすべてがたった4社に集約されつつある。グーグル、オープンAI、マイクロソフト、アンソロピックである」と書く。 従業員数たった数百人のスタートアップ企業オープンAIは、2022年11月

                                                                                    「GAFA」は「GOMA」に? AIの未来を握る4社とは | 米誌が考える、テックの行き先