  • ChatGPTで独自データを学習させて回答してもらう方法 - Qiita

    ChatGPT,使っていますか? ChatGPTは文章を要約したり、プログラム作ってくれたり、一緒にブレストしてくれたりして本当に便利なのですが、社内情報などの独自データに関する情報については回答してくれません。 プロンプトに情報を記述して、そこに書かれている情報から回答してもらう方法もありますが、最大トークン4000の壁がありますので、限界があるかと思います。 この課題についてなんとかならないかと考えて色々と調べて見たところ、解決する方法が見つかり、いろいろと検証をして見ましたのでその結果をシェアしたいと思います。 サンプルコード(GoogleColab) 百聞は一見にしかずということで、実際に試したサンプルは以下にありますので、まずは動かしてみることをお勧めします。 このコードを上から順番に動かすと、実際にインターネット上から取得したPDFファイルに関する内容をChatGPTが回答して

    • つくりながら学ぶ!AIアプリ開発入門 - LangChain & Streamlit による ChatGPT API 徹底活用

      つくりながら学ぶ!AIアプリ開発入門 - LangChain & Streamlit による ChatGPT API 徹底活用 この本では、LangChain と Streamlit を用いて、ChatGPT APIを活用するAIアプリを開発していきます。つくりながら学ぶことを重視し、簡単なチャットアプリ開発から始めて、Embeddingを活用するアプリ開発まで、ステップバイステップで学べます。 AIアプリをローカル環境で開発した後は、WEB上にデプロイする方法も学びます。クラウドの知識もほぼ必要なく、ランニングコストも掛からない方法で行うため、ぜひ作ったアプリを公開することにチャレンジしてみましょう。 500円と設定していますが投げ銭用です。本文は全て無料で読めます。

      • ChatGPTで独自データを扱うためのエンべディング|緒方 壽人 (Takram)

        【2023/11/7追記】 OpenAI Dev Dayにて、開発者向けの大型アップデートが発表されました。この記事で紹介している手法は、Retrieval-Augmented Generation(RAG)と呼ばれてきましたが、今回のアップデートでコンテクスト長(やりとりできるテキストの長さの上限)がこれまでの8Kから128K(12万8千トークン)に大幅にアップするため、一般的な本の内容は1冊分丸ごと渡すことができるようになります。独自データベースとの連携という意味では、ここで紹介している手法も引き続き有効な手法ですが、API関連でも様々な機能が追加されているので、リリースやSam Altmanによるキーノートは要チェックです。 ChatGPTは、膨大な量のテキストを学習してはいますが、天気予報のような最新の情報や、ある特定の本の内容や、特定のサービスの詳細についてはじめから知っているわ

        • GPT-3.5-turboの新機能を使ってCVPRの論文を良い感じに検索・推薦・要約するシステム

          はじめに 5月からTuringに中途入社した棚橋です。リクルートで広告配信システムの開発や量子アニーリングに関する研究開発に関わっていました。現在、Turingのリサーチチームで完全自動運転システムの研究開発に取り組んでいます。 3行でまとめ 今月開催されるCVPR2023では約2400本もの論文が発表されるため、見るべき論文を事前に検索しておきたい。 社内で行われた大規模言語モデル(LLM)ハッカソンをきっかけに、LLMのEmbeddingを用いて論文の「検索・推薦・要約」システムを作成し公開した。 検索クエリに文章を使った曖昧な検索が行えたり、類似論文の推薦ができる。6/13にアップデートされたGPT3.5の新機能であるファンクション機能を使うことで、複数観点に分けて研究内容の要約を出力させた。 ↓ 今回作成した、LLMを使ったCVPR論文検索システム 事の発端 Turingは、ハンド

          • GitHub - openai/chatgpt-retrieval-plugin: The ChatGPT Retrieval Plugin lets you easily find personal or work documents by asking questions in natural language.

            • SQLiteでベクトル検索ができる拡張sqlite-vssを試す|mah_lab / 西見 公宏

              SQLiteでベクトル検索を可能にするsqlite-vssそんなポータブルで便利なSQLiteですが、そのSQLiteでベクトル検索ができるとなるとより夢が広がります。 SQLite自体はファイルベースなので、あらかじめベクトルデータを設定したSQLiteデータベースファイルをアプリに組み込んで配布しても良いわけです。そうすればデータベースサーバを用意しなくて済む分コストも圧縮されますし、組み込みなのでアプリからは軽量に動作します。 ホスティングする場合でもFly.ioのようにボリュームイメージを利用できるPaaSを利用すれば、問題なく運用が可能です。 前置きが長くなりましたが、このような夢を叶えてくれる拡張がsqlite-vssです。ベクトル検索はFaissベースで実装されています。 とっても良さげではあるのですが、実際に組み込んでみた場合のコード例が見つからなかったので、手を動かして試

              • 協調フィルタリングとベクトル検索エンジンを利用した商品推薦精度改善の試み | メルカリエンジニアリング

                こんにちは、メルカリのレコメンドチームで ML Engineer をしている ML_Bear です。 以前の記事 [1] では、item2vecと商品メタデータを用いた、メルカリのホーム画面のレコメンド改善のお話をさせていただきました。今回は商品詳細画面でレコメンド改善を行ったお話をさせていただきます。商品詳細画面の例は図1の通りです。ユーザーはアイテムの詳細な説明を見たいときにこの画面に来訪するため、同様の商品を推薦する自然な接点として非常に重要です。 まず、私たちが商品詳細画面で行った改善の概要を示します。各部の詳細については次節以降で詳しく触れます。 日本有数の大規模ECサービスにおいてベクトル検索ベースの商品推薦アルゴリズムを実装し、推薦精度の大幅な改善を実現しました。 協調フィルタリングとニューラルネットワーク (以下、NN) を利用した商品推薦アルゴリズムを構築し、コールドスタ

                • openai-cookbook/examples/Question_answering_using_embeddings.ipynb at main · openai/openai-cookbook

                  • The vector database to build knowledgeable AI | Pinecone

                    Create an account and your first index in 30 seconds, then upload a few vector embeddings from any model… or a few billion. Perform low-latency vector search to retrieve relevant data for search, RAG, recommendation, detection, and other applications. Pinecone is serverless so you never have to worry about managing or scaling the database. from pinecone import Pinecone, ServerlessSpec # Create a s

                    • Introducing sqlite-vss: A SQLite Extension for Vector Search

                      Software engineer, available for freelance work! • he/him/his

                      • Vertex AI Embeddings for Text で実現する LLM のグラウンディング | Google Cloud 公式ブログ

                        Ivan CheungDeveloper Programs Engineer, Google Cloud ※この投稿は米国時間 2023 年 5 月 26 日に、Google Cloud blog に投稿されたものの抄訳です。 いま多くの人々が、ジェネレーティブ AI や大規模言語モデル(LLM)を実運用サービスにどのように導入すればよいか検討を始めています。しかし、例えば「既存の IT システムやデータベース、ビジネスデータと LLM や AI チャットボットをどのように統合すればいいだろうか」、「数千もの製品を LLM に正確に覚えさせるにはどうすれば良いだろうか」、あるいは「信頼性のあるサービスを構築するためにハルシネーションの問題をどのように扱えば良いか」といった課題と直面することになります。 これらの課題に対するシンプルな解決策となるのが、エンべディング(embeddings)と

                        • 【GPT】今日から使えるOSSライブラリまとめ - Qiita

                          はじめまして、sonesuke( https://twitter.com/sonesuke ) です。 LLMのニュースを追っかけ続けたので、これからキャッチアップする人用にまとめておきます。 各手法の説明を読む前に、「これだけは知っとけ用語」を読んでおくと意味がわかります。知っている人は飛ばしてください。 これだけは知っとけ用語 Retriever LLMの入力として含められる情報には上限があります。GPT-3.5で4k トークン。GPT-4でも、8K, 32Kトークンです。十分大きくなったとはいえ、本一冊分とかは無理なわけです。これをうまくチャンクに分けて、質問から、チャンク化された文章を検索できるようにしたものを、Retriverと言います。 詳しくは、下記のページが参考になります。 埋め込み(Embeddings) 簡単にいうと、LLMを使って、入力を固定長のベクトル表現にすること

                          • GitHub - run-llama/llama_index: LlamaIndex is a data framework for your LLM applications

                            LlamaIndex (GPT Index) is a data framework for your LLM application. Building with LlamaIndex typically involves working with LlamaIndex core and a chosen set of integrations (or plugins). There are two ways to start building with LlamaIndex in Python: Starter: llama-index (https://pypi.org/project/llama-index/). A starter Python package that includes core LlamaIndex as well as a selection of inte

                            • Emerging Architectures for LLM Applications | Andreessen Horowitz

                              There are many different ways to build with LLMs, including training models from scratch, fine-tuning open-source models, or using hosted APIs. The stack we’re showing here is based on in-context learning, which is the design pattern we’ve seen the majority of developers start with (and is only possible now with foundation models). The next section gives a brief explanation of this pattern; experi

                              • LlamaIndexを完全に理解するチュートリアル その1:処理の概念や流れを理解する基礎編(v0.6.8対応) | DevelopersIO

                                なおRetrieverModeは、後述するas_query_engineでQueryEngineを作成する際に与えることができます。 Contextについて IndexとRetrieverは密接に関連しているものですが、それとは別に依存する処理クラスをContextとして与えます。 このContextは具体的には、Storage ContextとService Contextの2種類です。 冒頭のサンプルでは、デフォルトで動作しているためContextが見えないのですが、明示的に書くと以下のようになります。 from llama_index import StorageContext from llama_index.storage.docstore import SimpleDocumentStore from llama_index.storage.index_store import

                                • Qdrant ベクトル検索エンジン

                                  この記事はオープンソースのベクトル検索エンジンQdrant(クワッドラント)の使い方と類似記事検索についての前編になります。 初心者向けにコンセプトの理解を優先し、難しい用語の使用はあえて避けています。 使用するもの Qdrant オープンソースベクトル検索エンジン (Rust実装) GiNZA spaCy ドキュメントのベクトル化 livedoorニュースコーパス ライブドアのニュース記事 (株式会社ロンウィット) Python 3.10 Qdrantとは? オープンソースのRust製ベクトル検索エンジンです。クライアントはPython SDK、REST API、gRPCで接続できます。クラウドサービス版も準備中のようです。 Qdrantを使用したデモサイトもあります。 ベクトル検索エンジンとは? みなさんが思い浮かべる検索エンジンはキーワードを使用して検索するものでしょう。検索ボックス

                                  • Qdrant - Vector Database

                                    Powering the next generation of AI applications with advanced and high-performant vector similarity search technology.

                                    • GiNZAのja-ginza-electraモデルでELECTRAベースの単語ベクトルを使用できるようにする - OPTiM TECH BLOG

                                      はじめに R&Dチーム所属の伊藤です。相も変わらず自然言語処理と格闘する毎日を送っています。 今回は個人的にとても楽しみにしていたGiNZA v5の新モデルであるja-ginza-electraを使って、前後の文脈を加味した単語ベクトルを求められるようにするまでの手順をまとめました。 はじめに GiNZA v5について セットアップ モデルのロード + 文の解析方法 行いたいこと Contextualな単語ベクトル ELECTRAモデルの出力と単語ベクトルの計算 spaCyのUser hooksの追加 おわりに GiNZA v5について GiNZAはspaCyをベースにしたPythonの日本語向け自然言語処理ライブラリです。 形態素解析をはじめとして、固有表現抽出や品詞タグ付け、構文解析などを行うことが可能です。 このGiNZAですが、2021年8月26日に最新バージョンであるv5が公開さ

                                      • GitHub - ddangelov/Top2Vec: Top2Vec learns jointly embedded topic, document and word vectors.

                                        • 「コサイン類似度」で文書がどれだけ似ているかを調べてみた | DevelopersIO

                                          今年のマックフルーリー「ストロベリー ココアクッキー」が個人的大ブームになっています。暖かい部屋で猫と触れ合いながらアイスを食べる至福の時間を楽しんでいるのですが、実はお腹が弱いので色々なものとトレードオフでアイスを食べて家で仕事を頑張る日々です。 ▲ ラムレーズンのアイスも好きです、オススメがあったら教えてください こんにちは。データアナリティクス事業本部 インテグレーション部 機械学習チームのShirotaです。 これは「 クラスメソッド 機械学習チーム アドベントカレンダー 2022 」12/21(水)の記事となっております。 前日 12/20(火)の記事は以下よりご覧ください。自然言語処理においてTransformersなどで有名なHugging FaceのモデルをVertex AIにデプロイするという、Google CloudとHugging Faceの個人的には嬉しい二つを活用

                                          • Storing OpenAI embeddings in Postgres with pgvector

                                            A new PostgreSQL extension is now available in Supabase: pgvector, an open-source vector similarity search. The exponential progress of AI functionality over the past year has inspired many new real world applications. One specific challenge has been the ability to store and query embeddings at scale. In this post we'll explain what embeddings are, why we might want to use them, and how we can sto

                                            • Boosting RAG: Picking the Best Embedding & Reranker models

                                              UPDATE: The pooling method for the Jina AI embeddings has been adjusted to use mean pooling, and the results have been updated accordingly. Notably, the JinaAI-v2-base-en with bge-reranker-largenow exhibits a Hit Rate of 0.938202 and an MRR (Mean Reciprocal Rank) of 0.868539 and withCohereRerank exhibits a Hit Rate of 0.932584, and an MRR of 0.873689. When building a Retrieval Augmented Generation

                                              • いろんなT5からSentence Embeddingをとって遊ぶ | Shikoan's ML Blog

                                                自然言語処理モデルT5を使って文章単位の埋め込み量(Sentence Embedding)を取得することを考えます。T5のEmbeddingはトークン単位ですが、平均を取ることで、簡単に文章単位に変換できます。Sentence T5としてモデルが公開されていない場合でも、既存のT5から自在に特徴量を取得できることを目標とします。Flan-T5からSentence Embeddingをとって見たりします。 はじめに 普段画像処理ばっかりやってる自然言語処理素人だけど、Imagenで使っていたり、Unified IOがベースにしていたり、何かとT5を聞きますよね。 調べていたらtransformersのライブラリから簡単に利用できることがわかったので、今回遊んでいきたいと思います。このブログでは珍しいNLPの内容です。 問題点 (自然言語処理やっている人には当たり前かもしれませんが、)一つ問題

                                                • GitHub - featureform/featureform: The Virtual Feature Store. Turn your existing data infrastructure into a feature store.

                                                  Featureform is a virtual feature store. It enables data scientists to define, manage, and serve their ML model's features. Featureform sits atop your existing infrastructure and orchestrates it to work like a traditional feature store. By using Featureform, a data science team can solve the following organizational problems: Enhance Collaboration Featureform ensures that transformations, features,

                                                  • GitHub - UKPLab/sentence-transformers: Multilingual Sentence & Image Embeddings with BERT

                                                    This framework provides an easy method to compute dense vector representations for sentences, paragraphs, and images. The models are based on transformer networks like BERT / RoBERTa / XLM-RoBERTa etc. and achieve state-of-the-art performance in various tasks. Text is embedded in vector space such that similar text are closer and can efficiently be found using cosine similarity. We provide an incr

                                                    • 人間の言葉をコンピュータが理解できるようにするための「ベクトル化」の話 | DevelopersIO

                                                      12月に毎日楽しみにすることと言えば、そう。これですね。 ▲ 今年はめちゃくちゃ美味しいシュトーレンを買って育てています こんにちは。データアナリティクス事業本部 インテグレーション部 機械学習チームのShirotaです。 これは「 クラスメソッド 機械学習チーム アドベントカレンダー 2022 」12/5(月)の記事となっております。 前日 12/4(日)の記事は以下よりご覧ください。Amazon Forecastがいい仕事をしております。 さて、私はこの12月を勝手に 自然言語処理強化月間 として、自然言語処理について学習したことを基礎的なことから中心に記事にしていく予定です。 予定なので、機械学習分野の別のことやクラウドで触れるマネージドなML系サービスを触った記事になることもあるかもしれませんが、基本的にはこの方針でやっていこうと思います。 早速いってみましょう! そもそも自然言語

                                                      • Google Cloud、エンタープライズ向け生成 AI の利用を拡大 | Google Cloud 公式ブログ

                                                        ※この投稿は米国時間 2023 年 7 月 19 日に、Google Cloud blog に投稿されたものの抄訳です。 生成 AI の開発は猛烈な勢いで続いており、この破壊的技術を活かせるようなエンタープライズ向け機能を利用できるかどうかがかつてなく重要となっています。 Google の数十年に及ぶ調査とイノベーション、そして AI への投資を活用することで、Google Cloud は常に、セキュリティとデータ ガバナンス、そして全体的なスケーラビリティが用意されている状態で生成 AI を利用できるようにしています。 この目的のため、先月 Google は Vertex AI での生成 AI サポートの一般提供を発表しました。これにより Google Research から優れた基盤モデルにアクセス可能となり、これらのモデルをカスタマイズして利用するためのツールも利用できるようになりま

                                                        • PostgreSQL を使用して生成 AI アプリケーションを構築するための AlloyDB AI を発表 | Google Cloud 公式ブログ

                                                          ※この投稿は米国時間 2023 年 8 月 30 日に、Google Cloud blog に投稿されたものの抄訳です。 生成 AI は数え切れないほどの方法で私たちの想像力を捉えてきました。それは、人間のような反応をする chatbot だけでなく、まったく新しいユーザー エクスペリエンスを引き出してくれます。さらに、追加の専門的なスキルを必要とする従来の AI ワークロードとは異なり、これらの新しい生成 AI ワークロードは、デベロッパー コミュニティのより多くの開発者が利用できます。アプリケーション デベロッパーが生成 AI アプリケーションの構築に本格的に取り組む際、イノベーションの鍵はモデルそのものだけでなく、その使用方法やモデルの基盤にあるデータにもあります。 このたび、Google は、Google Cloud Next において、運用データを使用したパフォーマンスとスケーラ

                                                          • GitHub - neuml/txtai: 💡 All-in-one open-source embeddings database for semantic search, LLM orchestration and language model workflows

                                                            All-in-one embeddings database txtai is an all-in-one embeddings database for semantic search, LLM orchestration and language model workflows. Embeddings databases are a union of vector indexes (sparse and dense), graph networks and relational databases. This enables vector search with SQL, topic modeling, retrieval augmented generation and more. Embeddings databases can stand on their own and/or

                                                            • mots quotidiens.

                                                              2022年の年末に, 自然言語処理の実質的に全論文が集まる ACL anthologyの論文を「内容」で検索できるニューラル検索システム, "ACL2Vec" http://clml.ism.ac.jp/ACL2Vec/を公開しました。これは, 2021年の言語処理学会年次大会で発表した "Researcher2Vec" [PDF] の方法を, 2022年秋までのACL anthologyの内容が全て含まれている新しいデータセット, https://github.com/shauryr/ACL-anthology-corpus に対して適用したものです。 この方法は完全に統計的に動いており, 内部的には1000次元のニューラル文書ベクトルをSVDで効率的に計算し, 基本的な線形代数を用いて最適解を返すものになっています。 この方法を拡張して, Researcher2Vecにもあるように,

                                                              • 20x faster than pgvector: introducing pg_embedding extension for vector search in Postgres and LangChain - Neon

                                                                20x faster than pgvector: introducing pg_embedding extension for vector search in Postgres and LangChainHNSW Index for approximate nearest neighbor search in Postgres Back when we wrote this, we were proud to bring HNSW indexes to Postgres. Since then, pgvector has added support for the HNSW index, and we've chosen to pause the development of pg_embedding and contribute to pgvector instead. We pla

                                                                • Data2vec: A General Framework for Self-supervised Learning in Speech, Vision and Language

                                                                  Data2vec: A General Framework for Self-supervised Learning in Speech, Vision and Language 概要While the general idea of self-supervised learning is identical across modalities, the actual algorithms and objectives differ widely because they were developed with a single modality in mind. To get us closer to general self-supervised learning, we present data2vec, a framework that uses the same learning

                                                                  • Introducing text and code embeddings

                                                                    Embeddings are numerical representations of concepts converted to number sequences, which make it easy for computers to understand the relationships between those concepts. Our embeddings outperform top models in 3 standard benchmarks, including a 20% relative improvement in code search. Embeddings are useful for working with natural language and code, because they can be readily consumed and comp

                                                                    • https://www.sbert.netindex.html/
