並び順

ブックマーク数

期間指定

  • から
  • まで

1 - 40 件 / 269件

新着順 人気順

ベクトルの検索結果1 - 40 件 / 269件

タグ検索の該当結果が少ないため、タイトル検索結果を表示しています。

ベクトルに関するエントリは269件あります。 AI検索DB などが関連タグです。 人気エントリには 『弁護士が「エロサイト利用料500万請求されてます」という法律相談で虚無を感じた話→「詐欺は無くならない…」「行動力のベクトルがおかしい」』などがあります。
  • 弁護士が「エロサイト利用料500万請求されてます」という法律相談で虚無を感じた話→「詐欺は無くならない…」「行動力のベクトルがおかしい」

    ピピピーッ @O59K2dPQH59QEJx 役場相談会でのエロサイト利用料相談など。 ワイ「詐欺です。支払う必要ありません」 相談者「でも不安です」 みたいな問答を100回近く繰り返した末に、後日、相談者から、「合計500万振り込んだ。どうしたら良いか相談したい」みたいな問い合わせがある。 街弁は、虚無だ。 2022-06-29 16:40:03

      弁護士が「エロサイト利用料500万請求されてます」という法律相談で虚無を感じた話→「詐欺は無くならない…」「行動力のベクトルがおかしい」
    • ベクトル検索システムの気持ち

      2025.03.25

        ベクトル検索システムの気持ち
      • 「ベクトル検索 vs 全文検索」〜Amazon Bedrockの埋め込みモデルを用いたプロトタイピング〜 - コネヒト開発者ブログ

        ※ この記事は、AWS (Amazon Web Services) の技術支援を受けて執筆しています。 はじめに この記事はコネヒトアドベントカレンダー 8日目の記事です。 コネヒト Advent Calendar 2023って? コネヒトのエンジニアやデザイナーやPdMがお送りするアドベント カレンダーです。 コネヒトは「家族像」というテーマを取りまく様々な課題の解決を 目指す会社で、 ママの一歩を支えるアプリ「ママリ」などを 運営しています。 adventar.org こんにちは!コネヒトの機械学習エンジニア y.ikenoueです。 突然ですがみなさん、Amazon Bedrockをご存知でしょうか。 aws.amazon.com Amazon Bedrock(以下、Bedrock)は、テキスト生成AIをはじめとする基盤モデル (Foundation Model)*1を提供するAWS

          「ベクトル検索 vs 全文検索」〜Amazon Bedrockの埋め込みモデルを用いたプロトタイピング〜 - コネヒト開発者ブログ
        • 単語ベクトルで遊ぼう

          日本語の単語ベクトル演算ができるサイト。 pythonでバックエンドの練習

          • 医薬品検索にベクトル検索を導入したら、デフォで検索ニーズをほぼ満たせそうだった話

            どんな人向けの記事? 医薬品のような難しい検索ニーズにこたえるためにベクトル検索を利用する知見を見てみたい MySQLの全文検索と、ベクトル検索の精度や速度を比較してみたい ベクトルDBとEmbeddingモデルを利用した簡単なベクトル検索の実装方法を知りたい 医薬品の検索ニーズは多様なので、ベクトル検索で解決できるか試したい 1つの医薬品を指す名称は、複数存在するため医薬品検索は意外と面倒な問題です。 例えば、日本人なら頭痛や生理痛、発熱したときに「ロキソニン」を飲んだことがあるかもしれません。この名称は商品の名称ですが、成分の名称は「ロキソプロフェンナトリウム水和物」です。 さらに、ロキソプロフェンには錠剤以外にもテープやパップといった剤形の違いがあります。 そして最後に、ロキソプロフェンを作っている会社は複数あるので、末尾に「トーワ」や「ファイザー」などの組み合わせが存在します。ロキ

              医薬品検索にベクトル検索を導入したら、デフォで検索ニーズをほぼ満たせそうだった話
            • 高次元ベクトルを「矢印」とイメージするのがちょっとしっくりこない理由|shi3z

              なぜAIを考える時にベクトルを「矢印」と捉えるべきではないのか。 実際には矢印として考えたほうがいい例外もあります。 たとえば、特徴空間の任意の2点の引き算や足し算をするとき。 矢印のメタファーが使えます。 あるベクトルAから別のベクトルBを引いたベクトルCは、BからAへ伸びる矢印としてイメージするのは大丈夫です。 この性質を利用して、プロンプト芸が成り立つケースもあります。 たとえば画像生成系AIで使われるネガティブプロンプトはそういう性質を使っています。 しかし、根本的に、我々が普段イメージする二次元の矢印で示されるベクトルと、十次元以上の高次空間のベクトルは、全く異なる性質をもっていると考えるべきです。低次のベクトルと、高次のベクトルでは、共通する要素はあるけれども、それはごく一部に過ぎないということです。 例を挙げましょう。 1次元のベクトルは、正負の向きと大きさを持ちます。 数直

                高次元ベクトルを「矢印」とイメージするのがちょっとしっくりこない理由|shi3z
              • PostgreSQLを生成AIの情報源として使える高速ベクトルデータベース化拡張「Pgvectorscale」がオープンソースで公開。Pgvectorをさらに高性能化

                PostgreSQLのマネージドサービスなどを提供しているTimescaleは、PostgreSQLで高速なベクトルデータベース機能を実現する拡張機能「Pgvectorcale」をオープンソースとして公開したことを発表しました。 大規模言語モデルを用いた生成AIの注目度が高まる中で、文章や画像、音声といったデータの特徴を数値で表現するベクトル化(もしくはエンベディング)により、大規模言語モデルで扱えるようにすることへの注目も高まってきています。 ベクトルデータベースは、このベクトル化された膨大なデータの保存や類似度の検索などが可能です。 例えば、RAG(Retrieval Augmented Generation)と呼ばれる手法により大規模言語モデルの回答に外部のデータベースから取得したデータを組み込むことができます。こうした場面でベクトルデータベースが活用されます。 高速ベクトルデータベ

                  PostgreSQLを生成AIの情報源として使える高速ベクトルデータベース化拡張「Pgvectorscale」がオープンソースで公開。Pgvectorをさらに高性能化
                • SQLiteでベクトル検索ができる拡張sqlite-vssを試す|mah_lab / 西見 公宏

                  SQLiteでベクトル検索を可能にするsqlite-vssそんなポータブルで便利なSQLiteですが、そのSQLiteでベクトル検索ができるとなるとより夢が広がります。 SQLite自体はファイルベースなので、あらかじめベクトルデータを設定したSQLiteデータベースファイルをアプリに組み込んで配布しても良いわけです。そうすればデータベースサーバを用意しなくて済む分コストも圧縮されますし、組み込みなのでアプリからは軽量に動作します。 ホスティングする場合でもFly.ioのようにボリュームイメージを利用できるPaaSを利用すれば、問題なく運用が可能です。 前置きが長くなりましたが、このような夢を叶えてくれる拡張がsqlite-vssです。ベクトル検索はFaissベースで実装されています。 とっても良さげではあるのですが、実際に組み込んでみた場合のコード例が見つからなかったので、手を動かして試

                    SQLiteでベクトル検索ができる拡張sqlite-vssを試す|mah_lab / 西見 公宏
                  • コサイン類似度とは? 新しい検索体験を支えるベクトルDBの基本技術を押さえる

                    生成AI(人工知能)のRAG(検索拡張生成)の導入など企業で使われ始めたベクトルデータベース。その特徴は検索にある。ベクトルデータベースとはどのようなデータベースで、なぜ「意味」で検索できるのか。ベクトルデータベースの基本技術についてデータベースの専門家が解説する。(編集部) ベクトルデータベースは自然言語処理などAI技術の発展の中で生まれたデータベースであり、ベクトルの概念を用いてデータを管理するデータベースです。生成AIの登場とともに注目を集め、いまや多くの既存のDBサービスやその応用サービスにベクトルデータベースの機能が組み込まれています。 以下で検索を例にベクトルデータベースの特徴や動作の仕組みを解説します。 ベクトルによる「類似度」の判断 ベクトルデータベースがストアするのは数値の羅列です。単語や文章などの「意味」「文脈」を数値化したデータであり、個々の数値を取り出して意味や違い

                      コサイン類似度とは? 新しい検索体験を支えるベクトルDBの基本技術を押さえる
                    • MySQL 9.0登場。 JavaScriptストアドプログラムが利用可能に、ベクトル型もサポート

                      オラクルはリレーショナルデータベース「MySQL」の新バージョンとなる「MySQL 9.0」をリリースしました。 MySQLは現在、数カ月ごとにリリースされ積極的に新機能が追加されるイノベーションリリース(Innovation Release)と、長期で安定して利用されることを想定して2年ごとにリリースされる長期サポート(LTS:Long Term Support)版の2つに分かれてリリースされています。 現在のLTS版は今年(2024年)4月に登場したMySQL 8.4です。 そして今回リリースされたMySQL 9.0はイノベーションリリースに該当します。最新機能をいちはやく試したい開発者やユーザーのためのリリースです。 MySQL 9.0の主な新機能 MySQL 9.0のドキュメント「What Is New in MySQL 9.0」から、新機能「JavaScriptストアドプログラム

                        MySQL 9.0登場。 JavaScriptストアドプログラムが利用可能に、ベクトル型もサポート
                      • RAGの「ベクトル検索」の弱みを、ナレッジグラフで補う

                        株式会社ナレッジセンスは、生成AIやRAGを使ったプロダクトを、エンタープライズ向けに開発提供しているスタートアップです。本記事では、RAGの性能を高めるための「HybridRAG」という手法について、ざっくり理解します。 この記事は何 この記事は、RAGシステムを専門用語に強くするための手法「HybridRAG」の論文[1]について、日本語で簡単にまとめたものです。 今回も「そもそもRAGとは?」については、知っている前提で進みます。確認する場合は以下の記事もご参考下さい。 本題 ざっくりサマリー HybridRAGは、通常のRAG(Retrieval Augmented Generation)で用いられる「ベクトル検索」の弱みを補い、回答精度を向上するための手法です。BlackRockとNVIDIAの研究者らによって2024年8月に提案されました。 ベクトル検索の弱みはいくつかあります

                          RAGの「ベクトル検索」の弱みを、ナレッジグラフで補う
                        • ベクトルデータベースとは何かを図解、生成AIで「必須の存在」はどんな役割を担うのか

                          生成AIの可能性を広げる「ベクトルデータベース」への関心が急速に高まっている。ベクトルデータベースとは、生成AIが扱う非構造化データの格納・管理・照会で利用されるデータベースのこと。ここではベクトルデータベースの基本をわかりやすく解説するとともに、リレーショナルデータベースとの違い、生成AIの普及において、どのような役割を果たすのか、注目される理由などと合わせて紹介しよう。 ベクトルデータベースとは何か? 今後2~3年かけて企業における生成AI活用が急速に増えると予想される中、「ベクトルデータベース」への注目度が高まっている。 ベクトルデータベースとは、生成AIが扱う非構造化データ(テキスト、画像、音声など)の格納・管理・照会で利用されるデータベースで、企業が自社データを活用した生成AIアプリケーションを開発する際に必須となるインフラだ。 企業で最も普及している生成AIユースケースの1つと

                            ベクトルデータベースとは何かを図解、生成AIで「必須の存在」はどんな役割を担うのか
                          • RAGにベクトルDBは必要ない!DBも不要で運用めちゃ楽な RAG Chatbot を作った話

                            Google Analytics でサイト速度を計測する / Measure site speed with Google Analytics

                              RAGにベクトルDBは必要ない!DBも不要で運用めちゃ楽な RAG Chatbot を作った話
                            • ベクトルデータの容量を96%削減するBinary Embedding

                              導入 こんにちは、株式会社ナレッジセンスの須藤英寿です。普段はエンジニアとして、LLMを使用したチャットのサービスを提供しており、とりわけRAGシステムの改善は日々の課題になっています。 RAGのシステムの中では、どんな情報にアクセスするかを決定する際に、Embeddingと呼ばれる文章をベクトル化する技術が使用されています。そして多くの場合では小数(float)の多次元ベクトルが採用されています。 しかし、Embeddingの中には各ベクトルの数値を1Bitのデータとして扱うBinary Embeddingというものが存在します。 本記事では、Embeddingの手法の一つであるそのBinary Embeddingについて解説と検証を行います。 サマリー Binary Embeddingを採用することで以下のような効果を得ることができます。 保管するベクトルデータの容量を96%ほど削減で

                                ベクトルデータの容量を96%削減するBinary Embedding
                              • 日本語形態素解析器 Sudachi の語彙データ(SudachiDict)および単語ベクトル(chiVe)が AWS 上で Open Data として公開されました | Amazon Web Services

                                Amazon Web Services ブログ 日本語形態素解析器 Sudachi の語彙データ(SudachiDict)および単語ベクトル(chiVe)が AWS 上で Open Data として公開されました 多くの機械学習デベロッパーの方々が、AWS 上でさまざまなアルゴリズムの開発やモデルの構築を行なっています。中でも自然言語処理を行う際には、対象言語の言語ごとの辞書データや単語ベクトルデータを用いることが一般的です。これらのデータは GB 以上のサイズにおよび、また計算の際にも大量の GPU および CPU を必要とするため、従来こうしたモデルを構築する際には常にストレージおよびコンピューティングのリソースの調達が問題となってきました。AWS 上で自然言語処理モデルの開発を行う際には、Amazon SageMaker を用いて学習に必要なリソースを確保することで、ALBERT の

                                  日本語形態素解析器 Sudachi の語彙データ(SudachiDict)および単語ベクトル(chiVe)が AWS 上で Open Data として公開されました | Amazon Web Services
                                • 「テンソル」「ベクトル」「行列」とは?ディープラーニングの情報整理のカラクリ

                                  「テンソル」とは? ディープラーニングでは、複雑なニューラルネットワーク上で膨大な数の数値が駆け巡っています。コンピュータはそれらの数値を個別に扱うこともできます。 しかし、そのままではニューラルネットワーク内での計算を理論化できませんし、何よりもニューラルネットワークごとに扱う数値に関する何かしらの共通認識がなければ、ほかの人間がプログラムのコードを読んでも何が書いてあるのか分からず、技術の応用や発展につなげにくくなります。そこで使われるようになった数学的概念が「テンソル」でした。 テンソルという概念は数学的に理解するには難解なものですが、私たちから見る分には「沢山の数値の集まり」として見えます。 基本的には沢山の数値を集めて「1つの情報」として表現するのがテンソルで、例えるなら「ゲームキャラクターの特徴を無数のステータスで表す」ようなものです。表現したい情報は「キャラクター」という1つ

                                    「テンソル」「ベクトル」「行列」とは?ディープラーニングの情報整理のカラクリ
                                  • 似た文書をベクトル検索で探し出したい ~SentenceTransformersとFaissで効率的にベクトル検索~

                                    はじめに この記事では、ベクトル検索で似た文書を検索するコードを解説します。具体的には、Sentence Transformersライブラリを用いてベクトル化、Faissという近似最近傍探索ライブラリを用いて高速な検索を行います。 用語説明 ベクトル検索 ... 文書の検索にベクトルを使用する方法。例えば、文書に映画に関する内容が 10 %、音楽が 2 %、俳優が30%含まれていた時、シンプルにそれを表すと [0.1, 0.02, 0.3]というベクトルを作ることができる。Googleの説明が詳しい。 Sentence Transformers ... ベクトル検索に必要なベクトル化を行うためのライブラリ Faiss ... ベクトル同士の類似度を高速に検索してくれるライブラリ。以下のHakkyさんのページが詳しい。 コード 入力:検索したい文字のリスト、検索される文字のリスト 出力:どの

                                      似た文書をベクトル検索で探し出したい ~SentenceTransformersとFaissで効率的にベクトル検索~
                                    • 歴史好きにはたまらない! 江戸時代なのに現代風デザインの地図サイト「れきちず」が3D表示に対応 地図データをベクトルタイル化。「江戸切絵図」から町家領域の抽出も【地図ウォッチ】

                                        歴史好きにはたまらない! 江戸時代なのに現代風デザインの地図サイト「れきちず」が3D表示に対応 地図データをベクトルタイル化。「江戸切絵図」から町家領域の抽出も【地図ウォッチ】
                                      • 【ChatGPT】とベクトルデータベースによる企業内データの活用(いわゆるRAG構成) - Qiita

                                        Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article? 本記事は日本オラクルが運営する下記Meetupで発表予定の内容になります。発表までに今後、内容は予告なく変更される可能性があることをあらかじめご了承ください。下記セッションでは、本記事の内容以外にデモンストレーションも実施する予定です。 ※セミナー実施済の動画に関しては以下をご参照ください。 はじめに 2022年暮れ、ChatGPTの登場以降、あらゆる企業がDXの在り方を問われはじめ、大規模言語モデルの仕組みをどのように業務に取り入れるかを検討されていると思います。 その検討の一つとして、「GPT(LLM)が学習していない企業内のデータ

                                          【ChatGPT】とベクトルデータベースによる企業内データの活用(いわゆるRAG構成) - Qiita
                                        • ElasticsearchによるZOZOTOWNへのベクトル検索の導入検討とその課題 - ZOZO TECH BLOG

                                          こんにちは。検索基盤部の橘です。ZOZOTOWNでは、商品検索エンジンとしてElasticsearchを利用し、大規模なデータに対して高速な全文検索を実現しています。 Elasticsearchに関する取り組みは以下の記事をご覧ください。 techblog.zozo.com 検索基盤部では、ZOZOTOWNの検索結果の品質向上を目指し、新しい検索手法の導入を検討しています。本記事ではベクトル検索と呼ばれる検索手法に関して得た知見を紹介します。 ※本記事はElasticsearchバージョン8.9に関する内容となっています。 目次 目次 ベクトル検索とは ベクトル検索に期待すること Elasticsearchを使用したベクトル検索の導入 導入の簡略化 デプロイ可能な埋め込みモデル ベクトル検索のクエリ ハイブリッド検索とは Elasticsearchを用いたハイブリッド検索 RRF(Reci

                                            ElasticsearchによるZOZOTOWNへのベクトル検索の導入検討とその課題 - ZOZO TECH BLOG
                                          • 運用コストを低く抑えつつ全文検索機能を実現したい: SQLite3 で全文検索を実現する fts5 、ベクトル検索を実現する sqlite-vss

                                            運用コストを低く抑えつつ全文検索機能を実現したい: SQLite3 で全文検索を実現する fts5 、ベクトル検索を実現する sqlite-vss 2024-02-22 ドキュメント数が 1 万件に満たない状況で全文検索をしたいドキュメントは頻繁に更新はされずに日時の更新で十分オンラインでのインデキシングを考えなくてよいので、バッチで十分みたいな状態でポータビリティが高く運用コストが低い状態で全文検索を実現したいなと調べていたら SQLite3 が良さそうだったというお話。 全文検索を実現する拡張機能: https://www.sqlite.org/fts5.htmlfts5 から relevancy による order by が使えるようになったらしく、version 4 以前は、relevance をチューニングして改善するのは難しそうだなと思った。この拡張機能が作成された経緯としては

                                              運用コストを低く抑えつつ全文検索機能を実現したい: SQLite3 で全文検索を実現する fts5 、ベクトル検索を実現する sqlite-vss
                                            • RAGの処理で、リランクとベクトル検索でできることの違いを検証/解説してみる - Taste of Tech Topics

                                              こんにちは。テニスしすぎて日焼けがすごいSsk1029Takashiです。 私は普段、生成AIを活用したRAGソリューションの開発をしているのですが、RAGでは特に検索部分の調整が重要になります。 今回はその検索の中で出てくるリランクに焦点を当てて、ベクトル検索と比較してどのような特徴があるのかというところを、検証を交えて解説していきます。 概要 RAGの検索部分では、よくベクトル検索が利用されます。 理由としては、入力が基本的に質問形式になりキーワードで入力されることが多い通常の検索よりも適している、などいくつか考えられます。 ただし、実際にRAGを試してみるとわかりますが、RAGシステムではベクトル検索だけでは検索精度の面で苦労することも多いです。 そこで解決方法の一つとして考えられているのが、ベクトル検索とリランクとの併用になります。 今回は、なぜRAGはベクトル検索だけだと苦労が多

                                                RAGの処理で、リランクとベクトル検索でできることの違いを検証/解説してみる - Taste of Tech Topics
                                              • (追記あり)うっせーな性欲は加害で悪のベクトルなんだよ

                                                悪を助長するものはまた悪なんだわ よって性欲は罪であり罰であり悪なんだわ 厳格なキリスト教か?だのなんだのうっせーわ だったら厳格なキリスト教の倫理がある種正しいんじゃねーの 性欲がなかったら人類滅亡とか、だからなにさ???????? 必要悪ってだけで悪は悪じゃねーか 男は生まれながらに悪となりやすい宿命を背負った存在でそれを自覚して弁えて生きろってことなんだよ 動物としての自然な欲求を否定するな???それレイプさせろってのとどう違うんだ???? 自然にしたらレイプするから教育してんだよ 車は危険だけど便利で必要だから使われてるだろ?でも車なんてない方がいいんだよ。 交通事故が増えるんだからあいつは加害だよ もし車以上に安全で優秀な輸送手段があったらみんな乗り換えるよ 性欲も同じだよ 本質の話をしてやると性欲が達成したいのは「遺伝子の存続」なんだわ 「遺伝子の存続」という機能を満たすための

                                                  (追記あり)うっせーな性欲は加害で悪のベクトルなんだよ
                                                • 協調フィルタリングとベクトル検索エンジンを利用した商品推薦精度改善の試み | メルカリエンジニアリング

                                                  こんにちは、メルカリのレコメンドチームで ML Engineer をしている ML_Bear です。 以前の記事 [1] では、item2vecと商品メタデータを用いた、メルカリのホーム画面のレコメンド改善のお話をさせていただきました。今回は商品詳細画面でレコメンド改善を行ったお話をさせていただきます。商品詳細画面の例は図1の通りです。ユーザーはアイテムの詳細な説明を見たいときにこの画面に来訪するため、同様の商品を推薦する自然な接点として非常に重要です。 まず、私たちが商品詳細画面で行った改善の概要を示します。各部の詳細については次節以降で詳しく触れます。 日本有数の大規模ECサービスにおいてベクトル検索ベースの商品推薦アルゴリズムを実装し、推薦精度の大幅な改善を実現しました。 協調フィルタリングとニューラルネットワーク (以下、NN) を利用した商品推薦アルゴリズムを構築し、コールドスタ

                                                    協調フィルタリングとベクトル検索エンジンを利用した商品推薦精度改善の試み | メルカリエンジニアリング
                                                  • OSSベクトルDBのChromaを使ってQ&AボットをLangChainで作成する|mah_lab / 西見 公宏

                                                    新興で勢いのあるベクトルDBにChromaというOSSがあり、オンメモリのベクトルDBとして気軽に試せます。 LangChainやLlamaIndexとのインテグレーションがウリのOSSですが、今回は単純にベクトルDBとして使う感じで試してみました。 データをChromaに登録する今回はLangChainのドキュメントをChromaに登録し、LangChainのQ&Aができるようなボットを作成しようと思います。 しかしLangChainのドキュメントはほとんどがJupyter Notebook形式なので、ベクトルDBへ取り込みやすいようにフラットテキストにしてあげる必要があります。 以下の関数はJupyter Notebook形式(JSON)のファイルを分解してMarkdown形式に変換し、その後Unstructured.ioのMarkdownスプリッタを利用してコンテンツをチャンクに分割

                                                      OSSベクトルDBのChromaを使ってQ&AボットをLangChainで作成する|mah_lab / 西見 公宏
                                                    • 「ラノベ属性山盛りすぎだろ」軍服を身にまとった世界の王族の画像を検索するとヨルダン国王だけ想定とベクトルが違いすぎる件

                                                      けるちゃ @kerutya 軍服を身にまとった世界の王族の画像を検索するとき、ヨルダン国王のアブドラ2世だけ想定していたものとベクトルの異なる画像がゴロゴロ出てくる現象 pic.twitter.com/3ODDfPpRDk 2023-04-21 22:51:31

                                                        「ラノベ属性山盛りすぎだろ」軍服を身にまとった世界の王族の画像を検索するとヨルダン国王だけ想定とベクトルが違いすぎる件
                                                      • 100倍速で実用的な文章ベクトルを作れる、日本語 StaticEmbedding モデルを公開 - A Day in the Life

                                                        なお、StaticEmbedding 日本語モデル学習などの技術的なことは記事の後半に書いているので、興味がある方はどうぞ。 利用方法 利用は簡単、SentenceTransformer を使っていつもの方法で文章ベクトルを作れます。今回はGPUを使わず、CPUで実行してみましょう。なお SentenceTransformer は 3.3.1 で試しています。 pip install "sentence-transformers>=3.3.1" from sentence_transformers import SentenceTransformer model_name = "hotchpotch/static-embedding-japanese" model = SentenceTransformer(model_name, device="cpu") query = "美味しいラー

                                                          100倍速で実用的な文章ベクトルを作れる、日本語 StaticEmbedding モデルを公開 - A Day in the Life
                                                        • ベクトル検索エンジンQdrantの紹介

                                                          はじめに これはLivesense Advent Calendar 2022 DAY 14 の記事です。 普段は主にレコメンドシステムの開発・運用をやっています。仕事ではPythonを書くことが多いです。好きな言語はRustです。この記事では、ベクトル検索エンジンQdrantを紹介します。 ベクトル検索とは そもそもベクトル検索とは何だ、という人もいると思います。簡単に言えばベクトル検索は類似するベクトルを(正確性を犠牲にして)高速に計算する技術です。 なぜそのような技術が必要になるのか簡単に説明しましょう。 なぜベクトルの類似度を計算する必要があるのか 近年、機械学習技術によって様々なものがベクトルで表現されるようになりました。典型的には画像と文書(単語)です。 「類似する画像を求める」「ユーザーが入力したワードに関連する文書を返す」「ユーザーが閲覧したアイテムに類似するアイテムのリスト

                                                            ベクトル検索エンジンQdrantの紹介
                                                          • PGlite + pgvector で100行で実装するベクトル検索 (node/deno/drizzle)

                                                            pglite + pgvector で文章の類似度検索を実装します。 動機 とにかく手っ取り早くローカルにデータを突っ込んでおいて検索する RAG の雛形がほしかったんですが、調べても大規模ストレージを前提とした大掛かりな実装が多いです。 スクリプトを書いたらポンと実行できるセットアップ不要なものがあると、色々と実験ができます。 mastra/rag を読んでたら、簡単にできる気がしたのでやりました。ただ、chunk のドキュメント分割相当のものはまだ作ってません。そこまで難しい概念でもないので、雑に作れそうではあります。 qrdrant も検討しましたが、サーバーを建てるのが面倒でした 準備: ベクトル化用の関数 今回は @ai-sdk/openai を使ってベクトル化をします // OPENAI_API_KEY= import { openai } from "@ai-sdk/open

                                                              PGlite + pgvector で100行で実装するベクトル検索 (node/deno/drizzle)
                                                            • ベクトル埋め込みの最適化によるアイデンティティを保ったキャラクター生成 Preferred Networks Research & Development

                                                              本記事は、2022年夏季インターンシッププログラムで勤務された早川知志さんによる寄稿です。 はじめまして。2022年度のPFN夏季インターンに参加した早川知志です。普段はオックスフォード大学で数学(確率論・数値解析)の博士学生をしており、確率測度の離散化やそれにまつわる理論や応用に興味があります。 今回は、大学でやっていることとは趣旨を変えて、深層学習のエンターテインメント応用として二次元キャラクターの学習・生成タスクに取り組みました。 学んだキャラクターのCLIP embeddingを用いた生成例 1. Motivation オリジナルのキャラクターを描くときに角度や表情を微調整するのには途轍もない労力が必要です。筆者はイギリスでのロックダウン以来趣味でイラストや漫画を描こうとすることが増えたのですが、その過程でこのことに気付きました。生成モデルの力を借りて今までに描いたことのない構図で

                                                                ベクトル埋め込みの最適化によるアイデンティティを保ったキャラクター生成 Preferred Networks Research & Development
                                                              • 工具通販「モノタロウ」がベクトル検索導入、購入割合が1割増加

                                                                工具通販大手のMonotaROはEC(電子商取引)サイト「モノタロウ」にベクトル検索を導入した。ベクトル検索とは単語や文章などの「意味」「文脈」を数値に変換することによって、検索キーワードと関連性の高いデータを見つけられる仕組み。2024年12月18日に発表した。 同社のECサイトは以前から検索機能を備えているが今回、ベクトル検索の導入により検索のヒット率を高めた。これまで入力キーワードに対して検索結果が何もヒットしないケースが平日の場合10万件ほどあったが、導入後は3万件と約7割減少。検索頻度の少ないキーワードを組み合わせた「ロングテールキーワード」の検索では購入に至る割合である「コンバージョン」が約1割増加した。他にも商品のクリック数、ユーザー1人当たりの検索数もそれぞれ約2割増加したという。 MonotaROは多品種少量の「ロングテール商品」を扱っており、取り扱う商品数は2370万点

                                                                  工具通販「モノタロウ」がベクトル検索導入、購入割合が1割増加
                                                                • 実例で理解するベクトル検索。YouTubeの関連動画検索をつくってみた

                                                                  生成AIの隆盛に伴い、ベクトル検索やベクトルデータベースが注目されています。 ベクトルについてより理解するために簡単なデモサービスを作ってみました。 この記事では作ったサービスをもとにベクトルについて説明し、後半では生成AIとベクトルの関連について紹介します。 つくったもの 「しもふりサーチ」 - お笑いコンビ「霜降り明星」のYouTubeチャンネル、「しもふりチューブ」の過去動画を検索できるサービスです。 このサービスには以下の2つの機能があります。 1. 文章での動画検索 文章で動画を検索する 「粗品さんがクイズを出題する回」 や 「せいやさんがギターを弾く回」 など、自然言語で動画を検索できます。 2. 関連動画レコメンド 内容の近い動画をレコメンドする 動画を選ぶと、過去動画の中から内容の近い動画をレコメンドします。 これらの機能はベクトル検索で実現されています。詳細を説明していき

                                                                    実例で理解するベクトル検索。YouTubeの関連動画検索をつくってみた
                                                                  • OpenAIのAPIを使って営業資料をベクトル検索するボットをつくってみた | DevelopersIO

                                                                    はじめに 新規事業統括部の山本です。 ChatGPTをはじめとした、大規模言語モデル(Large Language Model)を使用したサービスを利用することで社内の業務効率化をした、というニュースを聞くことが増えてきました。クラスメソッドでもOpenAI APIなど、AIを利用した社内の業務効率化に取り組んでいます。 前回の記事では、OpenAIのAPIを利用した業務効率化のためのはじめの一歩として、自社ブログ(DevelopersIO)の記事を検索するボットを作成してみました。ベーシックな文章検索+応答生成(Retrieval Augmented Generation)ではなく、クエリ自体もLLMに考えさせるChatの機能を付与し、実際の動作を確認しました。 https://dev.classmethod.jp/articles/implement-devio-articles-se

                                                                      OpenAIのAPIを使って営業資料をベクトル検索するボットをつくってみた | DevelopersIO
                                                                    • RAG用途に使える、Wikipedia 日本語の embeddings とベクトル検索用の faiss index を作った - A Day in the Life

                                                                      この記事は、情報検索・検索技術 Advent Calendar 2023の12月4日の記事である。 昨今のLLMの台頭により、外部情報を In-Context Learning として利用しLLMの生成結果の性能を高めることが可能な RAG(Retrieval Augmented Generation) の重要性の高まりを感じる。ただ、RAG を使ったシステムを構築してみようにも、データが少ないと面白みが少なかったりする。その為、Wikipedia 日本語の約550万文から簡単に検索可能でRAGの入力データとして使えるような embeddings と、素早い速度でベクトル検索できるような faiss 用の index を作成した。 例えば、Wikipedia から該当の文を検索する用途はこのように使える。 from datasets.download import DownloadMana

                                                                        RAG用途に使える、Wikipedia 日本語の embeddings とベクトル検索用の faiss index を作った - A Day in the Life
                                                                      • ベクトル検索(Vector Search)とは? キーワード検索との違い

                                                                        ベクトル検索(Vector Search)とは? キーワード検索との違い:AI・機械学習の用語辞典 用語「ベクトル検索」について説明。テキストなどのデータを数値ベクトル(埋め込み)として表現し、それらのベクトル間の類似度を計算することで、関連する情報を見つけ出す検索方法を指す。Azure OpenAI Serviceの独自データ追加機能で利用可能な「キーワード検索」「ベクトル検索」「ハイブリッド検索」「セマンティック検索」という検索手法の違いについても言及する。 連載目次 用語解説 AI/機械学習/自然言語処理におけるベクトル検索(Vector Search:ベクター検索)とは、テキストや画像などのデータを数値ベクトルとして表現し、それらのベクトル間の類似度(主にコサイン類似度)を計算することで、関連する情報を見つけ出す検索方法のこと、またその方法による検索のことである。なお、数値ベクトル

                                                                          ベクトル検索(Vector Search)とは? キーワード検索との違い
                                                                        • 「メルカリShops」を支える Google のベクトル検索技術 | Google Cloud 公式ブログ

                                                                          ※この投稿は米国時間 2022 年 6 月 17 日に、Google Cloud blog に投稿されたものの抄訳です。 メルカリは、日本で 2,000 万人超、米国で 約566 万人の月間アクティブ ユーザーを持つ、近年最も成功しているマーケットプレイス サービスのひとつです。2021 年 10 月、メルカリは小規模のビジネスオーナーや個人がスマートフォンひとつでネットショップをEC ポータルを開設できる新サービス「メルカリShops」 を日本で開始しました。この新サービスの開発に際しては、「類似性」を利用した新しいマーケットプレイスの実現に Google のベクトル検索技術が導入されています。 ショップを集めただけではマーケットプレイスにはならない立ち上げ当初の「メルカリShops」は、小さな EC サイトの集まりにすぎず、ユーザーは各ショップを 1 か所ずつ開いては販売されている商品

                                                                            「メルカリShops」を支える Google のベクトル検索技術 | Google Cloud 公式ブログ
                                                                          • マップル、全国の「登記所備付地図データ」を可視化するビューア公開。法務省のデータを使いやすく 地図XMLフォーマットからベクトルタイルデータへ変換

                                                                              マップル、全国の「登記所備付地図データ」を可視化するビューア公開。法務省のデータを使いやすく 地図XMLフォーマットからベクトルタイルデータへ変換
                                                                            • 統計学や機械学習でもよく使われる相関係数が分かるベクトル計算の基礎知識

                                                                              AIに欠かせない数学を、プログラミング言語Pythonを使って高校生の学習範囲から学び直す本連載『「AI」エンジニアになるための「基礎数学」再入門』。前回は「スカラ」「ベクトル」「行列」「テンソル」の基礎知識を学びました。今回のテーマは、ベクトルの扱い方=計算方法です。 ところで、皆さんは英語を学習したことがあると思います。新たな英単語・英文法を学ぶことで、より多くの英文を読解できるようになることを経験しているはずです。何が言いたいかというと、今回のテーマを学ぶことは、数学に関連する文献を読むことにおける「単語や文法を学ぶ」ようなことに値します。つまり、より多くの文献を読解できるようになるはずなので、しっかり学んでいきましょう。 2次元のベクトル ベクトルの計算方法を解説するために、例として次のような2つのベクトルを考えます。 今回は2次元(要素が2つ)のベクトルで、次のような数字の集まり

                                                                                統計学や機械学習でもよく使われる相関係数が分かるベクトル計算の基礎知識
                                                                              • Rust製のベクトルデータベースQdrantを試してみる | DevelopersIO

                                                                                どうも!オペレーション部の西村祐二です。 ChatGPT関連の専用アプリケーションを作成しようとすると、「ベクトルデータベース」という用語が出てきます。これは私にとって、これまでまったく経験したことのない分野で理解できていない状態でした。 このままでは行き詰まってしまうという思いと、この分野に関してある程度知識を身につけておくと、今後応用がききそうだなと考えました。 そこで今回、他のベクトルデータベースと比べて機能がシンプルそうで、Rustで作られているという特徴から、Qdrantを試してみました。 Qdrantとは 公式ドキュメントから引用し翻訳したもの Qdrantは「ベクトルの類似性検索エンジンであり、追加のペイロード(つまりベクトル)を格納、検索、管理するための便利なAPIを備えた本番環境で使用できるサービスを提供します。」ペイロードとは、検索を絞り込むのに役立つ追加の情報や、ユー

                                                                                  Rust製のベクトルデータベースQdrantを試してみる | DevelopersIO
                                                                                • Cognitive Searchの生成AI用ベクトルDBの構築手順書 - Qiita

                                                                                  はじめに この記事は、現在(2023年8月4日時点)パブリックプレビュー中のCognitive Searchのベクトル検索機能について、ベクトルDBの構築手順を解説する記事です。公式ドキュメントにはクイックスタート記事も公開されており、こちらのブログで日本語で丁寧に解説してくれています。 公式ドキュメントのクイックスタートを読んでいると、下記の課題に遭遇します。 PDFなどのドキュメントはどのように扱えばいいか? チャンク分割やベクトル生成は具体的にどのように行えばよいか? 言語アナライザーを日本にするにはどこを変えればよいか? インデックスを自動更新するにはどうすれば良いか? このような課題に対して、Azure公式のGitHubリポジトリにあるcognitive-search-vector-prにあるインデックス作成ツール(azure-search-vector-ingestion-py

                                                                                    Cognitive Searchの生成AI用ベクトルDBの構築手順書 - Qiita

                                                                                  新着記事