ピピピーッ @O59K2dPQH59QEJx 役場相談会でのエロサイト利用料相談など。 ワイ「詐欺です。支払う必要ありません」 相談者「でも不安です」 みたいな問答を100回近く繰り返した末に、後日、相談者から、「合計500万振り込んだ。どうしたら良いか相談したい」みたいな問い合わせがある。 街弁は、虚無だ。 2022-06-29 16:40:03
タグ検索の該当結果が少ないため、タイトル検索結果を表示しています。
※ この記事は、AWS (Amazon Web Services) の技術支援を受けて執筆しています。 はじめに この記事はコネヒトアドベントカレンダー 8日目の記事です。 コネヒト Advent Calendar 2023って? コネヒトのエンジニアやデザイナーやPdMがお送りするアドベント カレンダーです。 コネヒトは「家族像」というテーマを取りまく様々な課題の解決を 目指す会社で、 ママの一歩を支えるアプリ「ママリ」などを 運営しています。 adventar.org こんにちは!コネヒトの機械学習エンジニア y.ikenoueです。 突然ですがみなさん、Amazon Bedrockをご存知でしょうか。 aws.amazon.com Amazon Bedrock(以下、Bedrock)は、テキスト生成AIをはじめとする基盤モデル (Foundation Model)*1を提供するAWS
日本語の単語ベクトル演算ができるサイト。 pythonでバックエンドの練習
どんな人向けの記事? 医薬品のような難しい検索ニーズにこたえるためにベクトル検索を利用する知見を見てみたい MySQLの全文検索と、ベクトル検索の精度や速度を比較してみたい ベクトルDBとEmbeddingモデルを利用した簡単なベクトル検索の実装方法を知りたい 医薬品の検索ニーズは多様なので、ベクトル検索で解決できるか試したい 1つの医薬品を指す名称は、複数存在するため医薬品検索は意外と面倒な問題です。 例えば、日本人なら頭痛や生理痛、発熱したときに「ロキソニン」を飲んだことがあるかもしれません。この名称は商品の名称ですが、成分の名称は「ロキソプロフェンナトリウム水和物」です。 さらに、ロキソプロフェンには錠剤以外にもテープやパップといった剤形の違いがあります。 そして最後に、ロキソプロフェンを作っている会社は複数あるので、末尾に「トーワ」や「ファイザー」などの組み合わせが存在します。ロキ
なぜAIを考える時にベクトルを「矢印」と捉えるべきではないのか。 実際には矢印として考えたほうがいい例外もあります。 たとえば、特徴空間の任意の2点の引き算や足し算をするとき。 矢印のメタファーが使えます。 あるベクトルAから別のベクトルBを引いたベクトルCは、BからAへ伸びる矢印としてイメージするのは大丈夫です。 この性質を利用して、プロンプト芸が成り立つケースもあります。 たとえば画像生成系AIで使われるネガティブプロンプトはそういう性質を使っています。 しかし、根本的に、我々が普段イメージする二次元の矢印で示されるベクトルと、十次元以上の高次空間のベクトルは、全く異なる性質をもっていると考えるべきです。低次のベクトルと、高次のベクトルでは、共通する要素はあるけれども、それはごく一部に過ぎないということです。 例を挙げましょう。 1次元のベクトルは、正負の向きと大きさを持ちます。 数直
PostgreSQLのマネージドサービスなどを提供しているTimescaleは、PostgreSQLで高速なベクトルデータベース機能を実現する拡張機能「Pgvectorcale」をオープンソースとして公開したことを発表しました。 大規模言語モデルを用いた生成AIの注目度が高まる中で、文章や画像、音声といったデータの特徴を数値で表現するベクトル化(もしくはエンベディング)により、大規模言語モデルで扱えるようにすることへの注目も高まってきています。 ベクトルデータベースは、このベクトル化された膨大なデータの保存や類似度の検索などが可能です。 例えば、RAG(Retrieval Augmented Generation)と呼ばれる手法により大規模言語モデルの回答に外部のデータベースから取得したデータを組み込むことができます。こうした場面でベクトルデータベースが活用されます。 高速ベクトルデータベ
SQLiteでベクトル検索を可能にするsqlite-vssそんなポータブルで便利なSQLiteですが、そのSQLiteでベクトル検索ができるとなるとより夢が広がります。 SQLite自体はファイルベースなので、あらかじめベクトルデータを設定したSQLiteデータベースファイルをアプリに組み込んで配布しても良いわけです。そうすればデータベースサーバを用意しなくて済む分コストも圧縮されますし、組み込みなのでアプリからは軽量に動作します。 ホスティングする場合でもFly.ioのようにボリュームイメージを利用できるPaaSを利用すれば、問題なく運用が可能です。 前置きが長くなりましたが、このような夢を叶えてくれる拡張がsqlite-vssです。ベクトル検索はFaissベースで実装されています。 とっても良さげではあるのですが、実際に組み込んでみた場合のコード例が見つからなかったので、手を動かして試
生成AI(人工知能)のRAG(検索拡張生成)の導入など企業で使われ始めたベクトルデータベース。その特徴は検索にある。ベクトルデータベースとはどのようなデータベースで、なぜ「意味」で検索できるのか。ベクトルデータベースの基本技術についてデータベースの専門家が解説する。(編集部) ベクトルデータベースは自然言語処理などAI技術の発展の中で生まれたデータベースであり、ベクトルの概念を用いてデータを管理するデータベースです。生成AIの登場とともに注目を集め、いまや多くの既存のDBサービスやその応用サービスにベクトルデータベースの機能が組み込まれています。 以下で検索を例にベクトルデータベースの特徴や動作の仕組みを解説します。 ベクトルによる「類似度」の判断 ベクトルデータベースがストアするのは数値の羅列です。単語や文章などの「意味」「文脈」を数値化したデータであり、個々の数値を取り出して意味や違い
オラクルはリレーショナルデータベース「MySQL」の新バージョンとなる「MySQL 9.0」をリリースしました。 MySQLは現在、数カ月ごとにリリースされ積極的に新機能が追加されるイノベーションリリース(Innovation Release)と、長期で安定して利用されることを想定して2年ごとにリリースされる長期サポート(LTS:Long Term Support)版の2つに分かれてリリースされています。 現在のLTS版は今年(2024年)4月に登場したMySQL 8.4です。 そして今回リリースされたMySQL 9.0はイノベーションリリースに該当します。最新機能をいちはやく試したい開発者やユーザーのためのリリースです。 MySQL 9.0の主な新機能 MySQL 9.0のドキュメント「What Is New in MySQL 9.0」から、新機能「JavaScriptストアドプログラム
株式会社ナレッジセンスは、生成AIやRAGを使ったプロダクトを、エンタープライズ向けに開発提供しているスタートアップです。本記事では、RAGの性能を高めるための「HybridRAG」という手法について、ざっくり理解します。 この記事は何 この記事は、RAGシステムを専門用語に強くするための手法「HybridRAG」の論文[1]について、日本語で簡単にまとめたものです。 今回も「そもそもRAGとは?」については、知っている前提で進みます。確認する場合は以下の記事もご参考下さい。 本題 ざっくりサマリー HybridRAGは、通常のRAG(Retrieval Augmented Generation)で用いられる「ベクトル検索」の弱みを補い、回答精度を向上するための手法です。BlackRockとNVIDIAの研究者らによって2024年8月に提案されました。 ベクトル検索の弱みはいくつかあります
生成AIの可能性を広げる「ベクトルデータベース」への関心が急速に高まっている。ベクトルデータベースとは、生成AIが扱う非構造化データの格納・管理・照会で利用されるデータベースのこと。ここではベクトルデータベースの基本をわかりやすく解説するとともに、リレーショナルデータベースとの違い、生成AIの普及において、どのような役割を果たすのか、注目される理由などと合わせて紹介しよう。 ベクトルデータベースとは何か? 今後2~3年かけて企業における生成AI活用が急速に増えると予想される中、「ベクトルデータベース」への注目度が高まっている。 ベクトルデータベースとは、生成AIが扱う非構造化データ(テキスト、画像、音声など)の格納・管理・照会で利用されるデータベースで、企業が自社データを活用した生成AIアプリケーションを開発する際に必須となるインフラだ。 企業で最も普及している生成AIユースケースの1つと
導入 こんにちは、株式会社ナレッジセンスの須藤英寿です。普段はエンジニアとして、LLMを使用したチャットのサービスを提供しており、とりわけRAGシステムの改善は日々の課題になっています。 RAGのシステムの中では、どんな情報にアクセスするかを決定する際に、Embeddingと呼ばれる文章をベクトル化する技術が使用されています。そして多くの場合では小数(float)の多次元ベクトルが採用されています。 しかし、Embeddingの中には各ベクトルの数値を1Bitのデータとして扱うBinary Embeddingというものが存在します。 本記事では、Embeddingの手法の一つであるそのBinary Embeddingについて解説と検証を行います。 サマリー Binary Embeddingを採用することで以下のような効果を得ることができます。 保管するベクトルデータの容量を96%ほど削減で
Amazon Web Services ブログ 日本語形態素解析器 Sudachi の語彙データ(SudachiDict)および単語ベクトル(chiVe)が AWS 上で Open Data として公開されました 多くの機械学習デベロッパーの方々が、AWS 上でさまざまなアルゴリズムの開発やモデルの構築を行なっています。中でも自然言語処理を行う際には、対象言語の言語ごとの辞書データや単語ベクトルデータを用いることが一般的です。これらのデータは GB 以上のサイズにおよび、また計算の際にも大量の GPU および CPU を必要とするため、従来こうしたモデルを構築する際には常にストレージおよびコンピューティングのリソースの調達が問題となってきました。AWS 上で自然言語処理モデルの開発を行う際には、Amazon SageMaker を用いて学習に必要なリソースを確保することで、ALBERT の
「テンソル」とは? ディープラーニングでは、複雑なニューラルネットワーク上で膨大な数の数値が駆け巡っています。コンピュータはそれらの数値を個別に扱うこともできます。 しかし、そのままではニューラルネットワーク内での計算を理論化できませんし、何よりもニューラルネットワークごとに扱う数値に関する何かしらの共通認識がなければ、ほかの人間がプログラムのコードを読んでも何が書いてあるのか分からず、技術の応用や発展につなげにくくなります。そこで使われるようになった数学的概念が「テンソル」でした。 テンソルという概念は数学的に理解するには難解なものですが、私たちから見る分には「沢山の数値の集まり」として見えます。 基本的には沢山の数値を集めて「1つの情報」として表現するのがテンソルで、例えるなら「ゲームキャラクターの特徴を無数のステータスで表す」ようなものです。表現したい情報は「キャラクター」という1つ
はじめに この記事では、ベクトル検索で似た文書を検索するコードを解説します。具体的には、Sentence Transformersライブラリを用いてベクトル化、Faissという近似最近傍探索ライブラリを用いて高速な検索を行います。 用語説明 ベクトル検索 ... 文書の検索にベクトルを使用する方法。例えば、文書に映画に関する内容が 10 %、音楽が 2 %、俳優が30%含まれていた時、シンプルにそれを表すと [0.1, 0.02, 0.3]というベクトルを作ることができる。Googleの説明が詳しい。 Sentence Transformers ... ベクトル検索に必要なベクトル化を行うためのライブラリ Faiss ... ベクトル同士の類似度を高速に検索してくれるライブラリ。以下のHakkyさんのページが詳しい。 コード 入力:検索したい文字のリスト、検索される文字のリスト 出力:どの
Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article? 本記事は日本オラクルが運営する下記Meetupで発表予定の内容になります。発表までに今後、内容は予告なく変更される可能性があることをあらかじめご了承ください。下記セッションでは、本記事の内容以外にデモンストレーションも実施する予定です。 ※セミナー実施済の動画に関しては以下をご参照ください。 はじめに 2022年暮れ、ChatGPTの登場以降、あらゆる企業がDXの在り方を問われはじめ、大規模言語モデルの仕組みをどのように業務に取り入れるかを検討されていると思います。 その検討の一つとして、「GPT(LLM)が学習していない企業内のデータ
こんにちは。検索基盤部の橘です。ZOZOTOWNでは、商品検索エンジンとしてElasticsearchを利用し、大規模なデータに対して高速な全文検索を実現しています。 Elasticsearchに関する取り組みは以下の記事をご覧ください。 techblog.zozo.com 検索基盤部では、ZOZOTOWNの検索結果の品質向上を目指し、新しい検索手法の導入を検討しています。本記事ではベクトル検索と呼ばれる検索手法に関して得た知見を紹介します。 ※本記事はElasticsearchバージョン8.9に関する内容となっています。 目次 目次 ベクトル検索とは ベクトル検索に期待すること Elasticsearchを使用したベクトル検索の導入 導入の簡略化 デプロイ可能な埋め込みモデル ベクトル検索のクエリ ハイブリッド検索とは Elasticsearchを用いたハイブリッド検索 RRF(Reci
運用コストを低く抑えつつ全文検索機能を実現したい: SQLite3 で全文検索を実現する fts5 、ベクトル検索を実現する sqlite-vss 2024-02-22 ドキュメント数が 1 万件に満たない状況で全文検索をしたいドキュメントは頻繁に更新はされずに日時の更新で十分オンラインでのインデキシングを考えなくてよいので、バッチで十分みたいな状態でポータビリティが高く運用コストが低い状態で全文検索を実現したいなと調べていたら SQLite3 が良さそうだったというお話。 全文検索を実現する拡張機能: https://www.sqlite.org/fts5.htmlfts5 から relevancy による order by が使えるようになったらしく、version 4 以前は、relevance をチューニングして改善するのは難しそうだなと思った。この拡張機能が作成された経緯としては
こんにちは。テニスしすぎて日焼けがすごいSsk1029Takashiです。 私は普段、生成AIを活用したRAGソリューションの開発をしているのですが、RAGでは特に検索部分の調整が重要になります。 今回はその検索の中で出てくるリランクに焦点を当てて、ベクトル検索と比較してどのような特徴があるのかというところを、検証を交えて解説していきます。 概要 RAGの検索部分では、よくベクトル検索が利用されます。 理由としては、入力が基本的に質問形式になりキーワードで入力されることが多い通常の検索よりも適している、などいくつか考えられます。 ただし、実際にRAGを試してみるとわかりますが、RAGシステムではベクトル検索だけでは検索精度の面で苦労することも多いです。 そこで解決方法の一つとして考えられているのが、ベクトル検索とリランクとの併用になります。 今回は、なぜRAGはベクトル検索だけだと苦労が多
悪を助長するものはまた悪なんだわ よって性欲は罪であり罰であり悪なんだわ 厳格なキリスト教か?だのなんだのうっせーわ だったら厳格なキリスト教の倫理がある種正しいんじゃねーの 性欲がなかったら人類滅亡とか、だからなにさ???????? 必要悪ってだけで悪は悪じゃねーか 男は生まれながらに悪となりやすい宿命を背負った存在でそれを自覚して弁えて生きろってことなんだよ 動物としての自然な欲求を否定するな???それレイプさせろってのとどう違うんだ???? 自然にしたらレイプするから教育してんだよ 車は危険だけど便利で必要だから使われてるだろ?でも車なんてない方がいいんだよ。 交通事故が増えるんだからあいつは加害だよ もし車以上に安全で優秀な輸送手段があったらみんな乗り換えるよ 性欲も同じだよ 本質の話をしてやると性欲が達成したいのは「遺伝子の存続」なんだわ 「遺伝子の存続」という機能を満たすための
こんにちは、メルカリのレコメンドチームで ML Engineer をしている ML_Bear です。 以前の記事 [1] では、item2vecと商品メタデータを用いた、メルカリのホーム画面のレコメンド改善のお話をさせていただきました。今回は商品詳細画面でレコメンド改善を行ったお話をさせていただきます。商品詳細画面の例は図1の通りです。ユーザーはアイテムの詳細な説明を見たいときにこの画面に来訪するため、同様の商品を推薦する自然な接点として非常に重要です。 まず、私たちが商品詳細画面で行った改善の概要を示します。各部の詳細については次節以降で詳しく触れます。 日本有数の大規模ECサービスにおいてベクトル検索ベースの商品推薦アルゴリズムを実装し、推薦精度の大幅な改善を実現しました。 協調フィルタリングとニューラルネットワーク (以下、NN) を利用した商品推薦アルゴリズムを構築し、コールドスタ
新興で勢いのあるベクトルDBにChromaというOSSがあり、オンメモリのベクトルDBとして気軽に試せます。 LangChainやLlamaIndexとのインテグレーションがウリのOSSですが、今回は単純にベクトルDBとして使う感じで試してみました。 データをChromaに登録する今回はLangChainのドキュメントをChromaに登録し、LangChainのQ&Aができるようなボットを作成しようと思います。 しかしLangChainのドキュメントはほとんどがJupyter Notebook形式なので、ベクトルDBへ取り込みやすいようにフラットテキストにしてあげる必要があります。 以下の関数はJupyter Notebook形式(JSON)のファイルを分解してMarkdown形式に変換し、その後Unstructured.ioのMarkdownスプリッタを利用してコンテンツをチャンクに分割
なお、StaticEmbedding 日本語モデル学習などの技術的なことは記事の後半に書いているので、興味がある方はどうぞ。 利用方法 利用は簡単、SentenceTransformer を使っていつもの方法で文章ベクトルを作れます。今回はGPUを使わず、CPUで実行してみましょう。なお SentenceTransformer は 3.3.1 で試しています。 pip install "sentence-transformers>=3.3.1" from sentence_transformers import SentenceTransformer model_name = "hotchpotch/static-embedding-japanese" model = SentenceTransformer(model_name, device="cpu") query = "美味しいラー
はじめに これはLivesense Advent Calendar 2022 DAY 14 の記事です。 普段は主にレコメンドシステムの開発・運用をやっています。仕事ではPythonを書くことが多いです。好きな言語はRustです。この記事では、ベクトル検索エンジンQdrantを紹介します。 ベクトル検索とは そもそもベクトル検索とは何だ、という人もいると思います。簡単に言えばベクトル検索は類似するベクトルを(正確性を犠牲にして)高速に計算する技術です。 なぜそのような技術が必要になるのか簡単に説明しましょう。 なぜベクトルの類似度を計算する必要があるのか 近年、機械学習技術によって様々なものがベクトルで表現されるようになりました。典型的には画像と文書(単語)です。 「類似する画像を求める」「ユーザーが入力したワードに関連する文書を返す」「ユーザーが閲覧したアイテムに類似するアイテムのリスト
pglite + pgvector で文章の類似度検索を実装します。 動機 とにかく手っ取り早くローカルにデータを突っ込んでおいて検索する RAG の雛形がほしかったんですが、調べても大規模ストレージを前提とした大掛かりな実装が多いです。 スクリプトを書いたらポンと実行できるセットアップ不要なものがあると、色々と実験ができます。 mastra/rag を読んでたら、簡単にできる気がしたのでやりました。ただ、chunk のドキュメント分割相当のものはまだ作ってません。そこまで難しい概念でもないので、雑に作れそうではあります。 qrdrant も検討しましたが、サーバーを建てるのが面倒でした 準備: ベクトル化用の関数 今回は @ai-sdk/openai を使ってベクトル化をします // OPENAI_API_KEY= import { openai } from "@ai-sdk/open
本記事は、2022年夏季インターンシッププログラムで勤務された早川知志さんによる寄稿です。 はじめまして。2022年度のPFN夏季インターンに参加した早川知志です。普段はオックスフォード大学で数学(確率論・数値解析)の博士学生をしており、確率測度の離散化やそれにまつわる理論や応用に興味があります。 今回は、大学でやっていることとは趣旨を変えて、深層学習のエンターテインメント応用として二次元キャラクターの学習・生成タスクに取り組みました。 学んだキャラクターのCLIP embeddingを用いた生成例 1. Motivation オリジナルのキャラクターを描くときに角度や表情を微調整するのには途轍もない労力が必要です。筆者はイギリスでのロックダウン以来趣味でイラストや漫画を描こうとすることが増えたのですが、その過程でこのことに気付きました。生成モデルの力を借りて今までに描いたことのない構図で
工具通販大手のMonotaROはEC(電子商取引)サイト「モノタロウ」にベクトル検索を導入した。ベクトル検索とは単語や文章などの「意味」「文脈」を数値に変換することによって、検索キーワードと関連性の高いデータを見つけられる仕組み。2024年12月18日に発表した。 同社のECサイトは以前から検索機能を備えているが今回、ベクトル検索の導入により検索のヒット率を高めた。これまで入力キーワードに対して検索結果が何もヒットしないケースが平日の場合10万件ほどあったが、導入後は3万件と約7割減少。検索頻度の少ないキーワードを組み合わせた「ロングテールキーワード」の検索では購入に至る割合である「コンバージョン」が約1割増加した。他にも商品のクリック数、ユーザー1人当たりの検索数もそれぞれ約2割増加したという。 MonotaROは多品種少量の「ロングテール商品」を扱っており、取り扱う商品数は2370万点
生成AIの隆盛に伴い、ベクトル検索やベクトルデータベースが注目されています。 ベクトルについてより理解するために簡単なデモサービスを作ってみました。 この記事では作ったサービスをもとにベクトルについて説明し、後半では生成AIとベクトルの関連について紹介します。 つくったもの 「しもふりサーチ」 - お笑いコンビ「霜降り明星」のYouTubeチャンネル、「しもふりチューブ」の過去動画を検索できるサービスです。 このサービスには以下の2つの機能があります。 1. 文章での動画検索 文章で動画を検索する 「粗品さんがクイズを出題する回」 や 「せいやさんがギターを弾く回」 など、自然言語で動画を検索できます。 2. 関連動画レコメンド 内容の近い動画をレコメンドする 動画を選ぶと、過去動画の中から内容の近い動画をレコメンドします。 これらの機能はベクトル検索で実現されています。詳細を説明していき
はじめに 新規事業統括部の山本です。 ChatGPTをはじめとした、大規模言語モデル(Large Language Model)を使用したサービスを利用することで社内の業務効率化をした、というニュースを聞くことが増えてきました。クラスメソッドでもOpenAI APIなど、AIを利用した社内の業務効率化に取り組んでいます。 前回の記事では、OpenAIのAPIを利用した業務効率化のためのはじめの一歩として、自社ブログ(DevelopersIO)の記事を検索するボットを作成してみました。ベーシックな文章検索+応答生成(Retrieval Augmented Generation)ではなく、クエリ自体もLLMに考えさせるChatの機能を付与し、実際の動作を確認しました。 https://dev.classmethod.jp/articles/implement-devio-articles-se
この記事は、情報検索・検索技術 Advent Calendar 2023の12月4日の記事である。 昨今のLLMの台頭により、外部情報を In-Context Learning として利用しLLMの生成結果の性能を高めることが可能な RAG(Retrieval Augmented Generation) の重要性の高まりを感じる。ただ、RAG を使ったシステムを構築してみようにも、データが少ないと面白みが少なかったりする。その為、Wikipedia 日本語の約550万文から簡単に検索可能でRAGの入力データとして使えるような embeddings と、素早い速度でベクトル検索できるような faiss 用の index を作成した。 例えば、Wikipedia から該当の文を検索する用途はこのように使える。 from datasets.download import DownloadMana
ベクトル検索(Vector Search)とは? キーワード検索との違い:AI・機械学習の用語辞典 用語「ベクトル検索」について説明。テキストなどのデータを数値ベクトル(埋め込み)として表現し、それらのベクトル間の類似度を計算することで、関連する情報を見つけ出す検索方法を指す。Azure OpenAI Serviceの独自データ追加機能で利用可能な「キーワード検索」「ベクトル検索」「ハイブリッド検索」「セマンティック検索」という検索手法の違いについても言及する。 連載目次 用語解説 AI/機械学習/自然言語処理におけるベクトル検索(Vector Search:ベクター検索)とは、テキストや画像などのデータを数値ベクトルとして表現し、それらのベクトル間の類似度(主にコサイン類似度)を計算することで、関連する情報を見つけ出す検索方法のこと、またその方法による検索のことである。なお、数値ベクトル
※この投稿は米国時間 2022 年 6 月 17 日に、Google Cloud blog に投稿されたものの抄訳です。 メルカリは、日本で 2,000 万人超、米国で 約566 万人の月間アクティブ ユーザーを持つ、近年最も成功しているマーケットプレイス サービスのひとつです。2021 年 10 月、メルカリは小規模のビジネスオーナーや個人がスマートフォンひとつでネットショップをEC ポータルを開設できる新サービス「メルカリShops」 を日本で開始しました。この新サービスの開発に際しては、「類似性」を利用した新しいマーケットプレイスの実現に Google のベクトル検索技術が導入されています。 ショップを集めただけではマーケットプレイスにはならない立ち上げ当初の「メルカリShops」は、小さな EC サイトの集まりにすぎず、ユーザーは各ショップを 1 か所ずつ開いては販売されている商品
AIに欠かせない数学を、プログラミング言語Pythonを使って高校生の学習範囲から学び直す本連載『「AI」エンジニアになるための「基礎数学」再入門』。前回は「スカラ」「ベクトル」「行列」「テンソル」の基礎知識を学びました。今回のテーマは、ベクトルの扱い方=計算方法です。 ところで、皆さんは英語を学習したことがあると思います。新たな英単語・英文法を学ぶことで、より多くの英文を読解できるようになることを経験しているはずです。何が言いたいかというと、今回のテーマを学ぶことは、数学に関連する文献を読むことにおける「単語や文法を学ぶ」ようなことに値します。つまり、より多くの文献を読解できるようになるはずなので、しっかり学んでいきましょう。 2次元のベクトル ベクトルの計算方法を解説するために、例として次のような2つのベクトルを考えます。 今回は2次元(要素が2つ)のベクトルで、次のような数字の集まり
どうも!オペレーション部の西村祐二です。 ChatGPT関連の専用アプリケーションを作成しようとすると、「ベクトルデータベース」という用語が出てきます。これは私にとって、これまでまったく経験したことのない分野で理解できていない状態でした。 このままでは行き詰まってしまうという思いと、この分野に関してある程度知識を身につけておくと、今後応用がききそうだなと考えました。 そこで今回、他のベクトルデータベースと比べて機能がシンプルそうで、Rustで作られているという特徴から、Qdrantを試してみました。 Qdrantとは 公式ドキュメントから引用し翻訳したもの Qdrantは「ベクトルの類似性検索エンジンであり、追加のペイロード(つまりベクトル)を格納、検索、管理するための便利なAPIを備えた本番環境で使用できるサービスを提供します。」ペイロードとは、検索を絞り込むのに役立つ追加の情報や、ユー
はじめに この記事は、現在(2023年8月4日時点)パブリックプレビュー中のCognitive Searchのベクトル検索機能について、ベクトルDBの構築手順を解説する記事です。公式ドキュメントにはクイックスタート記事も公開されており、こちらのブログで日本語で丁寧に解説してくれています。 公式ドキュメントのクイックスタートを読んでいると、下記の課題に遭遇します。 PDFなどのドキュメントはどのように扱えばいいか? チャンク分割やベクトル生成は具体的にどのように行えばよいか? 言語アナライザーを日本にするにはどこを変えればよいか? インデックスを自動更新するにはどうすれば良いか? このような課題に対して、Azure公式のGitHubリポジトリにあるcognitive-search-vector-prにあるインデックス作成ツール(azure-search-vector-ingestion-py
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く