ピピピーッ @O59K2dPQH59QEJx 役場相談会でのエロサイト利用料相談など。 ワイ「詐欺です。支払う必要ありません」 相談者「でも不安です」 みたいな問答を100回近く繰り返した末に、後日、相談者から、「合計500万振り込んだ。どうしたら良いか相談したい」みたいな問い合わせがある。 街弁は、虚無だ。 2022-06-29 16:40:03
タグ検索の該当結果が少ないため、タイトル検索結果を表示しています。
※ この記事は、AWS (Amazon Web Services) の技術支援を受けて執筆しています。 はじめに この記事はコネヒトアドベントカレンダー 8日目の記事です。 コネヒト Advent Calendar 2023って? コネヒトのエンジニアやデザイナーやPdMがお送りするアドベント カレンダーです。 コネヒトは「家族像」というテーマを取りまく様々な課題の解決を 目指す会社で、 ママの一歩を支えるアプリ「ママリ」などを 運営しています。 adventar.org こんにちは!コネヒトの機械学習エンジニア y.ikenoueです。 突然ですがみなさん、Amazon Bedrockをご存知でしょうか。 aws.amazon.com Amazon Bedrock(以下、Bedrock)は、テキスト生成AIをはじめとする基盤モデル (Foundation Model)*1を提供するAWS
なぜAIを考える時にベクトルを「矢印」と捉えるべきではないのか。 実際には矢印として考えたほうがいい例外もあります。 たとえば、特徴空間の任意の2点の引き算や足し算をするとき。 矢印のメタファーが使えます。 あるベクトルAから別のベクトルBを引いたベクトルCは、BからAへ伸びる矢印としてイメージするのは大丈夫です。 この性質を利用して、プロンプト芸が成り立つケースもあります。 たとえば画像生成系AIで使われるネガティブプロンプトはそういう性質を使っています。 しかし、根本的に、我々が普段イメージする二次元の矢印で示されるベクトルと、十次元以上の高次空間のベクトルは、全く異なる性質をもっていると考えるべきです。低次のベクトルと、高次のベクトルでは、共通する要素はあるけれども、それはごく一部に過ぎないということです。 例を挙げましょう。 1次元のベクトルは、正負の向きと大きさを持ちます。 数直
PostgreSQLのマネージドサービスなどを提供しているTimescaleは、PostgreSQLで高速なベクトルデータベース機能を実現する拡張機能「Pgvectorcale」をオープンソースとして公開したことを発表しました。 大規模言語モデルを用いた生成AIの注目度が高まる中で、文章や画像、音声といったデータの特徴を数値で表現するベクトル化(もしくはエンベディング)により、大規模言語モデルで扱えるようにすることへの注目も高まってきています。 ベクトルデータベースは、このベクトル化された膨大なデータの保存や類似度の検索などが可能です。 例えば、RAG(Retrieval Augmented Generation)と呼ばれる手法により大規模言語モデルの回答に外部のデータベースから取得したデータを組み込むことができます。こうした場面でベクトルデータベースが活用されます。 高速ベクトルデータベ
SQLiteでベクトル検索を可能にするsqlite-vssそんなポータブルで便利なSQLiteですが、そのSQLiteでベクトル検索ができるとなるとより夢が広がります。 SQLite自体はファイルベースなので、あらかじめベクトルデータを設定したSQLiteデータベースファイルをアプリに組み込んで配布しても良いわけです。そうすればデータベースサーバを用意しなくて済む分コストも圧縮されますし、組み込みなのでアプリからは軽量に動作します。 ホスティングする場合でもFly.ioのようにボリュームイメージを利用できるPaaSを利用すれば、問題なく運用が可能です。 前置きが長くなりましたが、このような夢を叶えてくれる拡張がsqlite-vssです。ベクトル検索はFaissベースで実装されています。 とっても良さげではあるのですが、実際に組み込んでみた場合のコード例が見つからなかったので、手を動かして試
オラクルはリレーショナルデータベース「MySQL」の新バージョンとなる「MySQL 9.0」をリリースしました。 MySQLは現在、数カ月ごとにリリースされ積極的に新機能が追加されるイノベーションリリース(Innovation Release)と、長期で安定して利用されることを想定して2年ごとにリリースされる長期サポート(LTS:Long Term Support)版の2つに分かれてリリースされています。 現在のLTS版は今年(2024年)4月に登場したMySQL 8.4です。 そして今回リリースされたMySQL 9.0はイノベーションリリースに該当します。最新機能をいちはやく試したい開発者やユーザーのためのリリースです。 MySQL 9.0の主な新機能 MySQL 9.0のドキュメント「What Is New in MySQL 9.0」から、新機能「JavaScriptストアドプログラム
生成AIの可能性を広げる「ベクトルデータベース」への関心が急速に高まっている。ベクトルデータベースとは、生成AIが扱う非構造化データの格納・管理・照会で利用されるデータベースのこと。ここではベクトルデータベースの基本をわかりやすく解説するとともに、生成AIの普及において、どのような役割を果たすのか、注目される理由などと合わせて紹介しよう。 バークリー音大提携校で2年間ジャズ/音楽理論を学ぶ。その後、通訳・翻訳者を経て24歳で大学入学。学部では国際関係、修士では英大学院で経済・政治・哲学を専攻。国内コンサルティング会社、シンガポールの日系通信社を経てLivit参画。興味分野は、メディアテクノロジーの進化と社会変化。2014〜15年頃テックメディアの立ち上げにあたり、ドローンの可能性を模索。ドローンレース・ドバイ世界大会に選手として出場。現在、音楽制作ソフト、3Dソフト、ゲームエンジンを活用し
2019年7月31日、検索技術研究会が主催するイベント「Search Engineering Tech Talk 2019 Summer」が開催されました。「検索」や「検索システム」にまつわる技術や手法を共有する本イベント。第3回となる今回は、3人のエンジニアが、現場の経験を通して学んだノウハウや、検索にまつわる知見を語ります。プレゼンテーション「Elasticsearch における類似度ベクトル検索のベストプラクティスを求めて 」に登壇したのは、伊藤敬彦氏。講演資料はこちら Elasticserchにおける類似度ベクトル検索のベストプラクティスを求めて 伊藤敬彦(@takahi_i) 氏(以下、伊藤):「Elasticserchにおける類似度ベクトル検索のベストプラクティスを求めて」ということで、いろいろ調査をしてみましてとりあえずまとめてみましたというお話です。 シュッとやると最初は書
導入 こんにちは、株式会社ナレッジセンスの須藤英寿です。普段はエンジニアとして、LLMを使用したチャットのサービスを提供しており、とりわけRAGシステムの改善は日々の課題になっています。 RAGのシステムの中では、どんな情報にアクセスするかを決定する際に、Embeddingと呼ばれる文章をベクトル化する技術が使用されています。そして多くの場合では小数(float)の多次元ベクトルが採用されています。 しかし、Embeddingの中には各ベクトルの数値を1Bitのデータとして扱うBinary Embeddingというものが存在します。 本記事では、Embeddingの手法の一つであるそのBinary Embeddingについて解説と検証を行います。 サマリー Binary Embeddingを採用することで以下のような効果を得ることができます。 保管するベクトルデータの容量を96%ほど削減で
Amazon Web Services ブログ 日本語形態素解析器 Sudachi の語彙データ(SudachiDict)および単語ベクトル(chiVe)が AWS 上で Open Data として公開されました 多くの機械学習デベロッパーの方々が、AWS 上でさまざまなアルゴリズムの開発やモデルの構築を行なっています。中でも自然言語処理を行う際には、対象言語の言語ごとの辞書データや単語ベクトルデータを用いることが一般的です。これらのデータは GB 以上のサイズにおよび、また計算の際にも大量の GPU および CPU を必要とするため、従来こうしたモデルを構築する際には常にストレージおよびコンピューティングのリソースの調達が問題となってきました。AWS 上で自然言語処理モデルの開発を行う際には、Amazon SageMaker を用いて学習に必要なリソースを確保することで、ALBERT の
「テンソル」とは? ディープラーニングでは、複雑なニューラルネットワーク上で膨大な数の数値が駆け巡っています。コンピュータはそれらの数値を個別に扱うこともできます。 しかし、そのままではニューラルネットワーク内での計算を理論化できませんし、何よりもニューラルネットワークごとに扱う数値に関する何かしらの共通認識がなければ、ほかの人間がプログラムのコードを読んでも何が書いてあるのか分からず、技術の応用や発展につなげにくくなります。そこで使われるようになった数学的概念が「テンソル」でした。 テンソルという概念は数学的に理解するには難解なものですが、私たちから見る分には「沢山の数値の集まり」として見えます。 基本的には沢山の数値を集めて「1つの情報」として表現するのがテンソルで、例えるなら「ゲームキャラクターの特徴を無数のステータスで表す」ようなものです。表現したい情報は「キャラクター」という1つ
はじめに この記事では、ベクトル検索で似た文書を検索するコードを解説します。具体的には、Sentence Transformersライブラリを用いてベクトル化、Faissという近似最近傍探索ライブラリを用いて高速な検索を行います。 用語説明 ベクトル検索 ... 文書の検索にベクトルを使用する方法。例えば、文書に映画に関する内容が 10 %、音楽が 2 %、俳優が30%含まれていた時、シンプルにそれを表すと [0.1, 0.02, 0.3]というベクトルを作ることができる。Googleの説明が詳しい。 Sentence Transformers ... ベクトル検索に必要なベクトル化を行うためのライブラリ Faiss ... ベクトル同士の類似度を高速に検索してくれるライブラリ。以下のHakkyさんのページが詳しい。 コード 入力:検索したい文字のリスト、検索される文字のリスト 出力:どの
本記事は日本オラクルが運営する下記Meetupで発表予定の内容になります。発表までに今後、内容は予告なく変更される可能性があることをあらかじめご了承ください。下記セッションでは、本記事の内容以外にデモンストレーションも実施する予定です。 ※セミナー実施済の動画に関しては以下をご参照ください。 はじめに 2022年暮れ、ChatGPTの登場以降、あらゆる企業がDXの在り方を問われはじめ、大規模言語モデルの仕組みをどのように業務に取り入れるかを検討されていると思います。 その検討の一つとして、「GPT(LLM)が学習していない企業内のデータや最新のデータも有効活用すべき」 という点は非常に大きな論点なのではないでしょうか。 ご存じの通り、LLMとはインターネット上に存在するドキュメントデータをクローリングにより大量に収集し、それを学習データとして機械学習にかけたモデルです。 従って、至極当たり
こんにちは。検索基盤部の橘です。ZOZOTOWNでは、商品検索エンジンとしてElasticsearchを利用し、大規模なデータに対して高速な全文検索を実現しています。 Elasticsearchに関する取り組みは以下の記事をご覧ください。 techblog.zozo.com 検索基盤部では、ZOZOTOWNの検索結果の品質向上を目指し、新しい検索手法の導入を検討しています。本記事ではベクトル検索と呼ばれる検索手法に関して得た知見を紹介します。 ※本記事はElasticsearchバージョン8.9に関する内容となっています。 目次 目次 ベクトル検索とは ベクトル検索に期待すること Elasticsearchを使用したベクトル検索の導入 導入の簡略化 デプロイ可能な埋め込みモデル ベクトル検索のクエリ ハイブリッド検索とは Elasticsearchを用いたハイブリッド検索 RRF(Reci
運用コストを低く抑えつつ全文検索機能を実現したい: SQLite3 で全文検索を実現する fts5 、ベクトル検索を実現する sqlite-vss 2024-02-22 ドキュメント数が 1 万件に満たない状況で全文検索をしたいドキュメントは頻繁に更新はされずに日時の更新で十分オンラインでのインデキシングを考えなくてよいので、バッチで十分みたいな状態でポータビリティが高く運用コストが低い状態で全文検索を実現したいなと調べていたら SQLite3 が良さそうだったというお話。 全文検索を実現する拡張機能: https://www.sqlite.org/fts5.htmlfts5 から relevancy による order by が使えるようになったらしく、version 4 以前は、relevance をチューニングして改善するのは難しそうだなと思った。この拡張機能が作成された経緯としては
悪を助長するものはまた悪なんだわ よって性欲は罪であり罰であり悪なんだわ 厳格なキリスト教か?だのなんだのうっせーわ だったら厳格なキリスト教の倫理がある種正しいんじゃねーの 性欲がなかったら人類滅亡とか、だからなにさ???????? 必要悪ってだけで悪は悪じゃねーか 男は生まれながらに悪となりやすい宿命を背負った存在でそれを自覚して弁えて生きろってことなんだよ 動物としての自然な欲求を否定するな???それレイプさせろってのとどう違うんだ???? 自然にしたらレイプするから教育してんだよ 車は危険だけど便利で必要だから使われてるだろ?でも車なんてない方がいいんだよ。 交通事故が増えるんだからあいつは加害だよ もし車以上に安全で優秀な輸送手段があったらみんな乗り換えるよ 性欲も同じだよ 本質の話をしてやると性欲が達成したいのは「遺伝子の存続」なんだわ 「遺伝子の存続」という機能を満たすための
Peingで表題のような質問をいただきました。少し長くなるので、こちらで回答します。 現在、暗号化ではIV(暗号初期化ベクトル)が不要なECBモードは推奨されず、それらが使用されるCBC等が推奨されています。 しかし、暗号化後の文章も、暗号化初期ベクトル(平文)も同様にDBに直接保存される為、結局のところ意味をなすのでしょうか? 暗号化後の文章が漏れる≒IVが漏れると思いますが、どのような時にIVを設定したことによる恩恵が受けられるのでしょうか? https://peing.net/ja/q/c63a9669-0d8e-4a23-b7f8-67869bf9e0b0 より引用結論から言えば、IVは必須です。詳しくは暗号の教科書(手っ取り早いところではWikipediaの暗号利用モードなど)を読んでいただければよいのですが、わかりやすい例を2つ紹介します。 まずは、以下の2つの住所をAES-2
こんにちは、メルカリのレコメンドチームで ML Engineer をしている ML_Bear です。 以前の記事 [1] では、item2vecと商品メタデータを用いた、メルカリのホーム画面のレコメンド改善のお話をさせていただきました。今回は商品詳細画面でレコメンド改善を行ったお話をさせていただきます。商品詳細画面の例は図1の通りです。ユーザーはアイテムの詳細な説明を見たいときにこの画面に来訪するため、同様の商品を推薦する自然な接点として非常に重要です。 まず、私たちが商品詳細画面で行った改善の概要を示します。各部の詳細については次節以降で詳しく触れます。 日本有数の大規模ECサービスにおいてベクトル検索ベースの商品推薦アルゴリズムを実装し、推薦精度の大幅な改善を実現しました。 協調フィルタリングとニューラルネットワーク (以下、NN) を利用した商品推薦アルゴリズムを構築し、コールドスタ
新興で勢いのあるベクトルDBにChromaというOSSがあり、オンメモリのベクトルDBとして気軽に試せます。 LangChainやLlamaIndexとのインテグレーションがウリのOSSですが、今回は単純にベクトルDBとして使う感じで試してみました。 データをChromaに登録する今回はLangChainのドキュメントをChromaに登録し、LangChainのQ&Aができるようなボットを作成しようと思います。 しかしLangChainのドキュメントはほとんどがJupyter Notebook形式なので、ベクトルDBへ取り込みやすいようにフラットテキストにしてあげる必要があります。 以下の関数はJupyter Notebook形式(JSON)のファイルを分解してMarkdown形式に変換し、その後Unstructured.ioのMarkdownスプリッタを利用してコンテンツをチャンクに分割
はじめに これはLivesense Advent Calendar 2022 DAY 14 の記事です。 普段は主にレコメンドシステムの開発・運用をやっています。仕事ではPythonを書くことが多いです。好きな言語はRustです。この記事では、ベクトル検索エンジンQdrantを紹介します。 ベクトル検索とは そもそもベクトル検索とは何だ、という人もいると思います。簡単に言えばベクトル検索は類似するベクトルを(正確性を犠牲にして)高速に計算する技術です。 なぜそのような技術が必要になるのか簡単に説明しましょう。 なぜベクトルの類似度を計算する必要があるのか 近年、機械学習技術によって様々なものがベクトルで表現されるようになりました。典型的には画像と文書(単語)です。 「類似する画像を求める」「ユーザーが入力したワードに関連する文書を返す」「ユーザーが閲覧したアイテムに類似するアイテムのリスト
本記事は、2022年夏季インターンシッププログラムで勤務された早川知志さんによる寄稿です。 はじめまして。2022年度のPFN夏季インターンに参加した早川知志です。普段はオックスフォード大学で数学(確率論・数値解析)の博士学生をしており、確率測度の離散化やそれにまつわる理論や応用に興味があります。 今回は、大学でやっていることとは趣旨を変えて、深層学習のエンターテインメント応用として二次元キャラクターの学習・生成タスクに取り組みました。 学んだキャラクターのCLIP embeddingを用いた生成例 1. Motivation オリジナルのキャラクターを描くときに角度や表情を微調整するのには途轍もない労力が必要です。筆者はイギリスでのロックダウン以来趣味でイラストや漫画を描こうとすることが増えたのですが、その過程でこのことに気付きました。生成モデルの力を借りて今までに描いたことのない構図で
はじめに 新規事業統括部の山本です。 ChatGPTをはじめとした、大規模言語モデル(Large Language Model)を使用したサービスを利用することで社内の業務効率化をした、というニュースを聞くことが増えてきました。クラスメソッドでもOpenAI APIなど、AIを利用した社内の業務効率化に取り組んでいます。 前回の記事では、OpenAIのAPIを利用した業務効率化のためのはじめの一歩として、自社ブログ(DevelopersIO)の記事を検索するボットを作成してみました。ベーシックな文章検索+応答生成(Retrieval Augmented Generation)ではなく、クエリ自体もLLMに考えさせるChatの機能を付与し、実際の動作を確認しました。 https://dev.classmethod.jp/articles/implement-devio-articles-se
生成AIの隆盛に伴い、ベクトル検索やベクトルデータベースが注目されています。 ベクトルについてより理解するために簡単なデモサービスを作ってみました。 この記事では作ったサービスをもとにベクトルについて説明し、後半では生成AIとベクトルの関連について紹介します。 つくったもの 「しもふりサーチ」 - お笑いコンビ「霜降り明星」のYouTubeチャンネル、「しもふりチューブ」の過去動画を検索できるサービスです。 このサービスには以下の2つの機能があります。 1. 文章での動画検索 文章で動画を検索する 「粗品さんがクイズを出題する回」 や 「せいやさんがギターを弾く回」 など、自然言語で動画を検索できます。 2. 関連動画レコメンド 内容の近い動画をレコメンドする 動画を選ぶと、過去動画の中から内容の近い動画をレコメンドします。 これらの機能はベクトル検索で実現されています。詳細を説明していき
この記事は、情報検索・検索技術 Advent Calendar 2023の12月4日の記事である。 昨今のLLMの台頭により、外部情報を In-Context Learning として利用しLLMの生成結果の性能を高めることが可能な RAG(Retrieval Augmented Generation) の重要性の高まりを感じる。ただ、RAG を使ったシステムを構築してみようにも、データが少ないと面白みが少なかったりする。その為、Wikipedia 日本語の約550万文から簡単に検索可能でRAGの入力データとして使えるような embeddings と、素早い速度でベクトル検索できるような faiss 用の index を作成した。 例えば、Wikipedia から該当の文を検索する用途はこのように使える。 from datasets.download import DownloadMana
AIに欠かせない数学を、プログラミング言語Pythonを使って高校生の学習範囲から学び直す本連載『「AI」エンジニアになるための「基礎数学」再入門』。前回は「スカラ」「ベクトル」「行列」「テンソル」の基礎知識を学びました。今回のテーマは、ベクトルの扱い方=計算方法です。 ところで、皆さんは英語を学習したことがあると思います。新たな英単語・英文法を学ぶことで、より多くの英文を読解できるようになることを経験しているはずです。何が言いたいかというと、今回のテーマを学ぶことは、数学に関連する文献を読むことにおける「単語や文法を学ぶ」ようなことに値します。つまり、より多くの文献を読解できるようになるはずなので、しっかり学んでいきましょう。 2次元のベクトル ベクトルの計算方法を解説するために、例として次のような2つのベクトルを考えます。 今回は2次元(要素が2つ)のベクトルで、次のような数字の集まり
ベクトル検索(Vector Search)とは? キーワード検索との違い:AI・機械学習の用語辞典 用語「ベクトル検索」について説明。テキストなどのデータを数値ベクトル(埋め込み)として表現し、それらのベクトル間の類似度を計算することで、関連する情報を見つけ出す検索方法を指す。Azure OpenAI Serviceの独自データ追加機能で利用可能な「キーワード検索」「ベクトル検索」「ハイブリッド検索」「セマンティック検索」という検索手法の違いについても言及する。 連載目次 用語解説 AI/機械学習/自然言語処理におけるベクトル検索(Vector Search:ベクター検索)とは、テキストや画像などのデータを数値ベクトルとして表現し、それらのベクトル間の類似度(主にコサイン類似度)を計算することで、関連する情報を見つけ出す検索方法のこと、またその方法による検索のことである。なお、数値ベクトル
※この投稿は米国時間 2022 年 6 月 17 日に、Google Cloud blog に投稿されたものの抄訳です。 メルカリは、日本で 2,000 万人超、米国で 約566 万人の月間アクティブ ユーザーを持つ、近年最も成功しているマーケットプレイス サービスのひとつです。2021 年 10 月、メルカリは小規模のビジネスオーナーや個人がスマートフォンひとつでネットショップをEC ポータルを開設できる新サービス「メルカリShops」 を日本で開始しました。この新サービスの開発に際しては、「類似性」を利用した新しいマーケットプレイスの実現に Google のベクトル検索技術が導入されています。 ショップを集めただけではマーケットプレイスにはならない立ち上げ当初の「メルカリShops」は、小さな EC サイトの集まりにすぎず、ユーザーは各ショップを 1 か所ずつ開いては販売されている商品
はじめに この記事は、現在(2023年8月4日時点)パブリックプレビュー中のCognitive Searchのベクトル検索機能について、ベクトルDBの構築手順を解説する記事です。公式ドキュメントにはクイックスタート記事も公開されており、こちらのブログで日本語で丁寧に解説してくれています。 公式ドキュメントのクイックスタートを読んでいると、下記の課題に遭遇します。 PDFなどのドキュメントはどのように扱えばいいか? チャンク分割やベクトル生成は具体的にどのように行えばよいか? 言語アナライザーを日本にするにはどこを変えればよいか? インデックスを自動更新するにはどうすれば良いか? このような課題に対して、Azure公式のGitHubリポジトリにあるcognitive-search-vector-prにあるインデックス作成ツール(azure-search-vector-ingestion-py
物理の本ではよく, 「反変ベクトルとは~~という変換則をもち, 共変ベクトルは・・・という変換則をもつものとして定義される」と説明がなされますが, 初学者にとってはなぜ唐突にこのような定義がされるのか非常にわかりにくいと思います. そこでこのページでは数学的によりシンプルな定義を採用し, 一点の曇りなく自然に反変ベクトルと共変ベクトルが導入されることを説明します. さらに2つの拡張としてテンソルが自然に導入されることもみていきます. 以下では$${\left(e_i\right)_{1\leq i\leq n}}$$を$${n}$$次元実ベクトル空間$${V}$$の基底とします. 複素ベクトル空間の場合も以下の$${\mathbb{R}}$$を$${\mathbb{C}}$$に変えるだけで全て上手く成り立ちます. このページと同じ内容のPDFも用意していますので適宜ご利用ください. 前提知
※この投稿は米国時間 2021 年 12 月 14 日に、Google Cloud blog に投稿されたものの抄訳です。 先日、Google Cloud のパートナー会社の グルーヴノーツ が、 MatchIt Fast のライブデモを公開しました。MatchIt Fast は、Wikimedia や the GDELT project などにある大規模公開データの中から、選択したサンプルに類似した画像やテキストを数ミリ秒で見つけ出すことができます。 このデモはどなたでも試せます。Image Similarity search に進み、クエリ候補に表示されている画像を選択するか、自分が所有する画像をアップロードしてみてください。上の動画のように、Wikimedia にある 200 万枚の画像の中から類似した上位 25 枚の画像が瞬時に表示されます。アルゴリズムが高速であるため、キャッシュ
ベクトルの準備 次にタイトル文章をベクトル化していきます。 OpenAIのアカウントを作成し、こちらからAPIキーを取得し、それを環境変数OPENAI_API_KEYに設定した後、次のコードを実行するだけで、入力文章のベクトルを取得できます。 import os import openai openai.api_key = os.environ["OPENAI_API_KEY"] client = openai.OpenAI() def get_embedding(text, model="text-embedding-ada-002"): text = text.replace("\n", " ") return client.embeddings.create(input=[text], model=model).data[0].embedding get_embedding("入力し
どうも!オペレーション部の西村祐二です。 ChatGPT関連の専用アプリケーションを作成しようとすると、「ベクトルデータベース」という用語が出てきます。これは私にとって、これまでまったく経験したことのない分野で理解できていない状態でした。 このままでは行き詰まってしまうという思いと、この分野に関してある程度知識を身につけておくと、今後応用がききそうだなと考えました。 そこで今回、他のベクトルデータベースと比べて機能がシンプルそうで、Rustで作られているという特徴から、Qdrantを試してみました。 Qdrantとは 公式ドキュメントから引用し翻訳したもの Qdrantは「ベクトルの類似性検索エンジンであり、追加のペイロード(つまりベクトル)を格納、検索、管理するための便利なAPIを備えた本番環境で使用できるサービスを提供します。」ペイロードとは、検索を絞り込むのに役立つ追加の情報や、ユー
Overview エムスリーエンジニアリンググループ AI・機械学習チームでソフトウェアエンジニアをしている中村(po3rin) です。検索とGoが好きです。 エムスリーではChatGPTの可能性にいち早く注目して活用を検討している段階ですが、本格的なデータ投入にはまだ懸念もあり、セキュリティチームと検討を進めている段階です。 そんな中で個人または組織のドキュメントのセマンティック検索と取得を可能にするChatGPTプラグイン「ChatGPT Retrieval Plugin」が登場しました。 github.com 情報検索好きとしては黙っていられず、外部公開用のエムスリーAI・機械学習チームのメンバー紹介ドキュメントを使ってローカルで試してみました。 # 用意したドキュメント 中村弘武は東京都在住で、エムスリーという企業で働いでいます。 エムスリーの検索基盤を主に担当しています。また、書
「ChatGPT Meetup」は、プロンプティングからOpenAI API、さらには周辺のライブラリやHubのエコシステムまで広く活用の助けになる知見を共有し、みんなで手を動かして楽しむためのコミュニティです。1回目に登壇したのは、株式会社フィードフォースの八百俊哉氏。ベクトルデータベース「Pinecone」の概要とプラクティスについて発表しました。 自己紹介とアジェンダ紹介 八百俊哉氏:では、最後の発表です。「Pineconeの重要性とプラクティス」というところでお話をしようと思います。よろしくお願いします。 まず自己紹介です。名前は、「やお」と読みます。八百俊哉です。大学で機械学習を専攻しており、画像処理や自然言語処理の概要はそこで学びました。 2020年に新卒で株式会社フィードフォースに入社して、入社時からデータサイエンティストとして、社内のデータ分析を中心に業務を担っています。
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く