タグ

検索に関するpaul_oguriのブックマーク (27)

  • ZOZOTOWN検索における精度評価手法の運用で見えた課題とその改善アプローチ - ZOZO TECH BLOG

    こんにちは。検索基盤部の橘です。検索基盤部では、ZOZOTOWNのおすすめ順検索の品質向上を目指し、機械学習モデル等を活用しフィルタリングやリランキングによる検索結果の並び順の改善に取り組んでいます。 ZOZOTOWN検索の並び順の精度改善の取り組みについては以下の記事をご参照ください。 techblog.zozo.com 検索基盤部では新しい改善や機能を導入する前にA/Bテストを行い効果を評価しています。A/Bテストの事前評価として、オフラインの定量評価と定性評価を実施しています。これらの評価によりA/Bテストの実施判断をしています。 おすすめ順検索のフィルタリング処理の効果検証として導入したオフライン定量評価の方法については以下の記事をご参照ください。 techblog.zozo.com 以前の記事で紹介したオフライン評価を日々運用する中で、幾つか課題点が見つかりました。記事では、そ

    ZOZOTOWN検索における精度評価手法の運用で見えた課題とその改善アプローチ - ZOZO TECH BLOG
    paul_oguri
    paul_oguri 2024/03/18
    “ ”
  • RAG構築のためのAzure OpenAI Serviceリファレンスアーキテクチャ詳解 | SIOS Tech. Lab

    ◆ Live配信スケジュール ◆ サイオステクノロジーでは、Microsoft MVPの武井による「わかりみの深いシリーズ」など、定期的なLive配信を行っています。 ⇒ 詳細スケジュールはこちらから ⇒ 見逃してしまった方はYoutubeチャンネルをご覧ください 【4/18開催】VSCode Dev Containersで楽々開発環境構築祭り〜Python/Reactなどなど〜 Visual Studio Codeの拡張機能であるDev Containersを使ってReactとかPythonとかSpring Bootとかの開発環境をラクチンで構築する方法を紹介するイベントです。 https://tech-lab.connpass.com/event/311864/ こんにちは、サイオステクノロジー武井です。今回は、「RAG構築のためのAzure OpenAI Serviceリファレンスア

    RAG構築のためのAzure OpenAI Serviceリファレンスアーキテクチャ詳解 | SIOS Tech. Lab
  • RAGの性能を改善するための8つの戦略 | Fintan

    近年、OpenAIのGPT-4やGoogleのGemini、MetaのLLaMAをはじめとする大規模言語モデル(Large Language Model:LLM)の能力が大幅に向上し、自然言語処理において優れた結果を収めています[1][2][3]。これらのLLMは、膨大な量のテキストデータで学習されており、さまざまな自然言語処理タスクにおいて、タスクに固有なデータを用いてモデルをファインチューニングすることなく、より正確で自然なテキスト生成や、複雑な質問への回答が可能となっています。 LLM-jp-eval[4]およびMT-bench-jp[5]を用いた日語LLMの評価結果。Nejumi LLMリーダーボード Neoより取得。 大規模言語モデルは近年急速な進歩を遂げていますが、これらの進歩にもかかわらず、裏付けのない情報や矛盾した内容を生成する点においては依然として課題があります。たとえ

    RAGの性能を改善するための8つの戦略 | Fintan
  • ベクトル検索の高速化アルゴリズムと量子化パラメータの速度・データサイズ・精度の計測 - RAGでの利用時にはtop-N を意識する - A Day in the Life

    最近、文をembeddingsといった特徴ベクトルに変換するユースケースが増えている。そのベクトルから類似ベクトルを探す時に、数千ベクトルならほぼ何も考えなくともよく、数万ベクトル〜になると検索速度を高速化するためHNSW等のANNの近似最近傍探索アルゴリズムを使い、そして数百万ベクトル〜になってくると現実的なデータサイズ収めるために量子化等々を組み合わせた最適化を行うことが多いだろう。 これら類似ベクトル検索のための最適化(HNSW・IVFといったアルゴリズムや量子化)では、検索速度、データサイズ(メモリに乗るか)、精度、三つのトレードオフが発生する。これらトレードオフを踏まえた最適化戦略を考えるのだが、最適化時の正確さの計測結果として recall@10 や recall@100 が掲載されていることを多く見かける。例えばChoose the k-NN algorithm for yo

    ベクトル検索の高速化アルゴリズムと量子化パラメータの速度・データサイズ・精度の計測 - RAGでの利用時にはtop-N を意識する - A Day in the Life
  • 検索結果の品質向上

    2023年度リクルート エンジニアコース新人研修の講義資料です

    検索結果の品質向上
  • 大規模言語モデルの知識を補完するための Retriever の紹介 - ACES エンジニアブログ

    こんにちは、株式会社ACESでインターンをしている篠田 (@shino__c) と申します。普段は博士課程の学生としてNLPの研究をしています。 ここ数ヶ月で ChatGPT に加えて GPT-4 等の大規模言語モデル (LLM) が次々とリリースされていますね。 ChatGPT (gpt-3.5-turbo) はAPIの使用料が安いことから、多くの人が気軽にLLMを使用できるようになり、AI、特にNLPを売りにしている多くの企業は技術的にどうやって競争優位性を築けばいいのか模索しているのではないでしょうか。 その問いに対する1つの答えになりそうなものに、Retriever というものがあります。 例えば、社内にある外部には出せない文書を元に顧客からの質問に答える質問応答のサービスを作りたい場合、ChatGPT のような LLM の訓練にはそのようなデータは使われていないため、prompt

    大規模言語モデルの知識を補完するための Retriever の紹介 - ACES エンジニアブログ
  • [メモ]大規模言語モデル(LLM)のための文章検索に関する勉強・試行錯誤 | ドクセル

    Retrieve(検索)型のChatBot GPTに最近の情報や先端知識を覚えさせ、回答させるためのテクニック (Context learning, prompt tuning, …) 質問と類似度の高い データを検索して GPTに一次記憶させる GPTの記憶容量: 原稿用紙 数十枚程度 世の中のデータ: 超大量 3 Retrieve型で回答するChatBot 質問 の名前は何ですか? 期待する回答 の名前はありません。 文献情報を読み込んだ上で、GPTが回答 参考文献 1. 吾輩はである。名前はまだ無い。どこで生れたかとんと見当が つかぬ。何でも薄暗いじめじめした所でニャーニャー泣いていた 事だけは記憶している。 2. 彼等は我儘なものだと断言せざるを得ないようになった。ことに 吾輩が時々同衾する小供のごときに至っては言語同断である。 3. … 4 文献の検索方法 質問 の名前は

    [メモ]大規模言語モデル(LLM)のための文章検索に関する勉強・試行錯誤 | ドクセル
  • 検索が爆速になるデータベース設計を公開します

    こんにちは。エンジニアの谷井です。 フォルシアでは、Spookと呼んでいる技術基盤を用いて、主に旅行業界やMRO業界に対して、膨大で複雑なデータを高速検索できるアプリケーションを提供しています。 今回はその高速検索のノウハウのうち、特にDBの扱いに関連する部分について、ベテランエンジニアへのインタビューを通してそのエッセンスをまとめてみました。 一般的なベストプラクティスだけでなく、検索性能を高めることに特化しためずらしいアプローチもあるので、ぜひご覧ください。 フォルシアにおける検索DBについて まず前提としてフォルシアで扱うデータについて軽く説明します。 扱うデータの複雑さ たとえば、旅行会社向けのアプリケーションであれば、宿泊素材の情報としては ホテルの情報「〇〇ホテル」(~約2万件) プランの情報「朝付き・ロングステイ△△プラン」(0~1500件/施設) 客室の情報(~100件/

    検索が爆速になるデータベース設計を公開します
  • セマンティック検索の活用で、Elasticsearchの検索が根本的に変わる!? - Taste of Tech Topics

    こんにちは、@shin0higuchiです😊 業務では、Elasticsearchに関するコンサルティングを担当しています。 最近すっかり春らしく、暖かくなってきました。 新年を迎えたばかりの感覚でしたが、あっという間に時が経ちますね。 さて、今回の記事では、Elasticsearchの検索を根的に変える可能性を秘めたセマンティック検索に関して書かせていただきます。 概要 Elasticsearchは元々、キーワードベースのアプローチを主に取っており、クエリで指定されたキーワードを対象のドキュメント内で検索し、それらの出現頻度や位置に基づいて結果をランク付けしています。この方法では、文脈や意図に関係なく、単純にキーワードの一致度に基づいて検索結果が返されます。 一方、セマンティック検索とは、ユーザーのクエリの背後にある文脈と意図を理解しようとする検索手法で、キーワードだけに頼るのではな

    セマンティック検索の活用で、Elasticsearchの検索が根本的に変わる!? - Taste of Tech Topics
  • Transformer Memory as a Differentiable Search Index (NeurIPS 2022)

    論文紹介: Transformer Memory as a Differentiable Search Index (NeurIPS 2022) この記事は情報検索・検索技術 Advent Calendar 2022 の 16 日目の記事です. この記事では,NeurIPS 2022 に採択された T5 を用いた検索手法に関する Google Research の論文を紹介します.紹介する論文の情報は以下の通りです. タイトル: Transformer Memory as a Differentiable Search Index 著者: Yi Tay, Vinh Q. Tran, Mostafa Dehghani, Jianmo Ni, Dara Bahri, Harsh Mehta, Zhen Qin, Kai Hui, Zhe Zhao, Jai Gupta, Tal Schuste

    Transformer Memory as a Differentiable Search Index (NeurIPS 2022)
  • ベクトル検索エンジンQdrantの紹介

    はじめに これはLivesense Advent Calendar 2022 DAY 14 の記事です。 普段は主にレコメンドシステムの開発・運用をやっています。仕事ではPythonを書くことが多いです。好きな言語はRustです。この記事では、ベクトル検索エンジンQdrantを紹介します。 ベクトル検索とは そもそもベクトル検索とは何だ、という人もいると思います。簡単に言えばベクトル検索は類似するベクトルを(正確性を犠牲にして)高速に計算する技術です。 なぜそのような技術が必要になるのか簡単に説明しましょう。 なぜベクトルの類似度を計算する必要があるのか 近年、機械学習技術によって様々なものがベクトルで表現されるようになりました。典型的には画像と文書(単語)です。 「類似する画像を求める」「ユーザーが入力したワードに関連する文書を返す」「ユーザーが閲覧したアイテムに類似するアイテムのリスト

    ベクトル検索エンジンQdrantの紹介
  • ZOZOTOWN検索の精度改善の取り組み紹介 - ZOZO TECH BLOG

    こんにちは。検索基盤部の山﨑です。検索基盤部では、検索基盤の速度改善やシステム改善だけではなく検索の精度改善にも力を入れて取り組んでいます。 検索システム改善についての過去の取り組み事例は、こちらのリンクをご参照ください。 techblog.zozo.com また、ZOZOTOWNの検索ではElasticsearchを活用しています。Elasticsearchに関する取り組み事例はこちらのリンクをご参照ください。 techblog.zozo.com 記事では、ZOZOTOWNで近年実施した検索の精度改善の取り組み事例を紹介します。 目次 目次 はじめに ZOZOTOWN検索の処理フロー ZOZOTOWN検索改善の方針について 商品のリランキングロジックについて 商品のリランキングロジックの概要 特徴量ロギングの導入について 今後のZOZOTOWN検索の展望 おわりに はじめに ZOZOT

    ZOZOTOWN検索の精度改善の取り組み紹介 - ZOZO TECH BLOG
  • 「モノタロウの1900万商品を検索するElasticsearch構築運用事例」のポイント深掘り〜第50回 Elasticsearch勉強会後記〜 - MonotaRO Tech Blog

    こんにちは。 EC基盤グループ サーチチームの 山村です。 この記事は、 Elastic Stack (Elasticsearch) Advent Calendar 2022 の 23日目です。 2か月ほど前になりますが、2022年10月26日に実施された 第50回 Elasticsearch勉強会 で発表させていただきました。 私が外部での発表するのは、2016年6月のSolr勉強会 以来で、非常に緊張しました。 日々の業務にかまけて、ブログが後回しになっていたことで大変遅くなってしまいましたが、上記の発表で話した内容とスライド資料から、話したかったポイントを抜粋するとともに、勉強会で不足していた部分について補足をします。 当日、発表を終えたところで気が抜けてしまい、Twitter で頂いていた質問に満足に答えられませんでしたので、この場で補足説明を含めて出来るだけ回答したいと思います。

    「モノタロウの1900万商品を検索するElasticsearch構築運用事例」のポイント深掘り〜第50回 Elasticsearch勉強会後記〜 - MonotaRO Tech Blog
  • 8.0からのkNNはどう変わったのか / How kNN search changed in the Elasticsearch 8.0

    第46回Elasticsearch勉強会 : https://www.meetup.com/Tokyo-Elastic-Fantastics/events/283113192/

    8.0からのkNNはどう変わったのか / How kNN search changed in the Elasticsearch 8.0
  • オンラインドキュメントと日本語全文検索

    自社では Sphinx というドキュメントツールを利用しているのですが、残念ながらこれに付属している検索機能の日語検索はかなり厳しいです。また残念ながら Sphinx 開発側も検索周りを改善するという予定は直近ではないようです。 そして検索というのはとても難しい技術なため自分のような素人では導入して「普通に期待する動作」をさせるまでの距離はとても遠いです。 ただ、なんとかして日語全文検索を実現したいという思いはここ10 年くらいずっと思っていました。これは自社の Sphinx テーマを作ってくれている社員ともよく話をしていたのですが、どうしてもリソースをつぎ込めずにいました。 まとめ日語検索に対応している Meilisearch を採用したドキュメントスクレイパーの実行は GItHub Actions (Self-hosted Runner) を採用した自社 Sphinx テーマの検

    オンラインドキュメントと日本語全文検索
  • 10X の検索を 10x したい パートII - 10X Product Blog

    今 Q もお疲れさまでした!10X の @metalunk です. 3ヶ月前に 10X の検索を 10x したい というブログを書きました.その記事にあるとおり,1-3月で検索インフラの改善を実施し,検索速度 10x, インフラコスト 80% 削減という成果をあげました.そして,直近の3ヶ月では検索精度の改善に取り組みました.この記事では今 Q にリリースした機能と,それぞれの効果を説明します. 長い記事になったので飛ばし飛ばし読んでください. どんな Q だったか KPI の変化 Zero match rate Conversion rate リリースした機能 検索キーワードサジェスト システム概要 評価 カテゴリフィルタ 並び順の改善 評価 bigram 解説 評価 シノニム辞書を Search time に展開 解説 イベントログからシノニムルールの生成 解説 改善の背景 KPI D

    10X の検索を 10x したい パートII - 10X Product Blog
  • 検索エンジンのMore-Like-Thisクエリとグラフアルゴリズムによる類似記事集約

    記事は Grouping Similar Articles with Search Engine More-Like-This Queries and Graph Algorithms の翻訳記事です。以前の記事である More Like This Query を活用した類似記事集約 入門 から、より踏み込んだ内容になっています。 はじめにストックマークでは、毎日数千のメディアから数万件のニュース記事を収集しています。そのときに、異なるメディアから類似した内容の記事がクロールされることもあります。その一方で、これらの内容の重複した記事をそのままユーザに表示してしまうと、ユーザの情報収集体験を損ねてしまう可能性があります。そのため、ストックマークのプロダクトであるAnewsので記事推薦や、Astrategyでの事業活動比較などのニュース分析サービスにおいて、より良いユーザー体験を提供するた

    検索エンジンのMore-Like-Thisクエリとグラフアルゴリズムによる類似記事集約
  • 検索システム開発に携わって得られた知見 〜もっと早くに知りたかった〜 - Qiita

    記事は、情報検索・検索技術 Advent Calendar 2021 - Adventar および ストックマーク Advent Calendar 2021 の 13日目の記事となります。( Advent Calendar の多重投稿禁止の規則はないものと認識していますが、もし問題があるようならば修正したいと思います) はじめに 私は、2020年にストックマークに入社して以来、Astrategy のバックエンドエンジニアとして検索システムの開発に携わってきました。検索システムといっても、もちろんElasticsearchなどの全文検索エンジンを利用する形のものではありますが、それなりに自分たちで作り込む部分もありました。そして、開発において、もっと早くに知っておけばよかった、もっと早くからこうすればよかったと今振り返ると感じる内容が多々ありましたので、今回はそのような、「検索システムを開

    検索システム開発に携わって得られた知見 〜もっと早くに知りたかった〜 - Qiita
  • 検索基盤チームのElasticsearch×Sudachi移行戦略と実践 - エムスリーテックブログ

    エムスリーエンジニアリンググループ AI機械学習チームでソフトウェアエンジニアをしている中村(@po3rin) です。最近、AI機械学習チーム配下の検索基盤チームでElasticsearchのAnalyzerをKuromojiからSudachiに移行しました。今回はSudachi移行の背景と、Sudachiの概要、実際に移行するにあたってのプロセスや注意事項をお話しします。 対象読者 なぜSudahchiに移行したのか 検索基盤チームが抱えていた検索の課題 Sudachiとは Sudachiへの移行戦略と実践 今使っているKuromojiユーザー辞書をSudachiユーザー辞書に移行する 今使っているシノニム辞書からSudachi正規化機能でまかなえるものを削除する 平仮名/カタカナの正規化辞書を作る 移行時のSudachi切り替え戦略 移行後の影響の事前確認 Sudachi移行時のハ

    検索基盤チームのElasticsearch×Sudachi移行戦略と実践 - エムスリーテックブログ
  • ZOZOTOWNのおすすめ順を支える検索パーソナライズ基盤 - ZOZO TECH BLOG

    はじめに こんにちは、SRE部MLOpsチームの児玉(@dama_yu)です。この記事では、ZOZOTOWNのおすすめ順を支える検索パーソナライズ基盤について紹介します。 ZOZOTOWNのおすすめ順について ZOZOTOWNにおいて検索機能は非常に重要な機能の1つで、売上のうち多くの割合が検索経由です。ZOZOTOWNでは、検索結果の並び順として、おすすめ順、人気順、新着順など複数あり、現在おすすめ順がデフォルトになっています。 元々は人気順がデフォルトだったのですが、ユーザの嗜好に合わない商品まで検索結果に並んでしまうという課題がありました。そこで、この課題へのアプローチとしてユーザの行動履歴や属性を元にパーソナライズされた順番で検索結果を並べた、おすすめ順を新規追加することになりました。 この施策の結果、検索結果経由の商品CTRが向上しました。ユーザが求めている商品が並ぶようになった

    ZOZOTOWNのおすすめ順を支える検索パーソナライズ基盤 - ZOZO TECH BLOG