[B! 検索] mookieのブックマーク

ZOZOTOWN検索におけるA/Bテスト分析の自動化の取り組み - ZOZO TECH BLOG

はじめにこんにちは。検索基盤部の岩崎です。検索基盤部ではZOZOTOWNの検索機能の改善に日々取り組んでいます。ZOZOTOWNのおすすめ順検索のプロジェクトでは、機械学習モデルを活用した検索結果の並び順の改善に取り組んでおり、全ての施策はA/Bテストで検証しています。なお、最近の並び順精度改善の取り組みについては以下の記事をご参照ください。 tech blog.zozo.com 本記事におけるA/Bテストとは、特定期間中ランダムに振り分けたユーザーに対してそれぞれ別の施策を提示し、その成果の差を検定するテストのことを指します。A/Bテストは施策の効果を検証するための優れた手段として広く知られており、おすすめ順検索改善のリリース判断には欠かせない存在となっています。ZOZOではA/Bテスト基盤の整備を進めており、おすすめ順検索以外にもさまざまな施策でA/Bテスト基盤を用いた運用がされていま

mookie 2023/08/15

検索
test

リンク

直積量子化とグラフを融合し、ベクトル近傍検索のボトルネックを改善する（NGTのインデックスQGの紹介）

ヤフー株式会社は、2023年10月1日にLINEヤフー株式会社になりました。LINEヤフー株式会社の新しいブログはこちらです。LINEヤフー Tech Blog 高次元ベクトルデータの近傍検索エンジンNGT（OSS）の研究開発を行っているYahoo! JAPAN研究所の岩崎です。NGTを利用した類似画像検索や物体認識にも関わっています。グラフ構造型の性能ボトルネックを改善できる手法として、2021年1月にNGTのインデックスとして追加したQG（Quantized graph）を解説します。他にも10億ものベクトルを検索できるQBG（Quantized blob graph）を2022年8月にリリースしているのですが、これは別の機会に解説します。グラフ構造型インデックスの限界？ベクトル近傍検索には主にツリーやグラフ構造の手法と量子化による手法があります。NGTはグラフ構造型インデックス

mookie 2023/08/04

リンク

Twitter の検索システム、Earilybirdの論文を読む

2023-04-29 前回の記事の続き1で、Twitter の検索システムシリーズ第 2 弾です。 Earlybird とは?Twitter の検索システムであり、 Apache Lucene をベースにした、リアルタイム検索システム。論文はここで、 Blog 記事は The Engineering Behind Twitter’s New Search Experienceは 2011 年に公開されている。 TODO: 論文に書かれず、Blog 記事にのみ書かれている内容もあったので読んで追記しておく Web 検索はある程度成熟してきた分野だが、SNS のリアルタイム検索はまだ 2011 年当時いまだ未成熟で未開拓な分野Twitter で新たに開発したのが、 Earlybird と呼ばれるリアルタイム検索に特化した検索エンジンLucene の NRT 機能が導入され始めたのが、2011

mookie 2023/05/08

リンク

eBay’s Blazingly Fast Billion-Scale Vector Similarity Engine

The Similarity Engine's use cases include it em-to-it em similarity for text and image modality and user-to-it em personalized recommendations based on a user’s historical behavior data. Introduction Often, ecommerce marketplaces provide buyers with listings similar to those previously visited by the buyer, as well as a personalized shopping experience based on profiles, past shopping histories and b

mookie 2023/05/08

数十億のベクトル類似性マッチングを処理する超高速でスケーラブルな最近傍検索で、1秒あたり数千のリクエストをこなし、eBayの17億アイテムのアクティブな在庫全体を検索そして、95%の応答が25ミリ秒以内に応答する

リンク

【Python】Googleの検索エンジン・サジェストを収集する - Qiita

概要・GoogleのAPI使って，クエリを入力に検索エンジン・サジェストを収集検索エンジン・サジェスト収集（Perl版）との違い・APIを使用・入力したクエリの後ろに文字列（空白や五十音）を指定することで，「クエリ＋文字列」に対するサジェストを収集・→つまり，検索ボリュームに関係なく，クエリにまつわるありとあらゆるサジェストの収集を可能とした．「筑波大学＋あ」の例「筑波大学＋きょ」の例 Code import argparse from time import sleep from string import ascii_lowercase from string import digits import requests import urllib.parse class GoogleAutoComplete: def __init__(self, test_mode=Fa

mookie 2023/01/08

リンク

日本語用オートコンプリートのためのAnalyzer

風のうわさで、日本語用のオートコンプリートのためのTokenFilterとAnalyzerがLuceneに取り込まれたと聞きました（LUCENE-10102）。 Elasticsearchでも使えるかなぁ？ということで調べたところ（調べた？聞いた？）、どうやら8.1から利用できるようになっている（GitHub Issue #81858）みたいです（まだ、公式ドキュメントには記載がないのですが）。 8/17追記作者の打田さんがブログ書いてたの見落としてた（もしくは見たけど忘れてた）ので貼っておきます。マルチテナンシー下での Query Auto Completion 設計・運用戦略 - LegalForce Engineering Blog ということで、こんな感じで使えるよというのを試してみました。どういうもの？日本語入力方法を考慮したオートコンプリート用のトークンを生成してくれるT

mookie 2022/12/13

風のうわさで、日本語用のオートコンプリートのためのTokenFilterとAnalyzerがLuceneに取り込まれた

QAC
検索

リンク

10X の検索を 10x したいパートII - 10X Product Blog

今 Q もお疲れさまでした！10X の @metalunk です． 3ヶ月前に 10X の検索を 10x したいというブログを書きました．その記事にあるとおり，1-3月で検索インフラの改善を実施し，検索速度 10x, インフラコスト 80% 削減という成果をあげました．そして，直近の3ヶ月では検索精度の改善に取り組みました．この記事では今 Q にリリースした機能と，それぞれの効果を説明します．長い記事になったので飛ばし飛ばし読んでください．どんな Q だったか KPI の変化 Zero match rate Conversion rate リリースした機能検索キーワードサジェストシステム概要評価カテゴリフィルタ並び順の改善評価 bigram 解説評価シノニム辞書を Search time に展開解説イベントログからシノニムルールの生成解説改善の背景 KPI D

mookie 2022/10/08

“サジェストの新規導入の改善効果”この機能により，12.7% のゼロマッチ検索を削減し，1.1% CTR を向上しました！”

リンク

ホテルの客室検索APIのアーキテクチャ設計時に考えたこと

作ったもののイメージホテルの客室検索APIとは、チェックイン日やその他の条件を入力として受け取り、マッチするホテルの客室を返すものです。以下の画像はExpediaのものですが、赤枠で囲っている部分（他にもたくさんある）が入力になります。2022年4月頃に無事リリースされました。この検索APIを構築を任された際に、何を考えて設計していったのかを以下に示していきます。顧客からの要望顧客の会社は当時エンジニアがおらず（やりとりしている社長は元エンジニアだが）、これまでも私と仕事をしたことがあったので依頼が来ました。顧客と密にコミュニケーションを取りわかったのは、以下のような要望でした。このAPIは自社サービスとして第3者（要契約）に使ってもらえるようにしたい完全に一般公開ではなくちゃんと契約を結ばないと利用できないようなもの検索条件を柔軟に、かつ使いやすい感じで指定できるようにした

mookie 2022/10/08

リンク

サジェスト機能の改善を評価する社内ツールの紹介 - ZOZO TECH BLOG

はじめにこんにちは。検索基盤部の倉澤です。私たちは、ZOZOTOWNの検索機能の改善に取り組んでいます。ZOZOTOWNには、ユーザーが検索クエリを入力した際に、候補となるキーワードを表示するサジェスト機能があります。今回はこのサジェスト機能の改善を効率的に評価する社内ツールを以下3点に焦点をあてて紹介します。社内ツールの各機能実務にて利用している場面開発する際に採用したバックエンド技術目次はじめに目次背景サジェスト評価ツールの機能サジェスト候補の表示評価評価結果の集計表示類似度算出利用ケースバックエンドの技術技術スタックアーキテクチャまとめ背景 ZOZOTOWNでは、サジェストの検索エンジンとしてElasticsearchを採用しています。 Elasticsearchからサジェスト機能がデフォルトで提供されていますが、日本語との相性を考慮し通常の

mookie 2022/09/30

サジェストのジャッジメントツール。アノテーションもつけられそう

検索
QAC

リンク

Deep Metric Learningによる、ホテルや飲食店などの拠点検索改善

1.2 なぜDeep Metric Learningにしたか改善前のモデルでも特徴量を頑張って作れば解決できないことはないとは思います。「地名、ジャンル等に引っ張られて、拠点名指定を無視してしまう」パターンでは、クエリを解釈するロジックを入れ、地名だということを理解して地名部分のみを拠点の住所とマッチングさせて、それ以外を拠点名にマッチングさせて、という具合で特徴量を作れば正解できる可能性があると思います。しかし、これは一例で全体的に精度を上げるにはさまざまなケースを人が考慮して特徴量を作っていく必要があるので大変です。そこで、学習データ（クエリと正解拠点のペア）が大量にあることを生かして、DNN（Deep Neural Network）がよしなに学習してくれるのに期待しました。また、プロダクト化することを考えると遅くとも数百ミリ秒以内で応答する必要があるので、クエリと拠点側をそれぞれ