タグ

*algorithmとsearchに関するsh19910711のブックマーク (190)

  • 検索結果0件を回避するためのクエリ書き換えアプローチ - ZOZO TECH BLOG

    はじめに こんにちは、データサイエンス部の朝原です。普段はZOZOTOWNにおける検索の改善を担当しています。 ZOZOTOWNには100万点を超える商品が存在し、毎日2700点もの新商品が追加されています。このような膨大な商品数を扱うZOZOTOWNにおいて、ユーザーが求める商品を見つけやすくするための検索機能は非常に重要です。 一方で、ファッションという日々ニーズが激しく変化するドメインにおいて、ユーザーのニーズを検索クエリから正確に把握し、適切な商品を提示することは困難を伴います。特に、検索システムにおいて検索結果が0件である(以下 0件ヒット)ことはユーザーにとって悪い体験となり、離脱を招いてしまいます1。実際にZOZOTOWNでは、日々0件ヒットが発生しており、大きな課題となっています。 記事では、検索結果が0件になる主な原因と、その対策の1つであるクエリ書き換えについて紹介し

    検索結果0件を回避するためのクエリ書き換えアプローチ - ZOZO TECH BLOG
    sh19910711
    sh19910711 2025/10/05
    "Zuo: GAT(Graph Attention Network)を用いてユーザーの検索履歴をグラフ構造として表現し、クエリ間の関係性を考慮したクエリ書き換えを提案"
  • おすすめされた理由がわかるXAIレコメンドモデルを動画配信サービスログで試してみた - ENGINEERING BLOG ドコモ開発者ブログ

    はじめに 記事はNTTドコモ R&D Advent Calendar 2022の20日目の記事です。 こんにちは。 NTTドコモ サービスイノベーション部の明石です。 私は業務でドコモが持つECサイトや動画配信サービスにおけるレコメンドシステムの研究開発をしております。 記事では、レコメンドとは?という部分から、レコメンドされた内容の理由を説明するXAI(eXplainable AI)モデルの評価結果について述べます。 記事の内容は情報処理学会所属、MBL研究会*1第104回発表会にて報告した内容*2を基に執筆しております。光栄なことに当発表会において優秀発表賞を頂くことができましたので、論文の方も是非ご覧になってください。 忙しい方向け レコメンドは様々なサービスで利用され、ユーザに合ったコンテンツを推薦します。 XAIとは、判断に至った理由を説明してくれるAIです。 レコメンドに

    おすすめされた理由がわかるXAIレコメンドモデルを動画配信サービスログで試してみた - ENGINEERING BLOG ドコモ開発者ブログ
    sh19910711
    sh19910711 2025/10/05
    2022 / "レコメンドシステムにおける課題として、推薦理由が不明確なことによる信頼性やユーザ満足度の低下 / AMCF: 推薦コンテンツに加え、各ユーザの嗜好を推薦理由として提示"
  • Zennのレコメンド機能(For you)の裏側 - LLMとベクトル近傍検索を使った記事のレコメンドシステムの仕組み

    はじめに Zennではこれまで、独自の集計方法により新着記事のランキングTrending)を提供してきました。Zennの読者にはWeb開発系のユーザーが多く、TrendingにはWeb開発系の記事が上位になりやすい傾向がありました。 昨年実施したユーザーアンケートでは、「Trendingが自分にマッチしていない」という意見が一定数寄せられ、レコメンド機能を求めるユーザーが75%に上ることが判明しました。 読者層の多様化に伴う新たなニーズに応えるため、記事のレコメンド機能(For you)を開発することにしました。 左が Trending、右が For you 記事では、Zennのレコメンドシステムで活用している、LLMとベクトル近傍検索を使った記事のレコメンドシステムの仕組みについて説明します。 方針の検討 一口にレコメンドと言っても、目的や適応箇所によって、その手法はさまざまです。大

    Zennのレコメンド機能(For you)の裏側 - LLMとベクトル近傍検索を使った記事のレコメンドシステムの仕組み
    sh19910711
    sh19910711 2025/10/03
    "アンケートでは、「Trendingが自分にマッチしていない」という意見が一定数寄せられ、レコメンド機能を求めるユーザーが75% / レコメンドの結果をユーザーがコントロールできることが、ユーザーにとって重要な要素"
  • 論文要約:Multi-word Term Embeddings Improve Lexical Product Retrieval

    論文要約:Multi-word Term Embeddings Improve Lexical Product Retrieval 論文:https://arxiv.org/pdf/2406.01233 この論文を読もうとしたきっかけ セマンティック検索でファッションドメインの語を扱う方法を理解 Elasticsearch9系でrank_vectors mappingによりlate-interactionが可能になったので理解 Abstract ECにおける製品検索に特化した新しい埋め込みモデル「H1」について述べている。 H1モデルの主な特徴と利点 複数の単語からなる製品名を一つのトークンとして(つまりフレーズのように)処理できる点が大きな特徴 例えば「new balance shoes」や「gloria jeans kids wear」といった検索クエリに対して、「new balanc

    論文要約:Multi-word Term Embeddings Improve Lexical Product Retrieval
    sh19910711
    sh19910711 2025/09/28
    "Elasticsearch9系でrank_vectors mappingによりlate-interactionが可能になった / インデックス構造がトークン→商品群のため、新しい語彙(トークン)が追加されたらそれに対応する商品群を追加"
  • スタンバイにおける検索への取り組み - Stanby Tech Blog

    1 はじめに はじめまして、スタンバイのSearchAdvertisingCoreGroup(検索・広告コアグループ、以降SACG)でAPI・インフラ周りの開発を行なっている金正です。 この記事では、スタンバイにおける検索への取り組みを紹介します。 2 一般的な検索システムに関して まず一般的な検索改善の取り組みを紹介します。 以下の図のように一般的な検索システムは大きく分けて2つのコンポーネントに分けられます。 2.1 クエリプリプロセス ユーザーが入力したクエリをより検索マッチしやすく加工したり、 ユーザーの検索理解をする、いわゆる「クエリアンダースタンディング」と一般的には呼ばれているコンポーネントもこのクエリプリプロセスに含まれます。 そもそも検索システムに使い慣れているユーザーなら、クエリアンダースタンディングは必要ありません。 検索窓されあれば自分で意図通りの検索クエリを入力し

    スタンバイにおける検索への取り組み - Stanby Tech Blog
    sh19910711
    sh19910711 2025/09/28
    2022 / "クエリ拡張: 「メガネ バイト」に対して、「(メガネ or サングラス) and (バイト or アルバイト)」のようにクエリを拡張することで検索対象のドキュメントを増やす"
  • レコメンドシステム—— Wide&Deep モデル

    シリーズの目次 レコメンドシステムのシリーズをここにまとめています。 はじめに 稿では、レコメンデーション分野において画期的な影響を与えた論文「Wide & Deep Learning for Recommender Systems」について詳しく解説します。この論文は、2016年にGoogle Play Storeのレコメンデーションチームによって発表されました。ディープラーニングが実用化され始めた黎明期において、レコメンデーションシステムのCTR(クリック率)予測にディープラーニングを効果的に応用した先駆的な研究として高く評価されています。この研究は、レコメンデーションシステムにおけるディープラーニング活用の成功事例として、現在も多くの実務者や研究者に参照されています。 論文のリンク:https://dl.acm.org/doi/pdf/10.1145/2988450.2988454

    レコメンドシステム—— Wide&Deep モデル
    sh19910711
    sh19910711 2025/09/28
    2024 / "レコメンデーションシステムは、本質的にアイテムのランキングシステムとして捉えることができ / 記憶力(memorization)と汎化性(generalization)のバランスが重要"
  • M3-Embeddingを読んでみた - Qiita

    Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article? 1. 初めに 以前、ローカルでRAGモデルを作成した際に「最近の文章埋め込みモデルはどのような仕組みなのだろう?」という疑問から埋め込みモデルの調査をしていたところ、 多言語対応 いろいろな埋め込み方式について知ることが出来る 短文から長文の埋め込みで高性能を出す手法 などを学べるという理由から、M3-Embeddingに関する論文を読んでみました。 また、RAGモデルを作成した際の候補となったというのも大きいです。 論文リンクです。 2. 論文概要 M3-Embedding という新しい文章埋め込みモデルの提案に関する論文です。 M3

    M3-Embeddingを読んでみた - Qiita
    sh19910711
    sh19910711 2025/09/28
    "Multi-Linguality, Multi-Functionality, Multi-Granularityの3つのM / Dense, Sparse, Multi vecの3つの検索方式 / 学習方法やデータの工夫で性能を上げる論文が多い印象"
  • ベースライン的なレコメンドモデルを作るのに RecTools が便利そう

    レコメンド用のツールについて レコメンド界隈はみんなが使っている定番のライブラリというものがないように思う。例えば、自然言語処理では(色々と文句を言われることもあるが)Hugging Face が標準的に使われるようになっている。それに比べると、レコメンドはとりあえずこれ使っておけ、と言えるものが思い浮かばない。 ロジック/モデル部分中心のものであれば implicit や RecBole などポピュラーなライブラリはいくつかあるが、それに与えるデータの前処理とか結果のオフライン評価に関しては、それぞれの現場で固有のツールやライブラリが作られがちな気がしている。 大規模サービスを運営していて KPI を0.1%でも向上させることに意味があるようなテック企業を除けば、一般的な協調フィルタリングや評価指標を実装すればまずは十分だろうし、そうなると中核となるデータの処理方法も概ね共通してくる。

    sh19910711
    sh19910711 2025/09/20
    "データの前処理とか結果のオフライン評価に関しては、それぞれの現場で固有のツールやライブラリが作られがち / RecTools: レコメンドシステムを構築するプロセス全体をカバーするようなライブラリ"
  • ベクトル埋め込みを使って「小説家になろう」を検索して、更に多様化する (情報検索・検索技術 Advent Calendar 2022)

    ベクトル埋め込みを使って「小説家になろう」を検索して、更に多様化する (情報検索・検索技術 Advent Calendar 2022) Twitter: @cocomoff / Zenn: @takilog です。記事は情報検索・検索技術 Advent Calendar 2022の8日目の記事として書きました。 まえがき 普段、メーカーの研究職として様々な雪かき的研究(技術的盆栽かも?)を遂行しているのですが、最近趣味で検索システムのを読んでいたため、検索技術に個人的に興味を持っています。こちら、大変良いでした(一部分、ちゃんと読めてないところもありますが…)。 せっかくを読んだので、何か検索システムのことを考えてAdvent Calendarでも書こうと思ってこちらの記事を書きました。 職が検索ではないので、真面目なソフトウェア(elasticsearchとか)を使うのが難しく

    ベクトル埋め込みを使って「小説家になろう」を検索して、更に多様化する (情報検索・検索技術 Advent Calendar 2022)
    sh19910711
    sh19910711 2025/09/20
    2022 / "悪徳令嬢の作品をひたすら読みたいときは関連度だけを用いた検索システムで十分 / 検索結果の多様性に関する技術群は 検索結果多様化 (Search Result Diversification) という技術として、いろんな研究"
  • マトリョーシカ・レトリーバーとは?次元削減で検索が早くなる!

    OpenAIAPIに次元削減という機能がつきました。 dimensionsというキーに次元数を指定すると、その次元に削減ができます。 openai.embeddings.create({ model: 'text-embedding-3-large', input: 'The cat chases the mouse', dimensions: 1024, # 1024まで次元削減する }) ちなみにdimensionsを指定しないとフルサイズで埋め込みが作成されます。 このオプションについてLangChainが記事を出していたので解説します。 埋め込みとは文章、画像、動画などの類似度を得ることができるベクトル表現です。 物の位置を知るためにX,Y,Z軸の3軸で表現しますが、これは3次元のベクトル表現です。 埋め込みベクトルはこれが数千とか数万になります。 [-0.023972103,

    マトリョーシカ・レトリーバーとは?次元削減で検索が早くなる!
    sh19910711
    sh19910711 2025/09/20
    2024 / "削減された次元のベクターストアで検索を高速に行い、その後メタデータに保存していたフルサイズの埋め込みベクトルを使って順位付け / supabaseさんが書いたマトリョーシカ埋め込みの記事"
  • LightFMから始める推薦システム入門

    アドベントカレンダー 株式会社GENDAでデータサイエンティストをしているtoma2です。 この記事は、GENDAアドベントカレンダー2023の9日目の記事になります。 GENDAアドベントカレンダーでは、プロダクト開発や組織開発に関わるメンバーを中心に多様なテーマの記事を投稿しています。ぜひ、購読登録をしていただき12月25日までお楽しみください。 はじめに 最近、推薦モデルを調べる中でLightFMについて勉強したので、その内容をまとめとデータセットMovieLensでの実行例を示します。また、私が推薦モデルから推薦システムを作ろうとした際に躓いた、新規データへの対応やモデル更新といった実用的な内容も記載しています。 参考文献 こうもとさんのブログ「宇宙 日 世田谷 機械学習」は、lightFMの理論から実用上の細かい点まで詳しく記載されており、大変参考にさせていただきました。 Li

    LightFMから始める推薦システム入門
    sh19910711
    sh19910711 2025/09/20
    2023 / "LightFM: 名前の通り動作が軽くCPUで動き + 環境構築が比較的容易で入門に最適 / Pythonライブラリであるlightfmの完成度が非常に高い + データ形式の変換関数やloss functionなどが充実"
  • Pocochaにおけるロングテールな推薦モデルの開発 | BLOG - DeNA Engineering

    自己紹介 初めまして。京都大学工学部情報学科4回生の羽路悠斗です。8/16~9/9にAIスペシャリストコースの就業型インターンシップに参加しておりました。 普段は、テーブルデータの分析・機械学習エンジニアのアルバイトと、深層学習のプロジェクト型アルバイトをしています。Kaggleでは銀メダル2枚のKaggle Expert で、金メダルを獲れるよう精進しています。卒業研究では、表情認識への画像生成の活用に取り組む予定です。 記事では、インターンシップで取り組んだ、ライブ配信アプリ「Pococha」の推薦の工夫について、執筆したいと思います。 取り組んだテーマ インターンシップで取り組んだテーマは、「ライブ配信アプリPocochaにおけるロングテールプラットフォームを実現するための推薦モデルの開発」です。 Pocochaのプロダクト設計においては、「ロングテール」なサービスを作ることを大

    Pocochaにおけるロングテールな推薦モデルの開発 | BLOG - DeNA Engineering
    sh19910711
    sh19910711 2025/09/16
    2022 / "ジニ係数: 元々は所得の不平等さを測る指標 + 配信者の出現回数を所得とみなして適用 + 小さいほど、より平等を表す"
  • 推薦アイテムセットの多様性を考慮したBPR論文を実装・実験した - エムスリーテックブログ

    エンジニアリンググループ AIチームの金山 (@tkanayama_)です。2019年新卒でエムスリーに入社してから早くも1年経ってしまいました。 今回は、 "Bayesian Personalized Ranking for Novelty Enhancement" [Wasilewski and Hurley, UMAP'19] という論文を紹介します。Bayesian Personalized Ranking (BPR) のサンプリング方法を工夫することで、推薦するitemが多様になるようにした論文です。 ワラビーです。 推薦システムでは、推薦されたitemセットが画一的になってしまうことが問題となる場合があります。 エムスリーでは医療系会員に対してニュース記事を配信していますが、似た内容のニュース記事が集中的に投稿される時期があります。例えば、3月は大学受験の記事、8月は東医体・西

    推薦アイテムセットの多様性を考慮したBPR論文を実装・実験した - エムスリーテックブログ
    sh19910711
    sh19910711 2025/09/12
    2020 / "推薦システムでは、推薦されたitemセットが画一的になってしまうことが問題となる / clickされたitemと距離が近いitemを推薦されにくくする"
  • Cross-Domain Recommendationの調査論文を読んでみました。 - CCCMKホールディングス TECH LABの Tech Blog

    こんにちは、データサイエンスグループの木下です。 今回は、RecSys2024でもセクションの一つとして取り上げられていた、 Cross-Domain Recommendation(CDR)について調査した Cross-Domain Recommendation: Challenges, Progress, and Prospectsという論文(リサーチペーパー)について紹介いたします。この論文は2021年に発表されました。 RecSys2024ではSpotifyなどの企業が実際のレコメンドアルゴリズムにCDRを取り入れているという話がありました。 一方、CDRに関しては日語のまとめがほとんど存在しないのが現状です。 唯一、下記のまとめ記事は情報量も多く、実装例まで記載されている素晴らしい記事だと思いましたので、掲載させていただきます。 qiita.com そのような背景があるので、今回

    Cross-Domain Recommendationの調査論文を読んでみました。 - CCCMKホールディングス TECH LABの Tech Blog
    sh19910711
    sh19910711 2025/09/03
    "データが豊富な「ソースドメイン」から情報を活用し、データが少ない「ターゲットドメイン」の推薦精度を向上 / Spotifyなどの企業が実際のレコメンドアルゴリズムにCDRを取り入れ"
  • 検索性能を改善するハイブリッド検索で使えるランク融合アルゴリズム - Ahogrammer

    Risk-Reward Trade-offs in Rank Fusionを読んでいて、検索システムの結果を統合するために使える教師なしのランク融合アルゴリズムについて書きたくなったのでまとめました。最近では、RAGの性能を改善するためにハイブリッド検索が使われることがありますが、その内部で各検索システムの結果を統合するために使うことができます。実際に計算する方法と合わせて紹介します。 記事の構成は以下のとおりです。最初に、検索の文脈からランク融合アルゴリズムについて例を交えて紹介した後、実際に計算する方法を紹介します。 アルゴリズム CombSUM CombMNZ Borda RRF 実際に計算したいときは? 参考資料 アルゴリズム 記事で紹介するアルゴリズムはスコアベースと順位ベースの2つに分けられます。スコアベースのアルゴリズムは、検索システムが出力するスコアを利用するのが特徴的で

    検索性能を改善するハイブリッド検索で使えるランク融合アルゴリズム - Ahogrammer
    sh19910711
    sh19910711 2025/09/01
    2023 / "ranx: Python製のランキング評価用ライブラリ + キーワード検索とベクトル検索を一度だけしておいて、ランク融合アルゴリズムだけ変えたときの性能を測定"
  • SIGIR 2025に参加しました! DMMデータサイエンスグループ - DMM Developers Blog

    はじめに SIGIR 2025の概要 各自が印象に残ったセッション・発表 基調講演(Keynotes) day1| BM25 and All That - A Look Back(Stephen Robertson) day2| Digital Health(Ophir Frieder) day3| Please meet AI, our dear new colleague. In other words: can scientists and machines truly cooperate?(Iryna Gurevych) セッション・発表 1. Hypencoder: Hypernetworks for Information Retrieval (平野) 2. QDER: Query-Specific Document and Entity Representations for

    SIGIR 2025に参加しました! DMMデータサイエンスグループ - DMM Developers Blog
    sh19910711
    sh19910711 2025/08/22
    "BM25の開発者の一人であるStephen Robertson教授 / 計算は手回し計算機、プログラムはパンチカードでオペレーターに渡していた1960年代末の話から / TFの扱いや文書長正規化のアイデアがどのようにして生まれたか"
  • 情報検索のためのユーザモデル

    ARG 第6回Webインテリジェンスとインタラクション研究会 招待講演:「情報検索におけるユーザモデル」 講演者:加藤 誠(京都大学) アブストラクト: 情報検索を行うユーザのモデルは,ランキング学習や評価指標,対話的情報検索にて用いられ,現在もなお情報検索において中心的なトピックとなっている.講演では,検索ユーザの理解とそのシステムへの応用という2つの側面から,情報検索におけるユーザモデルを紹介する.

    情報検索のためのユーザモデル
    sh19910711
    sh19910711 2025/08/20
    2015 / "ユーザモデル: ユーザーの思考・行動を抽象化し数理的な枠組みの中で利用可能な形式にしたもの / 検索エンジンのクエリのうち33%は同一ユーザからの同内容クエリ [Teevan 2007]"
  • 情報検索における評価指標の最新動向と新たな提案

    [DL輪読会]Grokking: Generalization Beyond Overfitting on Small Algorithmic Datasets

    情報検索における評価指標の最新動向と新たな提案
    sh19910711
    sh19910711 2025/08/20
    2014 / "検索意図とユーザーモデル / 適合性の高い情報を出すためには + ユーザーモデルを考慮した検索意図にあった情報を出せるか否か / nDCG: 正規化の手法が異なる"
  • 20250226 NLP colloquium: "SoftMatcha: 10億単語規模コーパス検索のための柔らかくも高速なパターンマッチャー"

    sh19910711
    sh19910711 2025/08/02
    "SoftMatcha: パターンマッチングの一致判定に単語埋め込みの類似度 + 転置索引を拡張したアルゴリズムにより、10億語規模のコーパスに対しても、柔らかくも高速に検索 / numba: うまく書くとSIMDの性能を簡単に引き出せる"
  • 推薦システムを本番導入する上で一番優先すべきだったこと~NewsPicks記事推薦機能の改善事例を元に~

    記事は、Recommendation Industry Talks #3での登壇資料です。 ソーシャル経済メディアNewsPicksでは、ユーザに価値のある経済情報を届けるための施策の一つとして記事推薦機能を導入しています。発表では、NewsPicks記事推薦機能にて基盤改善がアルゴリズム改善…

    推薦システムを本番導入する上で一番優先すべきだったこと~NewsPicks記事推薦機能の改善事例を元に~
    sh19910711
    sh19910711 2025/07/28
    2024 / "オフライン-オンライン評価が相関しない問題 / CB推薦のモデルは現在稼働中のCF推薦のモデルよりも性能が低いと評価 + A/Bテストを用いたオンライン評価に進む意思決定ができなかった"