[B! *algorithm][search] sh19910711のブックマーク

KDD2021論文読み会・Neural Instant Search for Music and Podcast

sh19910711 2025/11/19

2021 / "ポッドキャストは1回限りの視聴がほとんど / 検索データ自体まだ少なく、単独で学習したモデルはベースラインに劣る / 音楽とポッドキャスト双方のデータで学習することによってそれぞれの検索精度向上を ~ "

リンク

Owl/Crow：ModernBERTをゼロから学習したコード検索特化モデル

※追記（2025/11/19）記事タイトルをより内容に即したものへ変更しましたトークナイザの構築に関するセクションを新たに追加しました言い回しを少し修正しましたはじめまして。私は大学でコード特化言語モデルを利用したコード検索の研究を行っています。概要本記事では、従来の CodeBERT / GraphCodeBERT 系モデルでは扱いづらかった最大 512 トークンという入力長の制約 FlashAttention 非対応による学習・推論コストの高さ事前学習・追加学習の再現性の低さといった課題を踏まえつつ、ModernBERT アーキテクチャを用いてスクラッチ学習（ゼロから学習）からコード検索向けの埋め込みモデルを自作・公開するまでをまとめました。具体的には、以下の点を中心に紹介します。既存のコード特化言語モデル（CodeBERT / GraphCodeBERT 等

sh19910711 2025/11/19

"行単位のマスキング（Span Masking）を用いて継続事前学習 / 行レベルで文脈を落とす事前学習が検索性能を底上げ / StarCoder: GitHub 上の大規模コードをライセンス準拠で収集したデータセット"

リンク

"Item Recommendation from Implicit Feedback"の紹介 | | AI tech studio

AILab Creative Researchチームの富樫です。このブログでは先月末にarxivに投稿された“It em Recommendation from Implicit Feedback”[1]という論文を軸に紹介しつつ、周辺分野の話題について議論したいと思います。この論文はit em推薦というタスクにおける手法の各種パラダイムの概観をコンパクトに解説した教科書的内容になっています。著者はBayesian Personalized Ranking (BPR)[2]を開発したGoogle Research所属のSteffen Rendle氏であり、長年この分野を開拓してきた権威の一人です。元論文の内容は元論文を読めばわかることですし、蛇足かもしれませんが、最近の研究との関連性や議論、個人的な感想などを示すことで、このブログが元論文に対する補足資料のようになることを目指した

sh19910711 2025/11/16

2021 / "大規模かつone-classなデータを前提としたランキング学習のタスクにおいて、損失とサンプリング分布/重み関数を主役にして、高いランキング性能をスケールするアルゴリズムで達成するための様々な工夫がある"

リンク

論文解説 IntentRec: Netflixにおける訪問意図を考慮したパーソナライズ推薦

この記事は、Netflixが発表した推薦システムに関する手法 IntentRecについて解説します。ユーザーが「今、何をしたいか」という意図を予測し、それを次の推薦アイテムの予測に活用する「階層的マルチタスク学習」のアーキテクチャを提案し、Netflixの実データでSOTA（最高性能）を達成した内容です。この論文のすごいところユーザーの「次に何をしたいか」という意図（例：新しい作品の発見、いつもの続きを視聴）を予測し、それを推薦に活かす新しい手法 IntentRecを提案しました。「意図予測」→「アイテム予測」という階層的マルチタスク学習（Hierarchical-Multi-Task-Learning, 以下H-MTL）を採用しました。これにより、意図を予測するだけでなく、その予測結果を「特徴量」として次のアイテム推薦に利用することで、推薦精度を大幅に向上させた。Netflix

sh19910711 2025/11/16

"同じ行動履歴を持っていても、ユーザーのその時々の「意図」によって、次に求めるアイテムは大きく異なる / IntentRec: 意図予測を先に行い、その結果をアイテム予測の入力とする + 短期的興味を別エンコーダでモデル化"

リンク

[CCSE] メルカリでのパーソナライゼーション機能の研究開発サイクル / CCSE2020-Pesonalization-Research-and-Development-Cycle

CCSE2020 12月11日（金） 13:10~ A3会場

sh19910711 2025/11/16

2020 / "良い研究開発: 信頼性高い実験結果から大きな学び + 素早い検証から多くの実験を実施できる / 事前の実験設計を丁寧に行いチーム内でレビューすることで「仮説自体」と「実験プロセス」の品質を上げている"

リンク

日経電子版におけるリアルタイムレコメンドシステム開発の事例紹介/nikkei-realtime-recommender-system

sh19910711 2025/11/16

2024 / "閲覧記事に基づくレコメンド / オンボーディングにおける課題 + 新規ユーザー・アイテムはログが少なく効果的なレコメンドが難しい / クリック系列を学習するTwo Towerモデルを作成"

リンク

日本語SPLADEモデルと学習コードのOSS公開

はじめにこんにちは。株式会社ビズリーチの検索基盤グループで機械学習エンジニアをしているDatと申します。求職者検索の高度化とセマンティック検索への挑戦「ビズリーチ」では、企業と求職者との最適なマッチング機会を最大化するため、日々検索品質の向上に取り組んでいます。特に、求職者の職務経歴書や企業の求人票の複雑な内容を深く理解し、関連性の高い候補者を見つけ出すことは、プラットフォームのコアな課題です。この課題を解決するため、我々はセマンティック検索の開発を進めています。セマンティック検索は、単語の一致だけでなく、意味的な類似性に基づいて結果を返す技術です。この技術のプロダクトへの展開において、我々は高精度かつ低レイテンシと高い解釈性というプロダクト要件を満たす検索モデルの採用が必要でした。その解決策として着目したのが、SPLADE (Sparse Lexical AnD Expansio

sh19910711 2025/11/15

"従来のBM25のような語彙ベースの検索が持つ高速性と解釈性を保ちつつ、BERTによる意味的な拡張の恩恵を受ける / 入力されたテキストは元の単語だけでなく、関連する概念や同義語を含む疎ベクトルへと変換"

リンク

Item2vecを用いた商品レコメンド精度改善の試み | メルカリエンジニアリング

こんにちは、メルカリのレコメンドチームで ML Engineer をしている ML_Bear です。普段はメルカリのホーム画面などに表示されるレコメンドパーツの改善を担当しています。今回はメルカリの莫大なユーザーログデータと、出品された商品に付与されているメタデータ(詳細後述)を活用したレコメンドロジック改善事例をご紹介します。商品メタデータについてメルカリではユーザーの商品検索体験を向上させるため、出品された商品に対して様々なメタデータを付与しています。ファッションアイテムだと色や生地感、家電だと型番といった、主として商品の属性をあらわす様々なデータをメタデータと呼称しています。今回、私は本やマンガに紐づいているメタデータ (以下、タイトルデータと記載) に着目しました。メルカリアプリ内では、本やマンガに商品が属するシリーズを表現するメタデータが付与されています。例えば「キング

sh19910711 2025/10/25

2022 / "ログとタイトルデータを突き合わせつつ、Item2Vecというレコメンドの手法を利用することでユーザーの興味にあった本やマンガのレコメンド / 膨大なログが日々蓄積されるサービスとは非常に相性がいい"

リンク

ウォンテッドリーにおける推薦システムのオフライン評価の仕組み

第35回 MLOps 勉強会：https://mlops.connpass.com/event/297976/ ウォンテッドリーでは、多様なユーザーと会社の理想的なマッチングを実現するために、会社訪問アプリ「Wantedly Visit」の推薦システム開発に力を入れています。今回の発表では、推薦チ…

sh19910711 2025/10/25

2023 / "サービスで閲覧する募集の並び順は、推薦モデルの結果をそのまま返すのではなく、その上に何かしらの後処理を行った結果を返している / 実際にユーザーが見るものと異なる推薦結果を評価してしまっている"

リンク

UI/UXが無意識に検索行動に与える影響について

検索技術勉強会「Search Engineering Tech Talk #1」でお話した内容です。株式会社メルカリ Tairo Moriyama（森山大朗） https://twitter.com/tairo

sh19910711 2025/10/25

2019 / "検索しているのは、買いたい人だけじゃないらしい / NDCGでメルカリ検索結果の良し悪しを決めると順位でスコアをDiscountし過ぎてしまう"

リンク

入力テキストと文書の関連度に基づく指示追従検索

入力テキストと文書の関連度に基づく指示追従検索こんにちは！愛媛大学大学院修士1年の杉山誠治です。この度は、株式会社レトリバの夏季インターンシップに参加し、指示追従検索に関する研究に取り組みました。本記事では、インターンシップで取り組んだ研究内容について報告します。はじめに情報検索では、ユーザが検索時に入力した語句（クエリ）と文書をコンピュータが比較できる数値列（ベクトル）に変換し、ベクトル間の類似度に基づいてクエリに最も近い文書を検索します。例えば、図1のように「池袋グルメ」というクエリが与えられた場合、「東京池袋のマップ」という文書よりも「東京池袋おすすめグルメ」のベクトルが近ければ、類似度が高いとみなされ、クエリに対する上位の検索結果として選択されます。図1：クエリと文書による検索近年、クエリだけでなくユーザの嗜好や意図を反映した具体的な補足・リクエスト（指示文）に

sh19910711 2025/10/18

"指示追従検索では、同じクエリに対しても、指示文によって関連する文書は異なるというのが特徴 / 指示文: ユーザの嗜好や意図を反映した具体的な補足・リクエスト"

リンク

RecSys 2025参加レポート - ZOZO TECH BLOG

はじめにこんにちは、データシステム部推薦基盤ブロックの上國料（@Kamiko20174481）とMA推薦ブロックの住安（@kosuke_sumiyasu）です。私たちは2025年9月22日〜9月26日にチェコのプラハにて開催されたRecSys2025（19th ACM Conference on Recommender Systems）に現地参加しました。本記事では会場の様子や現地でのワークショップ、セッションの様子をお伝えすると共に、気になったトピックをいくつか取り上げてご紹介します。はじめに RecSys とは開催地のプラハについて会場の様子論文の紹介 Orthogonal Low Rank Embedding Stabilization 感想・考察 Suggest, Complement, Inspire: Story of Two-Tower Recommendatio

sh19910711 2025/10/18

"推薦モデルを定期的に再学習すると埋め込み空間の座標系が変化 / 後処理のみで埋め込みの座標系を揃える手法を提案 / 各埋め込みベクトルにd×dの直交行列を1回掛けるだけで埋め込み空間を安定化できる"

リンク

Two-Tower モデルで作る高速でスケーラブルなレコメンドシステム｜株式会社ココペリ Tech blog

こんにちは、Fact & Dataグループの岡﨑です。近年、ECサイトやコンテンツプラットフォームにおいて、リアルタイムでパーソナライズされたレコメンデーションの重要性が増しています。しかし、大規模なユーザー・アイテムデータを扱うレコメンドシステムでは、スケーラビリティ（大規模なデータへの対応力）を確保しながら、低レイテンシ（高速応答）を実現することが課題となっています。従来のMatrix FactorizationやFactorization Machinesといった手法では、特徴量の柔軟な追加が難しく、新しいユーザーやアイテムが追加された場合や特徴量が変化した際にモデル全体の再学習が必要となるため、大規模サービスでの運用においてスケーラビリティの課題があります。この課題を解決する手法として注目されているのが『Two-Tower モデル』です。この手法では、ユーザーとアイテムの特徴を

sh19910711 2025/10/06

2024 / "temperatureパラメータは、コサイン類似度のスケーリングに使用され、学習時の勾配の大きさを調整"

リンク

KDD2022論文読み会：LinkedInの推薦システムから学ぶ

KDD2022 論文読み会の発表資料です。 https://line.connpass.com/event/258930/ Workshop URL https://sites.google.com/view/kdd22onlinemarketplaces/home Workshop P…

sh19910711 2025/10/06

2022 / "ジョブマッチ: 双方向の興味がマッチする必要 + アウトカムがわかるまでに時間がかかる / どれだけ実験を高速化できるか、運用を効率化できるか"

リンク

検索結果0件を回避するためのクエリ書き換えアプローチ - ZOZO TECH BLOG

はじめにこんにちは、データサイエンス部の朝原です。普段はZOZOTOWNにおける検索の改善を担当しています。 ZOZOTOWNには100万点を超える商品が存在し、毎日2700点もの新商品が追加されています。このような膨大な商品数を扱うZOZOTOWNにおいて、ユーザーが求める商品を見つけやすくするための検索機能は非常に重要です。一方で、ファッションという日々ニーズが激しく変化するドメインにおいて、ユーザーのニーズを検索クエリから正確に把握し、適切な商品を提示することは困難を伴います。特に、検索システムにおいて検索結果が0件である（以下　0件ヒット）ことはユーザーにとって悪い体験となり、離脱を招いてしまいます1。実際にZOZOTOWNでは、日々0件ヒットが発生しており、大きな課題となっています。本記事では、検索結果が0件になる主な原因と、その対策の1つであるクエリ書き換えについて紹介し

sh19910711 2025/10/05

"Zuo: GAT（Graph Attention Network）を用いてユーザーの検索履歴をグラフ構造として表現し、クエリ間の関係性を考慮したクエリ書き換えを提案"

リンク

Zennのレコメンド機能（For you）の裏側 - LLMとベクトル近傍検索を使った記事のレコメンドシステムの仕組み

はじめに Zennではこれまで、独自の集計方法により新着記事のランキング（Trending）を提供してきました。Zennの読者にはWeb開発系のユーザーが多く、TrendingにはWeb開発系の記事が上位になりやすい傾向がありました。昨年実施したユーザーアンケートでは、「Trendingが自分にマッチしていない」という意見が一定数寄せられ、レコメンド機能を求めるユーザーが75%に上ることが判明しました。読者層の多様化に伴う新たなニーズに応えるため、記事のレコメンド機能（For you）を開発することにしました。左が Trending、右が For you 本記事では、Zennのレコメンドシステムで活用している、LLMとベクトル近傍検索を使った記事のレコメンドシステムの仕組みについて説明します。方針の検討一口にレコメンドと言っても、目的や適応箇所によって、その手法はさまざまです。大

sh19910711 2025/10/03

"アンケートでは、「Trendingが自分にマッチしていない」という意見が一定数寄せられ、レコメンド機能を求めるユーザーが75% / レコメンドの結果をユーザーがコントロールできることが、ユーザーにとって重要な要素"

リンク

論文要約：Multi-word Term Embeddings Improve Lexical Product Retrieval

論文要約：Multi-word Term Embeddings Improve Lexical Product Retrieval 論文：https://arxiv.org/pdf/2406.01233 この論文を読もうとしたきっかけセマンティック検索でファッションドメインの語を扱う方法を理解 Elasticsearch9系でrank_vectors mappingによりlate-interactionが可能になったので理解 Abstract ECにおける製品検索に特化した新しい埋め込みモデル「H1」について述べている。 H1モデルの主な特徴と利点複数の単語からなる製品名を一つのトークンとして（つまりフレーズのように）処理できる点が大きな特徴例えば「new balance shoes」や「gloria jeans kids wear」といった検索クエリに対して、「new balanc

sh19910711 2025/09/28

"Elasticsearch9系でrank_vectors mappingによりlate-interactionが可能になった / インデックス構造がトークン→商品群のため、新しい語彙（トークン）が追加されたらそれに対応する商品群を追加"

リンク

スタンバイにおける検索への取り組み - Stanby Tech Blog

1 はじめにはじめまして、スタンバイのSearchAdvertisingCoreGroup(検索・広告コアグループ、以降SACG)でAPI・インフラ周りの開発を行なっている金正です。この記事では、スタンバイにおける検索への取り組みを紹介します。 2 一般的な検索システムに関してまず一般的な検索改善の取り組みを紹介します。以下の図のように一般的な検索システムは大きく分けて2つのコンポーネントに分けられます。 2.1 クエリプリプロセスユーザーが入力したクエリをより検索マッチしやすく加工したり、ユーザーの検索理解をする、いわゆる「クエリアンダースタンディング」と一般的には呼ばれているコンポーネントもこのクエリプリプロセスに含まれます。そもそも検索システムに使い慣れているユーザーなら、クエリアンダースタンディングは必要ありません。検索窓されあれば自分で意図通りの検索クエリを入力し

sh19910711 2025/09/28

2022 / "クエリ拡張: 「メガネ　バイト」に対して、「（メガネ or サングラス） and （バイト or アルバイト）」のようにクエリを拡張することで検索対象のドキュメントを増やす"

リンク

レコメンドシステム—— Wide&Deep モデル

シリーズの目次レコメンドシステムのシリーズをここにまとめています。はじめに本稿では、レコメンデーション分野において画期的な影響を与えた論文「Wide & Deep Learning for Recommender Systems」について詳しく解説します。この論文は、2016年にGoogle Play Storeのレコメンデーションチームによって発表されました。ディープラーニングが実用化され始めた黎明期において、レコメンデーションシステムのCTR（クリック率）予測にディープラーニングを効果的に応用した先駆的な研究として高く評価されています。この研究は、レコメンデーションシステムにおけるディープラーニング活用の成功事例として、現在も多くの実務者や研究者に参照されています。論文のリンク：https://dl.acm.org/doi/pdf/10.1145/2988450.2988454

sh19910711 2025/09/28

2024 / "レコメンデーションシステムは、本質的にアイテムのランキングシステムとして捉えることができ / 記憶力（memorization）と汎化性（generalization）のバランスが重要"

リンク

はてなブックマーク

タグ

関連タグで絞り込む (69)

*algorithmとsearchに関するsh19910711のブックマーク (209)

お知らせ

今週のはてなブックマーク数ランキング（2025年11月第4週）

はてなブックマーク一部機能のメンテナンスに関するお知らせ

今週のはてなブックマーク数ランキング（2025年11月第3週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス