[B! *algorithm][model] sh19910711のブックマーク

日本語SPLADEモデルと学習コードのOSS公開

はじめにこんにちは。株式会社ビズリーチの検索基盤グループで機械学習エンジニアをしているDatと申します。求職者検索の高度化とセマンティック検索への挑戦「ビズリーチ」では、企業と求職者との最適なマッチング機会を最大化するため、日々検索品質の向上に取り組んでいます。特に、求職者の職務経歴書や企業の求人票の複雑な内容を深く理解し、関連性の高い候補者を見つけ出すことは、プラットフォームのコアな課題です。この課題を解決するため、我々はセマンティック検索の開発を進めています。セマンティック検索は、単語の一致だけでなく、意味的な類似性に基づいて結果を返す技術です。この技術のプロダクトへの展開において、我々は高精度かつ低レイテンシと高い解釈性というプロダクト要件を満たす検索モデルの採用が必要でした。その解決策として着目したのが、SPLADE (Sparse Lexical AnD Expansio

sh19910711 2025/11/15

"従来のBM25のような語彙ベースの検索が持つ高速性と解釈性を保ちつつ、BERTによる意味的な拡張の恩恵を受ける / 入力されたテキストは元の単語だけでなく、関連する概念や同義語を含む疎ベクトルへと変換"

リンク

識別モデルと生成モデル - 機械学習・自然言語処理の勉強メモ

機械学習の分類問題は、識別モデルと生成モデルに大別される。（識別関数によるアプローチもあるがここでは言及しない。）自分の頭の整理のために、これらの違いをまとめる。識別モデル（Discriminative model）サンプルデータがクラスに分類する条件付き確率を直接モデル化する。分類時は、を選択する。分類問題で求めたいのは、個々のデータがどのクラスに所属するかであり、識別モデルは所属確率を直接求めるモデルである。この考え方は最もシンプルで理にかなっており、機械学習で分類問題を解く場合、識別モデルによるアプローチが一般的な手法となっている。生成モデル（Generative models）観測データを生成する確率分布を想定し、観測データからその確率分布を推定する方法。識別モデルと同様に条件付き確率をモデル化するがその方法が異なる。（生成モデルでは直接これをモデル化しない。）

sh19910711 2025/10/18

2018 / "P(x|y),P(y) が分かると、クラスを分類できるだけでなく、あるクラスに属する擬似的なデータを作ることができる / 観測されたデータxは、無作為に生成されるのではなく、何らかの分布に基づいて生成されると考える"

リンク

Two-Tower モデルで作る高速でスケーラブルなレコメンドシステム｜株式会社ココペリ Tech blog

こんにちは、Fact & Dataグループの岡﨑です。近年、ECサイトやコンテンツプラットフォームにおいて、リアルタイムでパーソナライズされたレコメンデーションの重要性が増しています。しかし、大規模なユーザー・アイテムデータを扱うレコメンドシステムでは、スケーラビリティ（大規模なデータへの対応力）を確保しながら、低レイテンシ（高速応答）を実現することが課題となっています。従来のMatrix FactorizationやFactorization Machinesといった手法では、特徴量の柔軟な追加が難しく、新しいユーザーやアイテムが追加された場合や特徴量が変化した際にモデル全体の再学習が必要となるため、大規模サービスでの運用においてスケーラビリティの課題があります。この課題を解決する手法として注目されているのが『Two-Tower モデル』です。この手法では、ユーザーとアイテムの特徴を

sh19910711 2025/10/06

2024 / "temperatureパラメータは、コサイン類似度のスケーリングに使用され、学習時の勾配の大きさを調整"

リンク

因果表現学習と概念ベースの表現学習の理論とマーケティングにおける応用の考察 - tomtom58’s blog

はじめに 1. なぜ因果表現学習が必要になったのか 1.1 従来の表現学習の限界 1.2 分布シフト問題 1.3 解釈可能性の欠如 1.4 変数間の独立性の仮定 2. 因果表現学習とは何か 2.1 因果表現学習の基本概念 2.2 因果グラフと構造方程式モデル 2.3 識別可能性（Identifiability） 2.4 因果表現学習の主要アプローチ 2.4.1 β-VAE（β-Variational Autoencoder） 2.4.2 CausalVAE 2.4.3 iVAE（identifiable VAE） 3. 概念ベース表現学習（CBRL） 3.1 CBRLの基本理念 3.2 CBRLの数学的定式化概念抽出段階概念ベース予測段階 3.3 CBRLの主要手法 3.3.1 Concept Bottleneck Models（CBM） 3.3.2 PCBM（Post-hoc Con

sh19910711 2025/08/20

"従来の表現学習が「どのような特徴があるか」を学習するのに対し、因果表現学習は「どの特徴がどの結果を引き起こすか」を学習 / 理論的基盤は、因果推論における構造方程式モデル"

リンク

情報検索のためのユーザモデル

ARG 第６回Webインテリジェンスとインタラクション研究会招待講演：「情報検索におけるユーザモデル」講演者：加藤誠（京都大学）アブストラクト：情報検索を行うユーザのモデルは，ランキング学習や評価指標，対話的情報検索にて用いられ，現在もなお情報検索において中心的なトピックとなっている．本講演では，検索ユーザの理解とそのシステムへの応用という2つの側面から，情報検索におけるユーザモデルを紹介する．

sh19910711 2025/08/20

2015 / "ユーザモデル: ユーザーの思考・行動を抽象化し数理的な枠組みの中で利用可能な形式にしたもの / 検索エンジンのクエリのうち33%は同一ユーザからの同内容クエリ [Teevan 2007]"

リンク

情報検索における評価指標の最新動向と新たな提案

[DL輪読会]Grokking: Generalization Beyond Overfitting on Small Algorithmic Datasets

sh19910711 2025/08/20

2014 / "検索意図とユーザーモデル / 適合性の高い情報を出すためには + ユーザーモデルを考慮した検索意図にあった情報を出せるか否か / nDCG: 正規化の手法が異なる"

リンク

遺伝的アルゴリズムによる非線形重回帰分析の変数＆関数選択

まず回帰分析とは回帰分析とは何らかの目的変数を別のパラメータ（説明変数）から導き出すモデルを考えることです。例えばある人の身長は遺伝によりその人の父親の身長と相関があると考えられます。この時息子の身長を「目的変数」として父親の身長から息子の身長を推定することを考えます。まず、何人もの人の父親の身長(x(i))と息子の身長(y(i))を調べてデータを作ります(x(1),y(1)), x(2),y(2)), x(3),y(3))...)。それをプロットしたところ下図のようになったとします。この時、なんとなく以下の直線のような関係があると推測できます。式で書くとy=ax+bです。ではどのようなa,bを選ぶのが一番いいのでしょう？それは誤差が一番少なくなるa,bです。具体的にはy=ax+bで計算したyの値（理論値）と実際のyの値の差（の2乗）の和（残差平方和）が最小になるa,bです

sh19910711 2025/08/16

2022 / "ランダムに500体の遺伝子を生成 + AIC を計算 / 生存競争: 再度AICを計算して小さい方から順に並べ替え + AICの最良値が変化しなくなるまで"

リンク

Implicit biasによる正則化効果 - Preferred Networks Research & Development

本記事は，2019年度インターン生だった東京大学 D1 の中島蒼さんによる寄稿です．中島さんはインターンシップにおいて，畳み込みニューラルネットワークの学習について研究を行いました．この記事は，インターンシップ中に文献調査していたimplicit bias に関するレビューとなっています． NN の学習はなぜうまくいくのか畳み込みニューラルネットワーク（Convolutional NN; CNN）は画像処理など様々な分野に応用され，大きな成功を納めています．すなわち，様々なデータについて，訓練データから学習したニューラルネットワーク（Neural Network; NN）を用いて未知のデータについての予測や分類が行われています．このようにNN の学習が上手くいく，すなわち未知データに良く汎化することは経験的には分かっていますが，理論的な説明はまだ完全には成功していません． NN に限らず

sh19910711 2025/05/20

2019 / "暗黙的な正則化（implicit bias）の正体 / 最適化アルゴリズムの性質によるものだという仮説 / SGD: 小ノルム性が正則化として機能し，未知のデータに対する汎化性能に効いている"

リンク

ニューラルネットへのベイズ推定 - Bayesian Neural Network - nykergoto’s blog

ニューラルネットワークの過学習防止としてDropout という機構が用いられているのはご案内のとおりです。この Dropout 、見方を変えるとディープラーニングにおける重みのベイズ推定に相当しているのではないか、という内容が Uncertainty in Deep Learning にて述べられていて、この記事ではその内容について解説していきたいと思います。また末尾では実際にベイズ推定を実装して、予測がちゃんと不確実性を盛り込んだものになっているかどうか、を確認します。基本的に記事の内容は元の論文(YARIN GAL さんの博士論文です)と同著者の解説ページを元にしています。それぞれ以下からアクセスできますので、解説じゃなくて自分で読みたい!という方はそちらを参考にしてください。個人的には解説も論文もとても読みやい (なんと数式もとても丁寧に記述されています!!) ので、英語が苦手

sh19910711 2024/10/13

"Dropout: 各層においてすべての隠れノードを用いて出力を行わず, ランダムに選ばれたノードの値のみを用いて出力 + backword においても出力に関わったノードの値のみを更新 / 重みのベイズ推定に相当しているのでは" '17

リンク

[DL輪読会]A Bayesian Perspective on Generalization and Stochastic Gradient Descent

sh19910711 2024/10/13

"深層学習と仮説集合: 経験損失が下がりきっても予測損失は下がっている / 汎化ギャップを考えるにはモデルや損失関数だけではなくアルゴリズムやデータ集合についても考える必要がある" '17

リンク

Minimum Bayes-Risk Decoding における性能変動の理解に向けて（2024年6月5日第59回 NLPコロキウム）

sh19910711 2024/06/06

"探したいのは出力文のクオリティを測る尺度を最大化する系列 / Beam search decoding: モデルが付与する確率が最大となる系列を探す手法 + <eos>のみの系列が確率最大になる場合がある (Stahlberg+'19)"

リンク

論文紹介：What Learning Algorithm is In-Context Learning?�Investigation with Linear Models

第14回最先端NLP勉強会の論文（ https://openreview.net/forum?id=0g0X4H8yN4I ）紹介スライドです．

sh19910711 2024/05/31

"In-Context Learning: 既存研究はどんな関数を学習できるかに焦点 + どのように関数を学習しているのかを知りたい / Transformerが学習した関数が線形回帰モデルに近いことを示した / メタ学習: 事前学習がOuter-Loopに相当" 2023

リンク

深層自己符号化器＋混合ガウスモデルによる教師なし異常検知

【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces

sh19910711 2024/05/28

"DAGMM: 深層自己符号化器によって次元削減 + 再構築エラーをconcatして低次元の特徴を得て ~ / 異常検知の段階では推定密度からあるサンプルに対する確率密度を計算 + 対数をとって-1倍してエネルギーと呼ぶ" 2018

リンク

拡散モデルのサンプリング性能の良さを体感してみる - VISASQ Dev Blog

はじめに検索チームの tumuzu です。画像生成などの技術的進歩は凄まじいですね。簡単なプロンプトから綺麗で多様なデータが生成されていて驚きっぱなしです。そこで拡散モデルの理論的なところが気になったので勉強して記事にしてみました。この記事では拡散モデルから生成されたデータの質の高さの大きな要因であるサンプリング性能について見ていきます。拡散モデルのサンプリング性能の良さを体感するために、一般的なサンプリング法での問題点を確認しそれが拡散モデルと同等のモデルでは解決できていることを簡単な2次元データを使って見ていきます。ちなみに『拡散モデルデータ生成技術の数理』という書籍を参考にしてます。わかりやすくてとてもいい本でした。日本語で書かれた詳しい説明が見たい方はおすすめです。一部環境ではてなブログの数式が崩れて表示されるようです。数式を右クリックし、Common HTML を選

sh19910711 2024/05/23

"真の分布や確率はわからないが、尤度関数なら学習できることがあり + 代表的なMCMC法であるメトロポリス・ヘイスティングス法を使ってサンプリングできます / 複数のノイズの強さを用いてスコアを学習"

リンク

Gmail の優先トレイの論文を読んだ - @nojima's blog

最近、会社のグループウェアの通知がやたらと多い。人によっては全ての通知を見ているらしいんだけど、自分の場合は自分宛て通知はみるけど、それ以外の通知は一部しか読んでない。どうせ一部しか読まないのであれば、できるだけ価値のある通知を読みたいので、通知の中から読む価値の高い上位件をフィルタしてくれるプログラムを書きたい。そういうわけで、偉大な先駆者である Gmail の優先トレイのアルゴリズムに関する論文『The Learning Behind Gmail Priority Inbox』を読んでみた。 Gmail 優先トレイ優先トレイは、ユーザーごとの統計モデルを用いて、メールを重要度でランキングすることにより、information overload を軽減する試みである。チャレンジ: メールの重要度をユーザーの明示的なラベリングなしに推定する非定常的かつノイジーな訓練データを扱え

sh19910711 2024/04/20

"どうせ一部しか読まないのであればできるだけ価値のある通知を読みたい / 何を重要と見做すかがユーザーによって大きく異なる + 重要度のランキングはスパム検出よりも困難 / 大規模な学習を行うテクニックが色々" 2017

リンク

メタ学習（meta-learning）の紹介：Regression版で今年の東京の気温を当ててみました～ | GMOインターネット次世代システム研究室

2018.10.01 メタ学習（meta-learning）の紹介：Regression版で今年の東京の気温を当ててみました～こんにちは。次世代システム研究室のK.S.（女性、外国人）です。夏休みはいかがでしたか？　暑い日々がそろそろ終わり、これからは涼しくなって行くでしょう。では、来月の気温はどれくらいになるでしょうか？　気温がよい感じで下がってくれれば、秋には綺麗な紅葉が見られるかな？　紅葉を楽しみにしているので、機械学習の関連技術を利用し、東京の気温を予測してみたいなあと思いました。最近、International Conference on Learning Representations (ICLR)といった有名な機械学習の学会が去年の3つの最優秀論文を発表しました。その中の一つはメタ学習についての論文でした。発表結果を聞いて、え、meta-learningってなんです

sh19910711 2024/04/20

"メタ学習: 学習方法を学習すること（learning to learn） / ディープラーニングならparameter、loss、optimiserだけで十分ですが、メタ学習はさらにmeta-parameter、meta-loss、meta-optimizerが必要" 2018

リンク

Neural Tangentsによる無限幅深層ニューラルネットワークの構築とベイズ推論

要点¶Neural TangentsはGoogle AIが開発したJAXのラッパーライブラリです。無限幅 (中間層のユニット数$\to \infty$)のニューラルネットワーク (以後, NN: neural networks)を高速かつ簡単に構築及び学習させることを目的としています。 Neural Tangentsでは無限幅のNNを学習させる手法としてNNGP (Neural Network Gaussian Process)と NTK (Neural Tangent Kernel)の2つを実装しています。この記事ではNNGPとNTKの要点を紹介し、Neural Tangentsを用いた実装について紹介していきます。 Neural-Tangentsに関連する文献¶ Paper : https://arxiv.org/abs/1912.02803 OpenReview : https:/

sh19910711 2024/04/07

"Neural Tangents: JAXのラッパーライブラリ + NNGPとNTKの2つを実装 / 隠れ層が1層で無限幅 (各層のユニット数 →∞→∞)のニューラルネットワークがガウス過程と等価であることについては (Neal, 1994)で示され" arXiv:1912.02803 2020

リンク

『Pythonではじめる数理最適化』の7章「商品推薦のための興味のスコアリング」をStanで解く

この記事は確率的プログラミング言語 Advent Calendar 2023の12/8の記事です。概要『Pythonではじめる数理最適化』はいい本ですよね。親しみやすい実例、分かりやすい数式、きれいなPythonコードと三拍子そろっています (今年のアドカレで改訂版が近いうちに出ることを知りました)。 7章「商品推薦のための興味のスコアリング」では、「何日前に直近の閲覧があったか」と「閲覧回数」の二つの軸で興味のスコアを考えます。興味のスコアが単調減少であるという制約のもと、再閲覧の割合と推定値の二乗誤差を最小化するという凸二次計画問題として解いています。この記事ではStanで解くとこんな感じですというのを示します。メリットとしてベイズ信頼区間も推定されます。データ公式のリポジトリの7章のipynbファイルを途中まで実行して得られるデータフレームrf_dfを使用します。他の人の扱い

sh19910711 2023/12/08

"7章「商品推薦のための興味のスコアリング」 / 「何日前に直近の閲覧があったか」と「閲覧回数」の二つの軸 + 興味のスコアが単調減少であるという制約 / 再閲覧の割合と推定値の二乗誤差を最小化"

リンク

DAG の構造学習を連続最適化問題に落とし込んで解く NO TEARS アルゴリズム - Qiita

Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article? NO TEARS アルゴリズムとは NO TEARS はデータから有向非巡回グラフ（Directed Acyclic Graph; DAG）を推定するためのアルゴリズムです。因果推論ライブラリ CausalNex の中で使われています。 $d$ 個の変数間の関係を知るために DAG を推定しようとすると、$d$ に対して計算量が急増化することは容易に想像できます。実際、DAG 学習問題は素直に取り組むと NP 困難となります。これを解消するために、NO TEARS アルゴリズムでは「非巡回」という条件を滑らかな関数で表現し、DAG の学

sh19910711 2022/11/23

"NO TEARS: データから有向非巡回グラフ（DAG）を推定するためのアルゴリズム / d 個の変数間の関係を知るために DAG を推定しようとすると、d に対して計算量が急増化する / 「非巡回」という条件を滑らかな関数で表現"

リンク

はてなブックマーク

タグ

関連タグで絞り込む (17)

*algorithmとmodelに関するsh19910711のブックマーク (23)

お知らせ

今週のはてなブックマーク数ランキング（2025年11月第3週）

今週のはてなブックマーク数ランキング（2025年11月第2週）

月間はてなブックマーク数ランキング（2025年10月）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス