タグ

*algorithmと評価に関するsh19910711のブックマーク (31)

  • ベースライン的なレコメンドモデルを作るのに RecTools が便利そう

    レコメンド用のツールについて レコメンド界隈はみんなが使っている定番のライブラリというものがないように思う。例えば、自然言語処理では(色々と文句を言われることもあるが)Hugging Face が標準的に使われるようになっている。それに比べると、レコメンドはとりあえずこれ使っておけ、と言えるものが思い浮かばない。 ロジック/モデル部分中心のものであれば implicit や RecBole などポピュラーなライブラリはいくつかあるが、それに与えるデータの前処理とか結果のオフライン評価に関しては、それぞれの現場で固有のツールやライブラリが作られがちな気がしている。 大規模サービスを運営していて KPI を0.1%でも向上させることに意味があるようなテック企業を除けば、一般的な協調フィルタリングや評価指標を実装すればまずは十分だろうし、そうなると中核となるデータの処理方法も概ね共通してくる。

    sh19910711
    sh19910711 2025/09/20
    "データの前処理とか結果のオフライン評価に関しては、それぞれの現場で固有のツールやライブラリが作られがち / RecTools: レコメンドシステムを構築するプロセス全体をカバーするようなライブラリ"
  • Pocochaにおけるロングテールな推薦モデルの開発 | BLOG - DeNA Engineering

    自己紹介 初めまして。京都大学工学部情報学科4回生の羽路悠斗です。8/16~9/9にAIスペシャリストコースの就業型インターンシップに参加しておりました。 普段は、テーブルデータの分析・機械学習エンジニアのアルバイトと、深層学習のプロジェクト型アルバイトをしています。Kaggleでは銀メダル2枚のKaggle Expert で、金メダルを獲れるよう精進しています。卒業研究では、表情認識への画像生成の活用に取り組む予定です。 記事では、インターンシップで取り組んだ、ライブ配信アプリ「Pococha」の推薦の工夫について、執筆したいと思います。 取り組んだテーマ インターンシップで取り組んだテーマは、「ライブ配信アプリPocochaにおけるロングテールプラットフォームを実現するための推薦モデルの開発」です。 Pocochaのプロダクト設計においては、「ロングテール」なサービスを作ることを大

    Pocochaにおけるロングテールな推薦モデルの開発 | BLOG - DeNA Engineering
    sh19910711
    sh19910711 2025/09/16
    2022 / "ジニ係数: 元々は所得の不平等さを測る指標 + 配信者の出現回数を所得とみなして適用 + 小さいほど、より平等を表す"
  • 予測の不確実性を定量化できるConformal Predictionをサクッと解説する - Timee Product Team Blog

    こんにちは、タイミーでデータサイエンティストとして働いている小栗です。 今回は、機械学習モデルの予測の不確実性を定量化する手法であるConformal Predictionについてご紹介します。 Conformal Predictionとは 機械学習モデルの予測値がどの程度信頼できるか知りたい場面は多いと思います。 医療診断のように誤った予測が重大な問題につながる状況でモデルを使用する場合、予測の不確実性を定量化してそれを元に判断できると嬉しいです。 Conformal Prediction(以下CP)はUncertainty Quantification(不確実性の定量化。以下UQ)のパラダイムの1つであり、モデルの予測値の集合/区間を統計的に厳密に作成します。 Conformal Predictionで生成される予測集合の例。出典: Angelopoulos, Bates (2022)

    予測の不確実性を定量化できるConformal Predictionをサクッと解説する - Timee Product Team Blog
    sh19910711
    sh19910711 2025/09/07
    2024 / "CP: 予測集合の中に真の結果を含むことをユーザーが指定したエラー率で保証できる / 1990年代にすでに提唱されていましたが、特にここ数年で機械学習コミュニティで人気が出てきた"
  • 単一の深層学習モデルによる不確実性の定量化の紹介 ~その予測結果正しいですか?~

    不確実性の定量化(Uncertainty Quantification)の説明と、その手法の中でも単一の深層学習モデルを使った手法について紹介します。

    単一の深層学習モデルによる不確実性の定量化の紹介 ~その予測結果正しいですか?~
    sh19910711
    sh19910711 2025/09/07
    "DUQ: 入力の特徴ベクトルとクラスのセントロイドとの距離に基づいて不確実性を推定"
  • 検索性能を改善するハイブリッド検索で使えるランク融合アルゴリズム - Ahogrammer

    Risk-Reward Trade-offs in Rank Fusionを読んでいて、検索システムの結果を統合するために使える教師なしのランク融合アルゴリズムについて書きたくなったのでまとめました。最近では、RAGの性能を改善するためにハイブリッド検索が使われることがありますが、その内部で各検索システムの結果を統合するために使うことができます。実際に計算する方法と合わせて紹介します。 記事の構成は以下のとおりです。最初に、検索の文脈からランク融合アルゴリズムについて例を交えて紹介した後、実際に計算する方法を紹介します。 アルゴリズム CombSUM CombMNZ Borda RRF 実際に計算したいときは? 参考資料 アルゴリズム 記事で紹介するアルゴリズムはスコアベースと順位ベースの2つに分けられます。スコアベースのアルゴリズムは、検索システムが出力するスコアを利用するのが特徴的で

    検索性能を改善するハイブリッド検索で使えるランク融合アルゴリズム - Ahogrammer
    sh19910711
    sh19910711 2025/09/01
    2023 / "ranx: Python製のランキング評価用ライブラリ + キーワード検索とベクトル検索を一度だけしておいて、ランク融合アルゴリズムだけ変えたときの性能を測定"
  • 情報検索における評価指標の最新動向と新たな提案

    [DL輪読会]Grokking: Generalization Beyond Overfitting on Small Algorithmic Datasets

    情報検索における評価指標の最新動向と新たな提案
    sh19910711
    sh19910711 2025/08/20
    2014 / "検索意図とユーザーモデル / 適合性の高い情報を出すためには + ユーザーモデルを考慮した検索意図にあった情報を出せるか否か / nDCG: 正規化の手法が異なる"
  • 【CVPR'22】物体検出アルゴリズムの新しい評価指標 | | AI tech studio

    Media fundamentalsチームの大谷です。今回は物体検出を評価するための新しい指標を設計したので、その研究について概要を解説します。この研究成果はCVPR2022に採択されています。論文のリンクはこちらです。 Mean Average Precisionはなにを見ている? 物体検出の評価では多くの場合Mean Average Precision (mAP)が使われています。まずAPについて概要を確認しておきましょう。APは検出したオブジェクトをconfidence score順に並べてprecision-recall curveを求め、その曲線の下の面積で求められます。これをカテゴリごとに計算し、全てのカテゴリ上で平均したものがmAPです。ここでは詳細に触れませんが、実際のAPの計算では諸々の実装上の事情があり、それらがAPの振る舞いにおいて少なくない影響を及ぼしています。ここ

    【CVPR'22】物体検出アルゴリズムの新しい評価指標 | | AI tech studio
    sh19910711
    sh19910711 2025/07/26
    2022 / "mAPは物体検出をデータセット全体から見つけたオブジェクトのランキング問題として評価 / クラス識別を重視するという点もAPの特徴的なスタンス / クラス識別が位置推定よりも重視される"
  • ABEMAにおけるContextual Banditを用いた推薦システムの導入と効果検証

    sh19910711
    sh19910711 2025/07/22
    "Contextual Bandit: 特徴量ベクトルを活用し多様な嗜好に対応 + 他セグメントのデータも効率的に使用可能 + 手動設定の削減 / クリックまでにスルーしたコンテンツには罰則"
  • クリックだけでなく表示の情報も活用したレコメンド論文の紹介と実装・実験 - エムスリーテックブログ

    この記事はエムスリーAdvent Calendar 2019 2日目の記事です。 エンジニアリンググループ AIチームの金山 (@tkanayama_)です。普段の業務では、医療従事者向けWebサイト m3.com のための推薦システムの開発・運用を担当しています。 今回は、 "Sampler Design for Bayesian Personalized Ranking by Leveraging View Data" [Ding et al., 2018] という論文を紹介します。これは、implicit feedbackの代表的な推薦システムBayesian Personalized Rankingを拡張して、「itemが表示されたがclickされなかった」という情報をうまく活用してitemの推薦ができるようにした論文です。 リスの画像です。 この記事の流れ まず、今回紹介したい論

    クリックだけでなく表示の情報も活用したレコメンド論文の紹介と実装・実験 - エムスリーテックブログ
    sh19910711
    sh19910711 2025/07/20
    2019 / "難しい点は、「クリックしなかった」という情報の中に、「興味がない(negative)からクリックしなかった」と「興味はある(positive)が、目に入らなかったからクリックしなかった」の2つが混ざっている"
  • 日本語の音声コーパスCSJでE-Branchformerの音声認識モデルを作って性能を評価する - RevComm Tech Blog

    こんにちは、RevCommでMiiTelの音声解析機能に関する研究開発を担当している石塚です。 2023年1月に開催された国際会議IEEE Workshop on Spoken Language and Technology (SLT) 2022で発表されたE-Branchformer: Branchformer with Enhanced Merging for Speech Recognition (Kim et al., 2023)*1という論文で、音声認識タスクで高い性能を発揮するE-Branchformerという新しい深層学習モデルが提案されました。論文中では英語の音声コーパスを用いて音声認識精度が評価されていますが、日語についての評価は行われていません。 End-to-end音声処理ツールキットESPnetのversion 202301からこのE-Branchformerが利

    日本語の音声コーパスCSJでE-Branchformerの音声認識モデルを作って性能を評価する - RevComm Tech Blog
    sh19910711
    sh19910711 2025/06/28
    2023 / "Conformer: Transformerとconvolutional neural network(CNN; 畳み込みニューラルネットワーク)を組み合わせ / 情報を結合する際にローカルな情報とグローバルな情報を逐次的かつ並列的に組み合わせる"
  • 日本語ModernBERTの開発: 開発と評価編 (1/3) - SB Intuitions TECH BLOG

    概要 こんにちは、SB Intuitions株式会社インターンの塚越です。 日語・英語合わせて約4.4T tokensを学習した日語ModernBERTというモデルを構築・公開しました。 記事では、その開発過程や評価結果についてお話しします。 我々が開発した日語ModernBERTは、30m, 70m, 130m, 310mと4つの異なるパラメータサイズをもち、それぞれのモデルが同パラメータ規模のモデルと比較して、記事公開時点では最も高い性能を達成しています。 開発した一連のモデルはHuggingFaceにてMITライセンスのもと公開しておりますので、商用・研究用問わず自由にお使いいただけます。 https://huggingface.co/sbintuitions/modernbert-ja-30m https://huggingface.co/sbintuitions/mod

    日本語ModernBERTの開発: 開発と評価編 (1/3) - SB Intuitions TECH BLOG
    sh19910711
    sh19910711 2025/06/14
    "LLMで採用されているがBERTでは採用されていない技術: RoPE + GLU派生手法 / 毒性分類タスク(Toxicity)の性能は全体的に既存モデルと比較して低い傾向 + 低品質なテキストをかなり削減しているため"
  • nDCGを2つのランキングが変わらないことの確認に使ってみた

    Spearman相関係数とSpearman Footruleに関しては、2つのランキングで要素がどのくらい移動したかを数値化したもので、上位k件での評価をすると不一致要素が発生しうる。もう一方のランキングに含まれない要素は距離計算不能となるのでその点でこの2つは今回の要件的には不適切です。上位を重視するという点については、nDCGは下位ほど減点することで相対的に上位に加点することになりますし、不一致要素も関連度0として扱えばよいので今回の要件をクリアしています。 nDCGとは? nDCG(Normalized Discounted Cumulative Gain)は、検索結果やレコメンデーションの品質の評価などに使われる指標です。 nDCGはDCGを正規化した指標で、理想のDCG(IDCG)で割ることで正規化しており、これにより検索クエリ同士比較しやすくなります。 \mathrm{nDCG

    nDCGを2つのランキングが変わらないことの確認に使ってみた
    sh19910711
    sh19910711 2025/05/30
    "Spearman相関係数とSpearman Footruleに関しては、2つのランキングで要素がどのくらい移動したかを数値化 / nDCGは下位ほど減点することで相対的に上位に加点する"
  • MPR(Mean Percentage Ranking)〜暗黙的にユーザの嗜好を得られるレコメンドシステムにおけるオフライン評価指標の紹介

    Precisionベースの測定指標はユーザにとってどれくらいレコメンド結果が望ましくないかを図る指標です。 確かに、レコメンドしたアイテムがユーザにとって望ましいかったのか、そうでなかったのかはAmazonで商品を評価するために☆をつけたり、Youtubeでgoodボタンやbadボタンを押したりといった、レコメンド結果に対する明示的な評価がないとわかりません。 MPRの定義MPRの定義は以下になります。 $$ MPR = \frac{\sum_{u \in U}\sum_{i \in l(u)} r_{u,i} \overline{rank_{u,i}}}{\sum_{u \in U}\sum_{i \in w(u)} r_{u,i}} $$ \( U \) はユーザの集合\( l(u) \) はユーザ \( u \) へのレコメンドしたアイテムの集合\( r_{u,i} \) はユーザ

    MPR(Mean Percentage Ranking)〜暗黙的にユーザの嗜好を得られるレコメンドシステムにおけるオフライン評価指標の紹介
    sh19910711
    sh19910711 2025/05/27
    2020 / "レコメンドに対するユーザの反応を明示的に追跡できない場合(暗黙的にしか得られない)はPrecisionベースの測定指標は不適切 / MPRは順位付けされたレコメンド結果に対するユーザの満足度を測定"
  • ランク学習ってどうやって学習するの?学習データ・特徴量・損失関数 - 人間だったら考えて

    この記事はランク学習(Learning to Rank) Advent Calendar 2018 - Adventarの2目の記事です この記事は何? 前回の記事でランク学習の導入を紹介しました。 www.szdrblog.info この記事では、実際にランク学習ではどのような学習データを扱うのか、どんな特徴量を使うのか、どんな損失関数を最適化するのかを紹介したいと思います。 ランク学習における学習データ ランク学習における学習データは、よくある分類問題や回帰問題とはちょっとだけ形式が異なります。 前回の記事でチラッと紹介しましたが、ランク学習では「検索キーワード」・「検索キーワードに対応する検索結果リスト」が学習データとして与えられます。 もう少し形式的に言うと、個のサンプルを含んだ訓練データがあり、各サンプルは「検索キーワード」と「検索キーワードに対応する検索結果リスト」のペアです

    ランク学習ってどうやって学習するの?学習データ・特徴量・損失関数 - 人間だったら考えて
    sh19910711
    sh19910711 2025/05/17
    2018 / "文書のランキングを正しく当てるモデルさえあれば良くて、文書の関連度を正しく当てるモデルまで必要としていない"
  • 機械学習の評価指標 – ROC曲線とAUC | GMOアドパートナーズグループ TECH BLOG byGMO

    このエントリーは、GMOアドマーケティング Advent Calendar 2018 の 12/14の記事です。 GMOアドマーケティングとしては初のAdvent Calendar参戦です。 こんにちは、GMOアドマーケティングのS.Rです。 機械学習で分類の問題を解決するときに得られた結果をどのように評価をすればよいか皆さんは知っていますか? 今回はよく使われる分類問題の評価指標であるROC曲線とAUCを皆さんへ紹介します。 1 混同行列(Confusion Matrix): ROC曲線とAUCの説明に入る前に前提知識としてまず、混同行列の定義を皆さんへ説明します。混同行列(Confusion Matrix)は、クラス分類の結果をまとめた表のことです(表1)。 今回は例として分類モデルを使って腫瘍がガンになるかを予測します。 図1: 分類モデルで腫瘍がガンになるかならないかを計算した確率

    機械学習の評価指標 – ROC曲線とAUC | GMOアドパートナーズグループ TECH BLOG byGMO
    sh19910711
    sh19910711 2025/05/17
    2018 / "ROC 曲線: 分類結果の品質を直感的に判断できますが実際に使う場合に数値の指標が必要 / AUC: 指標の名前通りROC 曲線下の面積(積分) + 0.5以上になれば分類器の効果がランダム分類器より良い"
  • 検索における適合率 (Precision) と再現率 (Recall)

    検索における適合率 (Precision) と再現率 (Recall) 2008-01-17-1 [IIR] 「Introduction to Information Retrieval」[1] の輪講の第一回[2008-01-12-1]でちらっと話しましたが、第一章の 1.1 に Precision と Recall の説明があります(第八章でも出てきます)。 若干混乱しやすくややこしい話なので、ここで改めて解説します。 § Precision (適合率) とは、 全検索結果に対しての、 検索要求 (information need) を満たす検索結果の割合です。 例えば、 「MacBook Air の重量を知りたい」という検索要求を満たすために検索キー「MacBook Air 重さ」でウェブ検索した結果100件のうち、検索要求を満たす(重さが分かる)のが85件だとすると、 Precis

    検索における適合率 (Precision) と再現率 (Recall)
    sh19910711
    sh19910711 2025/05/14
    2008 / "「Introduction to Information Retrieval」 / Precision が低くて Recall が高いのは、検索結果を一気に1,000件見てみると欲しい情報はほぼ網羅されているんだけど他のほとんどが無関係なページ、といった状況"
  • Vision-Language Modelを活用した「見た目が近い商品」レコメンド改善の取り組み | メルカリエンジニアリング

    こんにちは、メルカリのAI/LLMチームで機械学習エンジニアをしているarr0wとshoです! テックブログでは、Vision-Language Modelの一つであるSigLIP [1]を、メルカリの商品データ(Image-Text Pairs)でファインチューニングし、メルカリの商品画像Embeddingの性能を大幅に改善したプロジェクトについて紹介します。 今回作成したSigLIPの性能を評価するために、商品詳細ページの「見た目が近い商品」のレコメンド機能でA/Bテストを実施しました。 この「見た目が近い商品」のレコメンド機能は、社内ではSimilar Looksと呼ばれています。作成したモデルをSimilar Looksの類似画像検索に適用し、既存モデルとの比較のためのA/Bテストを行いました。 そして、その結果として、主要なKPIにおいて以下のような顕著な改善が確認できました。

    Vision-Language Modelを活用した「見た目が近い商品」レコメンド改善の取り組み | メルカリエンジニアリング
    sh19910711
    sh19910711 2025/05/13
    2024 / "SigLIP: Vision-Language Modelの一つ + CLIPで使用されている従来のSoftmax Lossを、Sigmoid Lossに置き換えて事前学習"
  • 情報推薦アルゴリズムの効果をどう評価するのか - 図書館情報学を学ぶ

    以前このブログでも紹介した『集合知プログラミング』を読みつつ、細々とデータマイニングの勉強を続けているこの頃です。それに関連して情報推薦についての研究動向についても調べていたりしているのですが、そうしていくうちに疑問に感じることがありました。 それは、情報推薦アルゴリズムの有効性を正しく評価できるのか?ということです。アルゴリズムというと、素数の判定やソートなどが思い浮かびますが、その場合の有効性はいかに少ない時間で計算結果を出せるかという、定量的な尺度で評価することが可能です。しかし情報推薦の場合は効率性ではなくユーザーの明示化できない欲求に応えることという数値化しにくい目的であるので、果たしてそこで導入されるアルゴリズムの有効性はそもそも評価できるのだろうか?と思うのです。 情報検索のアルゴリズムの場合は、適合率と再現率の2つの尺度によって評価することができます。適合率とは「検索結果中

    情報推薦アルゴリズムの効果をどう評価するのか - 図書館情報学を学ぶ
    sh19910711
    sh19910711 2025/05/04
    2008 / "情報推薦の場合は効率性ではなくユーザーの明示化できない欲求に応える / そもそも何を推薦すれば「正解」となるのか、明確に判断することはできない"
  • 日本語 BERT RetroMAE モデルの公開と、後続検索タスクでの評価 - A Day in the Life

    結果として、ほぼ全てのスコアにおいて性能向上が確認されており、RetroMAEの有益性が確認された。また学習方法も、教師なしでテキストのみを与えれば良いという手軽さも実用性が高いであろう。 RetroMAE について RetroMAEの特徴は、Masked Auto-Encoderの手法を採用しながら、以下の3つの設計を取り入れた点である。 入力文に対して異なるマスクを適用する新しいワークフロー エンコーダーとデコーダーで非対称な構造を採用 エンコーダーとデコーダーで異なるマスク率を使用 これらの工夫により、文書の意味をより深く理解し、効果的な検索を可能にする表現学習を実現している。実際の評価においても、BEIRやMS MARCOなどのベンチマークで優れた性能を示している。また高性能のマルチリンガル密ベクトルモデルの BAAI/bge-m3 も RetroMAE を用いた事前学習を行なって

    日本語 BERT RetroMAE モデルの公開と、後続検索タスクでの評価 - A Day in the Life
    sh19910711
    sh19910711 2025/05/01
    2024 / "BERT: 主にトークンレベルのタスクで事前学習されており、文レベルの表現力が十分に発達していないという課題 / RetroMAE: 検索に特化した事前学習 + 入力文に対して2つの異なるマスクを適用"
  • UMAP のハイパーパラメータチューニングにおける K-means とシルエットスコアの活用

    ■ はじめに こんにちは。データシステム部 推薦基盤チームのかみけん(上國料)です。よろしくお願いします。 いきなり題に入りますが、データ分析において、高次元データの可視化やクラスタリングは重要なステップだと思っています。ただ、データ分析をする上で、ラベルがそもそも存在しない(or 大量に存在する)データを扱うことが稀にあります。 今回は、元データにラベルが存在しない、すなわち教師なし学習前提で、次元削減手法である UMAP (Uniform Manifold Approximation and Projection) のハイパーパラメータを最適化する方法を紹介します。どこかで参考になれば幸いです。 ■ 手法サマリ ラベルのないデータに対して、次元削減手法 UMAP のパラメータを最適化します。パラメータ最適化には Optuna を使用し、次元削減後の潜在空間をシルエットスコア で評価・

    UMAP のハイパーパラメータチューニングにおける K-means とシルエットスコアの活用
    sh19910711
    sh19910711 2025/04/29
    2024 / "シルエットスコアを最大化することで、UMAPのハイパーパラメータを最適化し、データの内部構造をより良く反映した低次元表現を得る / パラメータ最適化には Optuna を使用"