タグ

ブックマーク / buildersbox.corp-sansan.com (3)

  • 【ML Tech RPT. 】第11回 機械学習のモデルの評価方法 (Evaluation Metrics) を学ぶ (2) - Sansan Tech Blog

    DSOC研究員の吉村です. 弊社には「よいこ」という社内の部活のような社内制度があり, 私はその中のテニス部に所属しています. 月一程度で活動をしているのですが, 最近は新たに入社された部員も増えてきて新しい風を感じています. さて, 今回も前回に引き続き「機械学習のモデルの評価方法 (Evaluation Metrics)」に焦点を当てていきます. (今回も前回同様, "モデル" という言葉を機械学習のモデルという意味で用います.) 前回は, モデルを評価する観点や注意事項について確認しました. 今回からは, 各種問題設定ごとにどのような評価指標が存在し, それらが何を意味するのかについて見ていこうと思います. 今回は二値分類問題を取り扱います. 前回の記事の最後で, 多クラス (マルチクラス) 分類・回帰問題についても記事で取り扱うと書きましたが, 量が多くなりすぎてしまったため,

    【ML Tech RPT. 】第11回 機械学習のモデルの評価方法 (Evaluation Metrics) を学ぶ (2) - Sansan Tech Blog
  • 【ML Tech RPT. 】第4回 不均衡データ学習 (Learning from Imbalanced Data) を学ぶ(1) - Sansan Tech Blog

    Sansan DSOC 研究員の吉村です。最近は憩いの場を求めて、休日に都内の図書館をまわるのが趣味になっています。先輩にこの話をしたところ、国会図書館をオススメされたので、近々行ってみようと思っている今日この頃です。 さて、今回は実データを分析する時に頻繁に出現し、予測が難しい 不均衡データ学習 (Learning from Imbalanced Data) 問題について調べました。下記では、不均衡データ学習の概要とその対処法についてまとめました。 不均衡データ (Imbalanced Data) 不均衡データ とは、目的変数の分布に大きな偏りがあるデータのことを指します。これだけでは分かり難いと思うので、簡単な二値分類における不均衡データの場合を例にとって説明します(以降、記事においては特に断らない限り、二値分類における不均衡データ学習を想定して説明)。 細胞が癌化したか否かを予測す

    【ML Tech RPT. 】第4回 不均衡データ学習 (Learning from Imbalanced Data) を学ぶ(1) - Sansan Tech Blog
  • Doc2Vecによる文書ベクトル推論の安定化について - Sansan Tech Blog

    はじめまして,Sansan DSOC R&Dグループ インターンの小林といいます。 2月下旬から3月末までの間,主に自然言語処理 (NLP) に関連した研究開発に挑戦させて頂きました。大学でNLPを専攻している訳では無いですが,他の研究員の方やインターンの先輩とのディスカッションなど,とにかく刺激的な日々でした。 稿はNLPブログということで,近年のNLPでスタンダードとなっている,単語・文書の埋め込み手法に言及します。 TL; DR Word2Vec / Doc2Vecについて 文書ベクトルによるニュース文書属性判定を試す タスク:スポーツニュースの内容属性の推定 Doc2Vecによる文書ベクトル推論の問題点 精度検証実験 実験実行と結果 実験① 以下サンプルテキストに対する独立した2度の文書ベクトル推論(infer_vector()の実行) ×100試行 実験② 複数の文書に対する独

    Doc2Vecによる文書ベクトル推論の安定化について - Sansan Tech Blog
  • 1