タグ

ブックマーク / upura.hatenablog.com (3)

  • scikit-learn-contrib の Metric Learning を試す - u++の備忘録

    Metric Learning について Metric Learning は、データの教師情報を基にデータ間の距離や類似度などの Metric を学習する手法です。日語で手軽に読める記事だと、*1, *2 などが詳しいです。 このたび、phalanx さんの tweet *3で、 Metric Learning の基礎的なアルゴリズムのいくつかが scikit-learn-contrib *4に搭載されていると知りました。 記事では、scikit-learn-contrib の metric-learn パッケージを用いて、簡単にMetric Learning を試します。 インストール README や PyPI *5 に記載のある通り、次の通りにインストールします。 pip install metric-learn 利用するデータセット 今回は、sklearn に含まれている lo

    scikit-learn-contrib の Metric Learning を試す - u++の備忘録
  • LightGBMでdownsampling+bagging - u++の備忘録

    はじめに データセットの作成 LightGBM downsampling downsampling+bagging おわりに はじめに 新年初の技術系の記事です。 年末年始から最近にかけては、PyTorchの勉強などインプット重視で過ごしています。その一環で不均衡データの扱いも勉強しました。 クラス比1:99の人工的な不均衡データ使ってダウンサンプリングを試してるけど、バカみたいに負例を捨てちゃっても意外と大丈夫なんだな。計算時間が圧倒的に減るので、その時間でアンサンブル的なことすれば精度も確保できそう。— u++ (@upura0) January 8, 2019 上記のツイートを契機に多くのリプライなどで情報を頂戴しましたが、以前に話題になった「downsampling+bagging」の手法が良さそうでした。記事では、模擬的に作成したデータセットにLightGBMを使い、「down

    LightGBMでdownsampling+bagging - u++の備忘録
  • 技術書典5で弊社の機械学習活用事例を紹介します - u++の備忘録

    2018年10月8日に池袋サンシャインシティで開催される技術書典5に、弊社のエンジニア有志で執筆した書籍を頒布します。 techbookfest.org 私は第1章「機械学習を用いた日経電子版Proのユーザ分析」を担当しました。 私は弊社にて、営業・マーケティング向けのデータ分析や、業務効率化のための環境整備を担当しています。 章では、機械学習を用いた「日経電子版Pro」のユーザ分析事例を紹介しました。課題設定から始め、データの前処理や予測モデルの構築など一連の過程を、Pythonのコードと合わせて掲載しています。 pr.nikkei.com 以下のような読者を想定して執筆しました。Kaggleでテーブルデータを処理するような過程が含まれているので、Kaggleに興味がある方なら楽しんでお読みいただける内容になっていると考えています。 データ分析に興味がある PythonのPan

    技術書典5で弊社の機械学習活用事例を紹介します - u++の備忘録
  • 1