ブックマーク / note.com/y_katayama (3)

  • 機械学習プロダクト開発の「2年目」とこれから|Yotaro Katayama

    自然言語処理・機械学習を用いて、企業に眠っている契約書を資産として活用できるようにしていくサービスを作っているMNTSQの堅山です。 弊社の機械学習チームは、契約書データから様々な情報を抽出し、人が活用できるようにするのがの役割です。例えば、誰が相手の契約か?この条項と同じタイプの条項は他にあるか?などなど文書分類、NERなどなどのタスクを解いています。 弊社は現在3年目に突入したところで、無事に実証実験を終え、企業の皆様に使っていただけるところまでたどり着くことができました。 1年目と2年目を振り返って、プロダクトを作っていくために必要な考え方が違ったなと思ったので、どういう点がポイントだったのかを振り返って行こうと思います。 機械学習プロダクト開発の「1年目」弊社のプロダクトは、すでに収益を生むサービスに対して機械学習を投入するといったシチュエーションではなく、新しいタイプの製品を機械

    機械学習プロダクト開発の「2年目」とこれから|Yotaro Katayama
  • Feature Importanceって結局何なの?|Yotaro Katayama

    この記事の目的GBDT(Gradient Boosting Decesion Tree)のような、決定木をアンサンブルする手法において、特徴量の重要性を定量化し、特徴量選択などに用いられる”Feature Importance”という値があります。 記事では、この値が実際にはどういう計算で出力されているのかについて、コードと手計算を通じて納得することを目指します。 なお、この記事は3回シリーズの第2回で、最終的にcatboostのfeature importanceの算出方法を理解するのが目的です。ここでは、用意されているfeature importanceの計算方法がわかりやすいxgboostを使います 第1回: Catboostの推論の仕組みを理解する 第2回: Feature Importanceの計算を理解する (イマココ) 第3回: CatboostのFeature Impor

    Feature Importanceって結局何なの?|Yotaro Katayama
  • 機械学習プロダクトで「スクラム」的開発をやってみてわかったこと|Yotaro Katayama

    こんにちは、MNTSQというリーガルテックの役員をしている堅山といいます。 今回のエントリでは、機械学習プロダクトにおけるアルゴリズム開発の現場で、スクラム的な手法をとりいれたらうまく行ったよ、という話を紹介したいと思います。あくまで、「的」なので、完全にスクラムなんや、という感じではないのをご了承ください。 さて、MNTSQでは、大量の契約書をNLP機械学習を用いて解析しているのですが、解かねばならないタスクがたくさんあります。契約書からの範囲抽出(タイトル、契約締結日、契約期間、契約者 etc...)や、第一条、第二条といった条文の構造の分析、各条項のリスク分析など、多岐にわたり、これらのタスクを高速に実装していく必要があります。(詳しくは以下の前回のエントリをみてください!) 解決したい課題 初期の開発においては臨機応変にスケジュールや優先順位を引いていたのですが、進めていくうちに

    機械学習プロダクトで「スクラム」的開発をやってみてわかったこと|Yotaro Katayama
  • 1