この記事の概要 機械学習の説明性の研究として,Example-Basedな説明があります.この記事では,説明性の研究のトップランナーの一人である, Been Kimをファーストオーサーとする論文, "Examples are not Enough, Learn to Criticize! Criticism for Interpretability",https://people.csail.mit.edu/beenkim/papers/KIM2016NIPS_MMD.pdf について書いています. Examples are not Enough 機械学習の説明性の1つとして, Example-Basedな説明があげられます. 我々人間も, Example-Basedな意志決定をしています. 例えば弁護士さんなら, 新しいクライアントに似た過去の事例を徹底的に調べ上げ, 何かしらの意志決定
概要 予測に影響した特徴量の重要度を可視化できるライブラリとしてSHAPが存在感を増しています。SHAPは SHapley Additive exPlanations を指しており、 Wikipediaによると、SHapley は人の名前から来ていて、ゲーム理論で用いられる「協力により得られた報酬をどのようにプレイヤーに配分するか」という問題に対する考え方ということです。 SHAP は機械学習の手法を問わず使うことができ 非常に便利であるという噂を耳にしたため、本記事では SHAP の全メソッドを試して効果を検証してみました。 なお、 SHAP のバージョンは0.30.2を使っています。 インストール方法と簡単な使い方説明他のライブラリ同様、pipの処理で可能です。 自分はimport時に「ModuleNotFoundError: No module named ‘tqdm.auto’」の
本記事は、AI道場「Kaggle」への道 by 日経 xTECH ビジネスAI① Advent Calendar 2019のアドベントカレンダー 9日目の記事です。 Permutation ImportanceがScikit-Learnのversion0.22より導入されました。この手法はKaggleでも使われており1 、特徴選択に有用な方法です。本記事ではこのPermutation Importanceの解説と、LightGBMで5-foldでCVしながら使ってみた例を紹介します。コードの全文はKaggle Kernelとして登録してありますので、コードだけサクっとみたい方はこちらをどうぞ。 1. Permutation Importanceとは Permutation Importanceとは、機械学習モデルの特徴の有用性を測る手法の1つです。よく使われる手法にはFeature Imp
https://www.kaggle.com/learn/machine-learning-explainability 今回はこれをやっていきます。先に一言で言うと機械学習のfitを説明しよう、と言うことです。言い換えるとモデルがデータをどう扱ったか解釈しよう、と言うことです。なんとなくまとめを先に行っておくと次の通りです。 ブラックボックス 機械学習も僕の知っている2年前に比べて色々と賑やかになってきました。決定木だとLightGBMやXGBOOSTありますし、ニューラルネットだとStacked LSTMやGANとかですねえ。そんな優秀なアルゴリズム達をどうやって理解すればいいんだろう?と言うのがブラックボックス問題です。例えば「ニューラルネットで学習させたけどこの重みの意味って、、、?」とか「この入力と出力の間の関係は、、?」とか「この変数って予測にプラスに働いたのか、、、?」などで
第20回ステアラボ人工知能セミナー https://stair.connpass.com/event/109983/ 【講演動画】 https://youtu.be/Fgza_C6KphU 【講演タイトル】 機械学習モデルの判断根拠の説明 【講演概要】 本講演では、機械学習モデルの判断根拠を提示するための説明法について紹介する。高精度な認識・識別が可能な機械学習モデルは一般に非常に複雑な構造をしており、どのような基準で判断が下されているかを人間が窺い知ることは困難である。このようなモデルのブラックボックス性を解消するために、近年様々なモデルの説明法が研究・提案されてきている。本講演の前半ではまず近年の代表的な研究について紹介する。後半では、発表者の最近の研究として「ランダムフォレストの簡略化」と「モデル列挙」について紹介する。Read less
部分従属プロット(partial dependence plot)部分従属プロット(partial dependence plot)とは、分類器が学習を行った際に、どの変数がどの程度クラス分類に影響しているかを視覚的に表す方法である(詳細な説明・原理はまた後日)。Pythonの機械学習オープンソースライブラリscikit-learnにもその機能は実装されているが、使用できるのはGradientBoostingClassifier(勾配ブースティング回帰木)に限られている。 そこで今回は、RandomForestClassifierなど、scikit-learnが実装しているあらゆる分類器に適応できる部分従属プロットのプログラムを作成した。主要な関数はpartial_dependenceとpartial_dependence_plotの2つである。以下、その使い方について説明する。 使い方p
はじめに モデルの学習 変数重要度 Partial Dependence Plot まとめ 参考 はじめに RF/GBDT/NNなどの機械学習モデルは古典的な線形回帰モデルよりも高い予測精度が得られる一方で、インプットとアウトプットの関係がよくわからないという解釈性の問題を抱えています。 この予測精度と解釈性のトレードオフでどちらに重点を置くかは解くべきタスクによって変わってくると思いますが、私が仕事で行うデータ分析はクライアントの意思決定に繋げる必要があり、解釈性に重きを置いていることが多いです。 とはいえ機械学習モデルの高い予測精度は惜しく、悩ましかったのですが、学習アルゴリズムによらずモデルに解釈性を与えられる手法が注目され始めました。 本記事では変数重要度とPDP/ICE Plot (Partial Dependence/Individual Conditional Expecta
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く