タグ

ブックマーク / ibisforest.org (7)

  • 特徴選択 - 機械学習の「朱鷺の杜Wiki」

    特徴選択 (feature selection)† \(k\)個の特徴量(属性)のベクトルで記述されている対象に機械学習の手法を適用するとする.\(k\)個の特徴量を全て利用せず,その中で有用なものを選び出すのが特徴選択.その目的は次の二つ: 目的変数と無関係な特徴量を使わないことで予測精度を向上させる. 学習された関数を,定性的に解釈しやすくする. その実現手法は次の二つに分けられる: フィルター法:目的変数と各特徴量との情報ゲインなどの,特徴の良さの規準を使って選択する. ラッパー法:特徴量の部分集合を使って実際に学習アルゴリズムを適用し,交差確認法などで求めた汎化誤差を最小にする特徴量の部分集合を選択する. 学習アルゴリズムを適用する必要があるラッパー法の方が予測精度は向上するが,フィルター法の方がはるかに高速. 特徴量が\(k\)個あるとき,全部で \(2^k-1\)個の特徴量の部

    hsato2011
    hsato2011 2017/05/17
    特徴選択 対話で使えそう
  • しましま/DMSM012 - 機械学習の「朱鷺の杜Wiki」

    第12回 人工知能学会 データマイニングと統計数理研究会 (SIG-DMSM)† このページはしましまが第12回人工知能学会データマイニングと統計数理研究会 に参加してとったメモです.私の主観や勘違いが含まれていたり,私が全く分かってなかったりしていますので,その点を注意してご覧ください.誤りがあれば,指摘してください. ↑ コンテンツ評価情報の類似度を用いたユーザの嗜好推測とコンテンツ推薦† ○鈴木 健太,濱川 礼(中京大学) のレビューの類似度に基づく内容ベース推薦 Wikipediaから抽出した固定語集合中の語彙の出現頻度と,形態素解析で抽出した単語の一致度を使う ↑ 小売サービスにおけるカテゴリマイニング 〜大規模データ融合による顧客-商品の同時カテゴリ分類と知識発見† ○石垣 司,竹中 毅,村 陽一(産業技術総合研究所) pLSA型と類似しているが,潜在変数が利用者とアイテム

    hsato2011
    hsato2011 2017/04/13
  • ロバスト推定 - 機械学習の「朱鷺の杜Wiki」

    ロバスト推定 (robust estimation)† 統計的な推定では,現実のデータに対して何らかの仮定をする. その仮定が現実と合致する場合に加え,この仮定がずれている場合でも,その影響が少なくなるようにした推定法を ロバスト推定 (robust estimation) や ロバスト統計 (robust statistics) という. ↑ L推定量 (L-estimator)† 順序統計量を利用する方法. 順序統計では,与えられたデータ集合を,その要素を大小関係に応じて整列し,その中で i 番目にある値を扱う. 代表的なものは中央値で,平均と比べて,はずれ値があってもその影響を受けにくい. ↑ R推定量 (R-estimator)† 順位統計量を利用する方法. 与えられたデータ集合を,その要素を大小関係に応じて整列し,その列中でのあるデータが何番目であるか,すなわち,順位の値が順位統

    hsato2011
    hsato2011 2017/03/13
  • 生成モデル - 機械学習の「朱鷺の杜Wiki」

    生成モデル (generative model) / 識別モデル (discriminative model)† クラス分類を解くための手法は識別モデルと生成モデルに分けられる. データとクラスの確率変数をそれぞれ \(X\) と\(C\) で表す. パラメータは \(\theta=(\theta_1,\theta_2)\). 生成モデル (generative model) \(X\) と\(C\) の結合確率をモデル化: \[\Pr[X,C|\theta]=\Pr[X|C,\theta_1]\Pr[C|\theta_2]\] パラメータはデータ集合とパラメータの同時確率を最大化するように学習: \[\Pr[\{x_i,c_i\}_i^N,\theta]=\Pr[\theta]\prod_i^N\Pr[x_i,c_i|\theta]=\Pr[\theta]\prod_i^N\Pr[x_i

    hsato2011
    hsato2011 2016/11/09
    機械学習のクラス分類で使う代表的なモデルの説明
  • 欠損値 - 機械学習の「朱鷺の杜Wiki」

    欠損値 (欠測値; missing value), 欠損データ (missing data)† アルゴリズムへの入力で,ある対象の全ての特徴や,一部の特徴の値がない場合. 欠損していると,特徴の値は分からないが,欠損していること自体が情報となる場合もある.例えば,年齢が欠損していれば,ある程度以上の年齢と予測できる. ↑ 欠損値の扱い† 欠損値のある特徴を,全ての対象について無視したり,欠損値のある対象のデータを除外したりする 「欠損値」という値にする 手作業で適切な値を選んで補完する 処理するアルゴリズムで,あまり影響の出ないような定数で置換する 同じ特徴の欠損していない値の平均や中央値などの統計量で置換する 別の情報や,他の観測された情報基づきを用いて,最尤推定などの統計的推定を行う 欠損した特徴を潜在変数とみなし,EMアルゴリズムなどを適用 時系列などの場合は,前後の値から補間する

    hsato2011
    hsato2011 2016/07/20
    欠損値の扱いについて
  • 損失関数 - 機械学習の「朱鷺の杜Wiki」

    損失関数 (loss function)† 入出力をまとめたデータを \(z\):クラス分類ならクラスと特徴ベクトルの対であり,回帰なら独立変数と従属変数の対. \(f\):データを処理する関数 \(L(z;f)\):損失関数 (loss function)は推定の悪さを定義した関数 回帰の場合は,データは \(z=(x,y)\) で,\(L(z,f)=(y-f(x))^2\) のような 二乗損失 (squared loss) が利用される クラス分類の場合は,データは \(z=(x,c)\) で,クラス \(c\) と関数の出力クラス \(f(x)\) が一致すれば 0,そうでなければ 1 をとる 0/1損失 (0/1 loss) が利用される \(f(\cdot;\theta)\) がパラメトリックな確率分布だったとき,対数損失は\(-\log f(\cdot;\theta)\).この

    hsato2011
    hsato2011 2016/06/17
    L(z;f):損失関数 (loss function)は推定の悪さを定義した関数
  • FrontPage - 情報論的学習理論と機械学習の「朱鷺の杜Wiki」

    朱鷺の杜Wiki(ときのもり うぃき)† 朱鷺の杜Wikiは,機械学習に関連した,データマイニング,情報理論,計算論的学習理論,統計,統計物理についての情報交換の場です.これら機械学習関係の話題,リンク,関連事項,書籍・論文紹介などの情報を扱います. 更新されたページを確認するにはRSSリーダを使って右下のRSSリンクをチェックするか,最終更新のページを参照してください. ページの中でどこが更新されたかを見るには,上の「差分」をクリックして下さい. 数式の表示に MathJax を利用しています.数式の上でコンテキストメニューを使うと各種の設定が可能です.特に設定をしなくても数式は閲覧できますが,フォントをインストールすれば数式の表示がきれいで高速になります.詳しくは 数式の表示 のページを参照して下さい. ごく簡単なWikiの使い方がこのページの最後にあります.トップページやメニューなど

    hsato2011
    hsato2011 2016/06/01
     キーワードがいっぱい
  • 1