hsato2011のブックマーク - はてなブックマーク

特徴選択 - 機械学習の「朱鷺の杜Wiki」

特徴選択 (feature selection)† \(k\)個の特徴量(属性)のベクトルで記述されている対象に機械学習の手法を適用するとする．\(k\)個の特徴量を全て利用せず，その中で有用なものを選び出すのが特徴選択．その目的は次の二つ：目的変数と無関係な特徴量を使わないことで予測精度を向上させる．学習された関数を，定性的に解釈しやすくする．その実現手法は次の二つに分けられる：フィルター法：目的変数と各特徴量との情報ゲインなどの，特徴の良さの規準を使って選択する．ラッパー法：特徴量の部分集合を使って実際に学習アルゴリズムを適用し，交差確認法などで求めた汎化誤差を最小にする特徴量の部分集合を選択する．学習アルゴリズムを適用する必要があるラッパー法の方が予測精度は向上するが，フィルター法の方がはるかに高速．特徴量が\(k\)個あるとき，全部で \(2^k-1\)個の特徴量の部

hsato2011 2017/05/17

特徴選択　対話で使えそう

リンク

しましま/DMSM012 - 機械学習の「朱鷺の杜Wiki」

第12回人工知能学会データマイニングと統計数理研究会 (SIG-DMSM)† このページはしましまが第12回人工知能学会データマイニングと統計数理研究会に参加してとったメモです．私の主観や勘違いが含まれていたり，私が全く分かってなかったりしていますので，その点を注意してご覧ください．誤りがあれば，指摘してください． ↑ コンテンツ評価情報の類似度を用いたユーザの嗜好推測とコンテンツ推薦† ○鈴木健太，濱川礼（中京大学）本のレビューの類似度に基づく内容ベース推薦 Wikipediaから抽出した固定語集合中の語彙の出現頻度と，形態素解析で抽出した単語の一致度を使う ↑ 小売サービスにおけるカテゴリマイニング〜大規模データ融合による顧客－商品の同時カテゴリ分類と知識発見† ○石垣司，竹中毅，本村陽一（産業技術総合研究所） pLSA型と類似しているが，潜在変数が利用者とアイテム

hsato2011 2017/04/13

リンク

ロバスト推定 - 機械学習の「朱鷺の杜Wiki」

ロバスト推定 (robust estimation)† 統計的な推定では，現実のデータに対して何らかの仮定をする．その仮定が現実と合致する場合に加え，この仮定がずれている場合でも，その影響が少なくなるようにした推定法をロバスト推定 (robust estimation) やロバスト統計 (robust statistics) という． ↑ L推定量 (L-estimator)† 順序統計量を利用する方法．順序統計では，与えられたデータ集合を，その要素を大小関係に応じて整列し，その中で i 番目にある値を扱う．代表的なものは中央値で，平均と比べて，はずれ値があってもその影響を受けにくい． ↑ R推定量 (R-estimator)† 順位統計量を利用する方法．与えられたデータ集合を，その要素を大小関係に応じて整列し，その列中でのあるデータが何番目であるか，すなわち，順位の値が順位統

hsato2011 2017/03/13

リンク

生成モデル - 機械学習の「朱鷺の杜Wiki」

生成モデル (generative model) / 識別モデル (discriminative model)† クラス分類を解くための手法は識別モデルと生成モデルに分けられる．データとクラスの確率変数をそれぞれ \(X\) と\(C\) で表す．パラメータは \(\theta=(\theta_1,\theta_2)\)．生成モデル (generative model) \(X\) と\(C\) の結合確率をモデル化： \[\Pr[X,C|\theta]=\Pr[X|C,\theta_1]\Pr[C|\theta_2]\] パラメータはデータ集合とパラメータの同時確率を最大化するように学習： \[\Pr[\{x_i,c_i\}_i^N,\theta]=\Pr[\theta]\prod_i^N\Pr[x_i,c_i|\theta]=\Pr[\theta]\prod_i^N\Pr[x_i

hsato2011 2016/11/09

機械学習のクラス分類で使う代表的なモデルの説明

リンク

欠損値 - 機械学習の「朱鷺の杜Wiki」

欠損値 (欠測値; missing value), 欠損データ (missing data)† アルゴリズムへの入力で，ある対象の全ての特徴や，一部の特徴の値がない場合．欠損していると，特徴の値は分からないが，欠損していること自体が情報となる場合もある．例えば，年齢が欠損していれば，ある程度以上の年齢と予測できる． ↑ 欠損値の扱い† 欠損値のある特徴を，全ての対象について無視したり，欠損値のある対象のデータを除外したりする「欠損値」という値にする手作業で適切な値を選んで補完する処理するアルゴリズムで，あまり影響の出ないような定数で置換する同じ特徴の欠損していない値の平均や中央値などの統計量で置換する別の情報や，他の観測された情報基づきを用いて，最尤推定などの統計的推定を行う欠損した特徴を潜在変数とみなし，EMアルゴリズムなどを適用時系列などの場合は，前後の値から補間する

hsato2011 2016/07/20

欠損値の扱いについて

リンク

損失関数 - 機械学習の「朱鷺の杜Wiki」

損失関数 (loss function)† 入出力をまとめたデータを \(z\)：クラス分類ならクラスと特徴ベクトルの対であり，回帰なら独立変数と従属変数の対． \(f\)：データを処理する関数 \(L(z;f)\)：損失関数 (loss function)は推定の悪さを定義した関数回帰の場合は，データは \(z=(x,y)\) で，\(L(z,f)=(y-f(x))^2\) のような二乗損失 (squared loss) が利用されるクラス分類の場合は，データは \(z=(x,c)\) で，クラス \(c\) と関数の出力クラス \(f(x)\) が一致すれば 0，そうでなければ 1 をとる 0/1損失 (0/1 loss) が利用される \(f(\cdot;\theta)\) がパラメトリックな確率分布だったとき，対数損失は\(-\log f(\cdot;\theta)\)．この

hsato2011 2016/06/17

L(z;f)：損失関数 (loss function)は推定の悪さを定義した関数

リンク

FrontPage - 情報論的学習理論と機械学習の「朱鷺の杜Wiki」

朱鷺の杜Wiki（ときのもりうぃき）† 朱鷺の杜Wikiは，機械学習に関連した，データマイニング，情報理論，計算論的学習理論，統計，統計物理についての情報交換の場です．これら機械学習関係の話題，リンク，関連事項，書籍・論文紹介などの情報を扱います．更新されたページを確認するにはRSSリーダを使って右下のRSSリンクをチェックするか，最終更新のページを参照してください．ページの中でどこが更新されたかを見るには，上の「差分」をクリックして下さい．数式の表示に MathJax を利用しています．数式の上でコンテキストメニューを使うと各種の設定が可能です．特に設定をしなくても数式は閲覧できますが，フォントをインストールすれば数式の表示がきれいで高速になります．詳しくは数式の表示のページを参照して下さい．ごく簡単なWikiの使い方がこのページの最後にあります．トップページやメニューなど

hsato2011 2016/06/01

　キーワードがいっぱい

機械学習

リンク

はてなブックマーク

タグ

ブックマーク / ibisforest.org (7)

お知らせ

今週のはてなブックマーク数ランキング（2024年7月第2週）

はてなブックマーク透明性レポート（2024年 2月-2024年4月）

今週のはてなブックマーク数ランキング（2024年7月第1週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス