タグ

ブックマーク / ibisforest.org (21)

  • Huber関数 - 機械学習の「朱鷺の杜Wiki」

    Huber関数 (Huber function)† Huber関数は次式 \[H(x)=\left\{\begin{array}{ll}x^2/2 & \text{if }|x|\le\epsilon\\\epsilon|x|-\epsilon^2/2&\text{otherwise}\end{array}\right.\] \(|x|\le\epsilon\) の範囲では2次関数だが,その外側の範囲では線形に増加する. ロバスト推定での回帰や,サポートベクトル回帰の損失関数として利用される.\(x\) が 0 から遠いところでは線形にしか増加しないので,はずれ値の影響が2次の損失関数と比べてずっと小さい.また,絶対損失と違って定義域全体で微分可能なので便利. -- しましま ↑

  • k-means法 - 機械学習の「朱鷺の杜Wiki」

    k-means法 (k-means method)† 次の目的関数を最小化する分割最適化クラスタリングの代表的手法. \[\mathrm{Err}(\{X_i\})=\sum_i^k\;\sum_{\mathbf{x}\in X_i}\;{\|\mathbf{x} - \bar{\mathbf{x}}_i\|}^2\] ただし,データ集合 \(X\) は,ベクトルで表現されたデータ \(\mathbf{x}\) の集合. クラスタ \(X_i\) は,データ集合の網羅的で互いに素な部分集合. \(\bar{\mathbf{x}}_i\) は \(X_i\) 中の重心(セントロイドともいう). \(\|\cdot\|\) はユークリッドノルム. ↑ アルゴリズム† 入力はデータ集合 \(X\) とクラスタ数 \(k\),および最大反復数 maxIter. 初期化:データ集合をランダムに \(

  • 逐次学習 - 機械学習の「朱鷺の杜Wiki」

    逐次学習 (sequential learning)† 多くの学習では \(N\)個のデータが一括して与えられ,そこからパラメータの決定などの学習をする.こうした学習を 一括学習 (batch learning) という. 一方,逐次学習 (sequential learning; オンライン学習),データは一つずつ逐次的に与えられ,データが与えられるたびにパラメータを更新する.データを\(N\)個観測したあとでパラメータ\(\mathbf{\theta}^{(N)}\)が推定されているとする.このとき,\(N+1\)個目のデータと\(\mathbf{\theta}^{(N)}\)から,パラメータを\(\mathbf{\theta}^{(N+1)}\)を順次求めるようにする学習方法. 長所 全てのデータを一時的に蓄積しなくて良いので,少ないメモリで大規模なデータを扱える データが増加したと

  • 多次元尺度構成法 - 機械学習の「朱鷺の杜Wiki」

    多次元尺度構成法 (multidimensional scaling)† \(n\)個の点 \(x_1,\ldots,x_n\) の間の距離(非類似度)が与えられている場合に,点の位置を求める方法.結果の可視化などに利用される. 点 \(x_i\) と \(x_j\) の間の距離 \(d_{ij}\) の2乗を要素とする\(n\times n\)行列を \(D\) とする. \(X\) は,\(k\)次元空間の点 \(x_i\) を行ベクトルで表し,それを\(n\)行集めた\(n\times k\)行列. \(J\) は,単位行列から,全要素が \(1/n\) の行列を引いた \(n\times n\)行列.\(P=(-1/2)JDJ^\top\)とする. この \(P\) を最小二乗の意味で近似する \(XX^\top\) は次式を最小化: \[\phi=\mathrm{trace}[(

  • 交差確認 - 機械学習の「朱鷺の杜Wiki」

    交差確認 (cross validation)† サンプル集合 X から汎化誤差を推定する方法 X を n 個の部分集合に分割する i=1…n について以下を繰り返す i 番目の部分集合を Xi,その残りを ~Xi=X-Xi とする 訓練集合に ~Xi を,テスト集合に Xi を用いてエラー \(e_i\) を計算 汎化誤差は \(\frac{1}{n}\sum_i^n e_i\) になる. n個に分割したとき n分割交差確認 (n-fold cross validation) という.特に,Xの要素数がNのとき N 分割交差確認をすると leave-one-out法という. cross validation の訳語には,交差確認と交差検証とがあるようです.みなさんはどちらの訳語を使っていますか?

  • しましま/IBIS2007 - 機械学習の「朱鷺の杜Wiki」

    第10回 情報論的学習理論ワークショップ (IBIS2007)† このページはしましまがIBIS2007に参加してとったメモです. 私の主観や勘違いが含まれていたり,私が全く分かってなかったりしていますので,その点を注意してご覧ください.誤りがあれば,指摘してください. IBIS2007ホームページ ↑ Semi-Supervised Local Fisher Discriminant Analysis for Dimensionality Reduction† Masashi Sugiyama, Tsuyoshi Ide, Shinichi Nakajima, Jun Sese d次元をr次元に縮約する 主成分分析 標の最良近似.射影したデータを元のデータに近づける.標の散らばりを最大化することと等価 局所保存射影(LPP) 近くにある標の類似度は大きく,遠くにある標の類似度は小

  • 正則化 - 機械学習の「朱鷺の杜Wiki」

    正則化 (regularization)† データ \(D\) が与えられたときの経験損失 \(L_{\mathrm{emp}}(f,D)\) だけを最適化する関数 \(f\) を求めても,過適合などのため汎化誤差は最小にならない.よってこの最適化では,来の目的は達成できない.こうした状況を不良設定 (ill-posed)であるという. こうした場合には,平滑化などを行う罰則項 (penalty term) \(P(f)\) を用いて次のような問題にする: \[\min_f L_{\mathrm{emp}}(f,D)+\lambda P(f)\] こうした問題の書き換えを正則化 (regularization)という. \(f\) のパラメータを \(\mathbf{\theta}\) とするとき,\(P(f)\) としては次のようなものが代表的 L2ノルムの2乗(=2乗和)\({||\

  • スラック変数 - 機械学習の「朱鷺の杜Wiki」

    スラック変数 (slack variable)† スラック変数 (slack variable) は,数理計画法で定義された標準的な制約条件の形に適合させるために導入する変数. 例えば,線形計画問題では \(A\mathbf{x}=\mathbf{b}, \mathbf{x}\ge0\) が標準的な制約の形. \(\mathbf{a_i}^\top\mathbf{x}\le b_i\) のような制約があったとき, \(\mathbf{a}_i^\top \mathbf{x} +\xi_i=b_i,\ \xi_i\ge0\) のように書き換える.このとき,\(\xi_i\) がスラック変数. 線形計画問題の \(\mathbf{x}\) には,スラック変数が加わり \[\mathbf{x}'=[x_1,\ldots,x_N,\xi_1,\ldots,\xi_L]^\top\] のようになり,

  • 転移学習 - 機械学習の「朱鷺の杜Wiki」

    転移学習 (transfer learning) / 帰納転移 (inductive transfer)† 転移学習 (transfer learning) の他,帰納転移 (inductive transfer),ドメイン適応 (domain adaptation),マルチタスク学習 (multitask learning),knowledge transfer, learning to learn, lifetime learning などの呼び名もある. 形式的ではないが NIPS2005 Workshop — inductive transfer: 10 years later で示されている次の定義が広く受け入れられると思う. the problem of retaining and applying the knowledge learned in one or more ta

  • 多クラス - 機械学習の「朱鷺の杜Wiki」

    多クラス (マルチクラス; multi-class)† 識別問題で,クラスのとりうる数(定義域の大きさ)が2の場合を2クラス,3以上の場合を多クラス (マルチクラス; multi-class)と呼んで区別することがある. \(k\) クラスの多クラス問題 (\(k \gt 2\)) を,SVMなど2クラスの 2値分類器で解く場合には,一対他分類器や一対一分類器がよく利用される. ↑ 一対他分類器 (one-versus-the-rest classifier)† \(i=1,\ldots,k-1\)の各クラス \(i\) それぞれについて,クラス \(i\) なら 1を,その他のクラスなら 0 を識別する2値分類器を学習する. クラス \(k\) については,\(k-1\)個の分類器が全て 0 を出力すれば,クラス\(k\)と分かる. 複数の分類器が 1 を出力したとき,最終的な解をどれに

  • カーネル - 機械学習の「朱鷺の杜Wiki」

    カーネル (kernel)† 一応書いておいたほうがいいと思うが,OS のカーネルのことではない. 数学的には可測空間 \(\mathbb{M}\) に対し,\(\mathbb{M}\times\mathbb{M}\to \mathbb{R}\) または \(\mathbb{C}\) への写像をカーネルという. 統計で普通カーネルといえば,カーネル密度推定の窓関数を指す. これは一般に正定値である必要はない. SVM などカーネル法の文脈では正定値カーネルを指す. 正定値カーネルは再生核ヒルベルト空間を定める. これとほぼ等価だが,Mercerの定理により下のようなカーネルトリックとしてとらえることもできる. -- あかほ 入力空間 \(\mathbf{x}\) を何か非線形変換 \(\phi\) を高次元の特徴空間 \(\phi(\mathbf{x})\) へ写す. この特徴空間中での内

  • python/numpy - 機械学習の「朱鷺の杜Wiki」

    パッケージ† pip や easy_install によるインストールの前に多くの外部ライブラリやfortranコンパイラなどが必要になるので,numpy等の科学技術計算パッケージをインストールするには以下のようなパッケージを一般には利用する: 商用(サポートなしなら無料でも利用できる) Anaconda:無料版でもIntel MKLが使える Enthought Canopy フリー Unofficial Windows Binaries for Python Extension Packages (個人ベースの管理で非公式版) ↑ その他† pyvideo.org:PyCon, SciPy, PyData などの講演ビデオリンク集 100 numpy exercises:練習問題 Pythonidae:Python関連のライブラリのリンク集 SciPy Central:SciPy 関連コ

  • しましま/IBIS2013 - 機械学習の「朱鷺の杜Wiki」

    第16回 情報論的学習理論ワークショップ (IBIS2013)† このページはしましまが IBIS2013 に参加してとったメモです.私の主観や勘違いが含まれていたり,私が全く分かってなかったりしていますので,その点を注意してご覧ください.誤りがあれば,指摘してください. チュートリアル1:機械学習概要† 村田 昇(早稲田大学) 学習とは『賢くなる手続き』 スパムメール,Googleの検索,推薦システム,Watson将棋,徴税システム 計算論的学習理論 人工知能とアルゴリズムの初期研究:決定的 → 確率的・非決定的な考え方の登場 80年代の Valiant 十分な確率で正解に達すればよい → PAC学習 統計的学習理論 確率的近似法(統計的探索に確率探索の手法を導入)→ 学習系の平均挙動の統計的解析 → VC次元の理論と発展 学習問題の枠組み 教師あり(回帰,識別)・教師なし(クラスタリ

  • 次元の呪い - 機械学習の「朱鷺の杜Wiki」

    次元の呪い (curse of dimensionality)† データが高次元になると汎化誤差が向上しなくなる現象.主な原因は次の二つ: 次元数の増加に伴ってモデルが複雑になり,有限のサンプル数では適切な学習ができなくなる 球面集中現象により,次元の増加に伴って,いろいろなデータ間の距離が互いに等しくなっていく このような場合には,特徴選択や次元削減によって次元数を減らす. -- しましま ↑

  • F値 - 機械学習の「朱鷺の杜Wiki」

    正解率 (精度, accuracy):正や負と予測したデータのうち,実際にそうであるものの割合 \[\mathrm{Accuracy}=\frac{TP+TN}{TP+FP+TN+FN}\] 適合率 (precision):正と予測したデータのうち,実際に正であるものの割合 \[\mathrm{Precision}=\frac{TP}{TP+FP}\] 再現率 (recall, 感度, sensitivity):実際に正であるもののうち,正であると予測されたものの割合 \[\mathrm{Recall}=\frac{TP}{TP+FN}\] 特異度 (specificity):実際に負であるもののうち,負であると予測されたものの割合 \[\mathrm{Specificity}=\frac{TN}{FP+TN}\] F値 (F尺度, F-measure):再現率と適合率の調和平均. \[\

  • DataSet - 機械学習の「朱鷺の杜Wiki」

    テスト用データ集合† アルゴリズムの比較検証に利用できるテスト用データについてまとめましょう. ID は ibis でパスワードは VC 次元の V のフルスペルです(頭だけ大文字)

  • 主成分分析 - 機械学習の「朱鷺の杜Wiki」

    主成分分析 (principal components analysis)† 高次元のデータを,データの分散が最大になるように,低次元のデータに変換する方法.教師なしの次元削減の手法として最も一般的. p次元のデータベクトル \(\mathbf{x}_i\) を\(n\)個集めて, \(n\times p\)のデータ行列 \(X\) を生成. 平均ベクトルは \(\mathbf{\bar{x}}_i=(1/n)\sum_i^n \mathbf{x}_i\). \(\mathbf{1}_n\) を長さが \(n\) の1ベクトルとして,\(\tilde{X}=X - \mathbf{1}_n \mathbf{\bar{x}}^\top\). 共分散行列は \(S=\frac{1}{n}\tilde{X}^\top\tilde{X}\). 共分散行列を次式のように分解する. \[S=A \La

  • 生成モデル - 機械学習の「朱鷺の杜Wiki」

    生成モデル (generative model) / 識別モデル (discriminative model)† クラス分類を解くための手法は識別モデルと生成モデルに分けられる. データとクラスの確率変数をそれぞれ \(X\) と\(C\) で表す. パラメータは \(\theta=(\theta_1,\theta_2)\). 生成モデル (generative model) \(X\) と\(C\) の結合確率をモデル化: \[\Pr[X,C|\theta]=\Pr[X|C,\theta_1]\Pr[C|\theta_2]\] パラメータはデータ集合とパラメータの同時確率を最大化するように学習: \[\Pr[\{x_i,c_i\}_i^N,\theta]=\Pr[\theta]\prod_i^N\Pr[x_i,c_i|\theta]=\Pr[\theta]\prod_i^N\Pr[x_i

    satojkovic
    satojkovic 2012/09/03
    生成モデルと識別モデル
  • 相関係数 - 機械学習の「朱鷺の杜Wiki」

    相関係数 (correlation coefficient)† 二つの確率変数の間の関連度合いを表す尺度 \(\rho\) で, \(-1\le\rho\le1\) を満たすように定義したものである. Web で「相関係数」を調べる人は多い. 単に相関係数と言えば,Pearsonの積率相関係数 \[\rho_P=\frac{\mathrm{E}_{X,Y}[(X-\mu_X)(Y-\mu_Y)]}{\sqrt{\mathrm{E}_X[(X-\mu_X)^2]}\sqrt{E_Y[(Y-\mu_Y)^2]}}\] を指す. ただし \(\mu_X=E_X[X], \mu_Y=E_Y[Y]\) \(Y=a X+b\) のような線形の関係があるとき,\(0<a\)なら \(\rho_P=1\), \(a<0\) なら \(\rho_P=-1\) となる. \(\rho_P\)は二つのベクトルの

  • 機械学習 - 機械学習の「朱鷺の杜Wiki」

    機械学習とは,Arther Samuel によれば「明示的にプログラミングすることなく,コンピュータに行動させるようにする科学」 のことです. 歴史的には,人工知能の研究分野の中で,人間が日々の実体験から得られる情報の中から,後に再利用できそうな知識を獲得していく過程を,コンピュータにおいて実現したいという動機から生じました. 現在では,数値・文字・画像・音声など多種多様なデータの中から,規則性・パターン・知識を発見し,現状を把握や将来の予測をしたりするのにその知識を役立てることが目的となっています. しましまの私見に基づいて,機械学習の各種の問題を整理しました. ↑ 他分野との関連† 確率論:機械学習で扱うデータは,いろいろな不確定要素の影響を受けており,こうして生じた曖昧さを扱うために利用されます. 統計:観測されたデータを処理する手法として長く研究されてきたため深い関連があります.特