タグ

ブックマーク / ibisforest.org (30)

  • 機械学習 - 機械学習の「朱鷺の杜Wiki」

    機械学習とは,Arther Samuel によれば「明示的にプログラミングすることなく,コンピュータに行動させるようにする科学」 のことです. 歴史的には,人工知能の研究分野の中で,人間が日々の実体験から得られる情報の中から,後に再利用できそうな知識を獲得していく過程を,コンピュータにおいて実現したいという動機から生じました. 現在では,数値・文字・画像・音声など多種多様なデータの中から,規則性・パターン・知識を発見し,現状を把握や将来の予測をしたりするのにその知識を役立てることが目的となっています. しましまの私見に基づいて,機械学習の各種の問題を整理しました. ↑ 他分野との関連† 確率論:機械学習で扱うデータは,いろいろな不確定要素の影響を受けており,こうして生じた曖昧さを扱うために利用されます. 統計:観測されたデータを処理する手法として長く研究されてきたため深い関連があります.特

    yuiseki
    yuiseki 2013/10/10
  • 逐次学習 - 機械学習の「朱鷺の杜Wiki」

    逐次学習 (sequential learning)† 多くの学習では \(N\)個のデータが一括して与えられ,そこからパラメータの決定などの学習をする.こうした学習を 一括学習 (batch learning) という. 一方,逐次学習 (sequential learning; オンライン学習),データは一つずつ逐次的に与えられ,データが与えられるたびにパラメータを更新する.データを\(N\)個観測したあとでパラメータ\(\mathbf{\theta}^{(N)}\)が推定されているとする.このとき,\(N+1\)個目のデータと\(\mathbf{\theta}^{(N)}\)から,パラメータを\(\mathbf{\theta}^{(N+1)}\)を順次求めるようにする学習方法. 長所 全てのデータを一時的に蓄積しなくて良いので,少ないメモリで大規模なデータを扱える データが増加したと

    yuiseki
    yuiseki 2012/09/10
  • データストリーム - 機械学習の「朱鷺の杜Wiki」

    データストリーム (data stream)† データストリームとは次の性質 連続的に与えられ,時間順に整列されている その更新頻度や間隔は一定ではない (時系列データとの相違) データの性質が急激に変化することがある 大量で,潜在的に無限に高速でデータが与えられる これらの性質のため,データをそのまま全て蓄積することは不可能. よって,目的に応じた要約技術を利用してデータを蓄積して学習を行う. 逐次学習とは,データの変動を考えたり,一定以上過去のデータの影響を無視したり,さらに,任意の期間の解析を扱ったりすることにより重点を置いていることが違うと思う. -- しましま ↑

    yuiseki
    yuiseki 2012/09/10
  • lossy countingアルゴリズム - 機械学習の「朱鷺の杜Wiki」

    lossy countingアルゴリズム (lossy counting algorithm)† 支持度が \(s\) であるようなシンボルを,支持度に対する許容誤差が \(\epsilon\) を保証しつつ,データストリームから列挙するアルゴリズム. 最初は \(\mathcal{D}\) は空.この集合の要素は \((e,f,\Delta)\).ただし,\(e\) はシンボル,\(f\) はシンボルの数,\(\Delta\) は最大許容誤差. 現在読んだストリームのシンボル数は \(N\),バケット幅 \(w=\lceil 1/\epsilon\rceil\),そして現在のバケットは \(b_{current}\) 番目. 新たなシンボル \(e\) が来たら バケット内のシンボルが \(\mathcal{D}\) 中にある場合には,そのエントリーの \(f\) を一つ増やし,\(\D

    yuiseki
    yuiseki 2012/09/10
  • 情報幾何 - 機械学習の「朱鷺の杜Wiki」

    情報幾何 (information geometry)† 情報処理のいろいろな問題を視覚的に理解するための枠組み. 統計的に自然な構造を考えると必然的に非ユークリッド的になる. 微分幾何では,空間の構造は局所的な線形構造(計量)とそれらの関係をつなぐ接続から決まる. 通常のリーマン幾何では計量を決めると接続が決まってしまうが,情報幾何では実数パラメータの自由度があり,双対構造をもっていることがユニークな点である. ...という難しいことを知らなくても,情報幾何の多くの適用例では平坦な空間を扱っており,多少の注意は必要だがユークリッド的な世界観でものごとを考えることができる. --あかほ ↑

    yuiseki
    yuiseki 2012/08/26
  • EMアルゴリズム - 機械学習の「朱鷺の杜Wiki」

    関連文献† 基文献 A.P.Dempster, N.M.Laird, and D.B.Rubin, "Maximum Likelihood from Incomplete Data via The EM Algorithm", Journal of The Royal Statistical Society (B), vol.39, no.1, pp.1-38 (1977) GoogleScholarAll:Maximum Likelihood from Incomplete Data via The EM Algorithm Book/The EM Algorithm and Extensions:定番教科書 Book/計算統計I(統計科学のフロンティア11):日語 渡辺ほか編 EMアルゴリズムと不完全データの諸問題,多賀出版 ISBN: 4-8115-5701-8 Amazon.c

    yuiseki
    yuiseki 2012/08/15
  • python/numpy - 機械学習の「朱鷺の杜Wiki」

    パッケージ† pip や easy_install によるインストールの前に多くの外部ライブラリやfortranコンパイラなどが必要になるので,numpy等の科学技術計算パッケージをインストールするには以下のようなパッケージを一般には利用する: 商用(サポートなしなら無料でも利用できる) Anaconda:無料版でもIntel MKLが使える Enthought Canopy フリー Unofficial Windows Binaries for Python Extension Packages (個人ベースの管理で非公式版) ↑ その他† pyvideo.org:PyCon, SciPy, PyData などの講演ビデオリンク集 100 numpy exercises:練習問題 Pythonidae:Python関連のライブラリのリンク集 SciPy Central:SciPy 関連コ

  • 主成分分析 - 機械学習の「朱鷺の杜Wiki」

    主成分分析 (principal components analysis)† 高次元のデータを,データの分散が最大になるように,低次元のデータに変換する方法.教師なしの次元削減の手法として最も一般的. p次元のデータベクトル \(\mathbf{x}_i\) を\(n\)個集めて, \(n\times p\)のデータ行列 \(X\) を生成. 平均ベクトルは \(\mathbf{\bar{x}}_i=(1/n)\sum_i^n \mathbf{x}_i\). \(\mathbf{1}_n\) を長さが \(n\) の1ベクトルとして,\(\tilde{X}=X - \mathbf{1}_n \mathbf{\bar{x}}^\top\). 共分散行列は \(S=\frac{1}{n}\tilde{X}^\top\tilde{X}\). 共分散行列を次式のように分解する. \[S=A \La

    yuiseki
    yuiseki 2012/06/10
  • 劣モジュラ - 機械学習の「朱鷺の杜Wiki」

    劣モジュラ (submodular)† 離散最適化問題を解くとき,目的関数に劣モジュラ性があれば,多項式時間で解くことができる. 有限集合 \(V\) に対して,その任意の部分集合 \(X\subseteq V\) から実数への関数を \(f(X)\) とする.この関数が劣モジュラ関数であるとは,任意の部分集合 \(X,Y\subseteq V\) に対して次の性質があること: \[f(X)+f(Y)\ge f(X\cap Y)+f(X\cup Y)\] これは次の性質と等価 \[X\subseteq Y\subseteq V,\, x\in V\backslash Y,\;f(X\cup\{x\})-f(X)\ge f(Y\cup\{x\})-f(Y)\] 劣モジュラ関数を最小化する部分集合は,\(|V|\) の5〜6乗の多項式時間で解くことができる. さらに,\(f(X)=f(V\ba

    yuiseki
    yuiseki 2011/03/19
  • RapidMiner - 機械学習の「朱鷺の杜Wiki」

    RapidMiner† Weka の学習ルーチンに,前処理・可視化の部分を強化したYaleが,Rapid-I 社がオープンソースで開発している RapidMiner になった. さらに今は社名も RapidMiner になった. Community Edition は無料でオープンソースで 5.x 6.x 移行は製品で,機能制限版で無償のStarter版と,有償のものとがある.無償版は読めるファイルが CSV/ExcelDBアクセスなしの小規模データのみ. ビデオ: http://www.youtube.com/user/RapidIVideos ↑ しましまの個人的感想† 便利にできている.アルゴリズムをいじらないで分析だけする人にはおすすめ. Helpメニューからは,Wikiやビデオなどの他の資料へのアクセスができる.Wikiは結構ユーザがいることが伺える. 下の方にエラーが出てく

  • DataSet - 機械学習の「朱鷺の杜Wiki」

    テスト用データ集合† アルゴリズムの比較検証に利用できるテスト用データについてまとめましょう. ID は ibis でパスワードは VC 次元の V のフルスペルです(頭だけ大文字)

  • 条件付確率場 - 機械学習の「朱鷺の杜Wiki」

    関連文献† John Lafferty, Andrew McCallum, and Fernando Pereira "Conditional Random Fields: Probabilistic Models for Segmenting and Labeling Sequence Data" ICML2001 GoogleScholarAll:Conditional Random Fields: Probabilistic Models for Segmenting and Labeling Sequence Data C.Sutton and A.McCallum "An Introduction to Conditional Random Fields for Relational Learning":&amazon(0262072882);の一部 Book/Probabili

    yuiseki
    yuiseki 2011/02/05
  • k-means法 - 機械学習の「朱鷺の杜Wiki」

    k-means法 (k-means method)† 次の目的関数を最小化する分割最適化クラスタリングの代表的手法. \[\mathrm{Err}(\{X_i\})=\sum_i^k\;\sum_{\mathbf{x}\in X_i}\;{\|\mathbf{x} - \bar{\mathbf{x}}_i\|}^2\] ただし,データ集合 \(X\) は,ベクトルで表現されたデータ \(\mathbf{x}\) の集合. クラスタ \(X_i\) は,データ集合の網羅的で互いに素な部分集合. \(\bar{\mathbf{x}}_i\) は \(X_i\) 中の重心(セントロイドともいう). \(\|\cdot\|\) はユークリッドノルム. ↑ アルゴリズム† 入力はデータ集合 \(X\) とクラスタ数 \(k\),および最大反復数 maxIter. 初期化:データ集合をランダムに \(

  • アルゴリズム - 機械学習の「朱鷺の杜Wiki」

    2023-12-04 python 2023-11-22 PRML/errata2 2023-11-21 PRML/errata1 2023-11-01 しましま/IBIS2023 2023-10-29 IBIS 2023-06-16 人工知能学会全国大会 2023-06-11 しましま/人工知能学会全国大会2023 2023-03-28 Book 2022-11-27 朱鷺の社 2022-11-24 しましま/IBIS2022 2022-07-08 AutoTicketLinkName 2022-06-17 しましま/人工知能学会全国大会2022 2021-11-13 しましま/IBIS2021 2021-10-29 回帰分析 2021-06-11 しましま/人工知能学会全国大会2021 2021-03-07 MenuBar 2021-02-15 python/numpy 2020-12

  • グラフ - 機械学習の「朱鷺の杜Wiki」

    グラフ (graph)† グラフ G は2項組 (V,E).\(V=(v_1,\ldots,v_n)\) はノード (節点,頂点, node,vertex) の集合,E は辺 (枝,edge,arc,branch) の集合.辺は頂点の対 \((v_i,v_j),\;v_i,v_j\in V\). 辺 \((v_i,v_j)\) と \((v_j,v_i)\) を区別するとき 有向グラフ (directed graph),区別しないとき 無向グラフ (undirected graph) という. 有向のとき辺の向きは \(v_i\) から \(v_j\). 一つのノードに連結している辺の数をそのノードの 次数 (degree). 二つのノードの間に辺があるときこれらのノードは 連結 (connected) である. 辺が有向のとき,辺の向きに沿っているなら 強連結 (strongly con

  • グラフマイニング - 機械学習の「朱鷺の杜Wiki」

    Freeware† ChemCPP:グラフを扱うカーネルのC++ライブラリ GraphStream:グラフの変化をアニメーションしながら描画 JUNG (Java Universal Network/Graph Framework):グラフ処理ライブラリ (java) (Jung@TECHSCORE) igraph:グラフ処理 C, python, R ruby のラッパ PEGASUS:大規模グラフマイニング VGJ:グラフ描画 (java)-Walrus:グラフ描画 (java) ↑ 関連文献† 鹿島 久嗣「グラフマイニング」 鷲尾 隆 "データインテンシブコンピューティング ―その1 離散構造マイニング―" 人工知能学会誌,vol.22, no.2 (2007) 鷲尾 隆 他 "グラフマイニングとその統計的モデリングへの応用" 統計数理, vol.54, no.2 (2007) 猪口

  • バスケットデータ - 機械学習の「朱鷺の杜Wiki」

    バスケットデータ (basket data)† 顧客が一回の取引で購入した商品の集合を集めたデータ.トランザクションデータ (transactional data) という言い方もする. このバスケットデータを対象にしたデータマイニングの分野をマーケットバスケット解析 (market basket analysis)という. 形式的には 取引される全てのアイテムで構成されるアイテム集合 \(\mathcal{I}=\{i_1,i_2,\ldots,i_m\}\). 一回の取引で顧客が購入したアイテムの集合をトランザクション \(T\subset I\). このトランザクションは一意な識別子であるトランザクションID (TID) で区別される. 解析の対象とする全てのトランザクションの集合がバスケットデータ \(D\) この各トランザクションを,顧客の買い物かご(バスケット)の中の商品に見立

  • 敵対的学習 - 機械学習の「朱鷺の杜Wiki」

    敵対的学習 (adversarial learning)† スパムメールの検出や,アクセスログを利用したネットワークからの侵入検出に機械学習技術が利用されている.すると,送信や侵入を企てる敵対者 (adversary) は,意図的に入力パターンを変更して,検出を回避しようとする.こうした,敵対的な環境下での利用を想定した機械学習の研究は敵対的学習 (adversarial learning) や 敵対的環境下での機械学習 (machine learning in adversarial environments) と呼ばれる. 敵対者の攻撃を検出する識別器の頑健性の評価や強化する,敵対者側の立場から識別器を回避する,そして防御側と識別器の間のゲーム理論の立場からの均衡の考察などの研究がある. ここでは,攻撃側の攻撃可能性についての文献1の研究を紹介する. スパムフィルタなどの分類器があり,

  • Weka - 機械学習の「朱鷺の杜Wiki」

    ライブラリ† AlgorithmsForWekaWakka:ファジィc-means法などのファジィ系の手法 BioWeka:バイオインフォマティクス fast-random-forest Fuzzyweka:if-thenルールによるファジィ分類器 jBNC:ベイジアンネットライブラリ HMMWeka:隠れMarkovモデル Olex-GA:文書分類ルールを遺伝的アルゴリズムで獲得 pHMM4weka:隠れMarkovモデルによるタンパク質の分類 Spectral Clusterer for WEKA @ Luigi Dragone:スペクトラルクラスタリング Weka4WS:Grid環境でWekaを実行 WEKA Classification Algorithms:Wekaのプラグイン集.ニューラルネット,学習ベクトル量子化,自己組織化マップなど. Weka LibSVM (WLSVM)

  • 再生核Hilbert空間 - 機械学習の「朱鷺の杜Wiki」

    再生核Hilbert空間 (reproducing kernel Hilbert space)† Hilbert空間 (完備性と可分性をもつ内積が定義されたベクトル空間) の一つで以下のようなもの. 正定値カーネル \(k(x_i,x_j)\) で,次の再生核写像で,元の点 \(x_i\) が高次元空間に写される. \[\Phi:x_i\rightarrow k(x,x_i)\] 空間中のある点 \(x_i\) に対するこの写像の像の線形結合で構成されるベクトル空間が再生核Hilbert空間 \[f(x)=\sum_{i=1}^m\alpha_i k(x,x_i)\] この空間の元 \(f\) について,\(f(x)=\langle f,k(\cdot,x)\rangle\) で関数の値が計算できる再生性が重要.これにより,内積計算が元空間のカーネルで計算できる \[\langle k(\