タグ

ブックマーク / ibisforest.org (15)

  • FrontPage - 情報論的学習理論と機械学習の「朱鷺の杜Wiki」

    朱鷺の杜Wiki(ときのもり うぃき)† 朱鷺の杜Wikiは,機械学習に関連した,データマイニング,情報理論,計算論的学習理論,統計,統計物理についての情報交換の場です.これら機械学習関係の話題,リンク,関連事項,書籍・論文紹介などの情報を扱います. 更新されたページを確認するにはRSSリーダを使って右下のRSSリンクをチェックするか,最終更新のページを参照してください. ページの中でどこが更新されたかを見るには,上の「差分」をクリックして下さい. 数式の表示に MathJax を利用しています.数式の上でコンテキストメニューを使うと各種の設定が可能です.特に設定をしなくても数式は閲覧できますが,フォントをインストールすれば数式の表示がきれいで高速になります.詳しくは 数式の表示 のページを参照して下さい. ごく簡単なWikiの使い方がこのページの最後にあります.トップページやメニューなど

  • python - 機械学習の「朱鷺の杜Wiki」

    python一般† python.org:公式サイト Wiki Package Index iOS用Python環境 Computable Python for iOS Python Math PyPad Pythonista 英語資料 Python Course:Python のいろいろなトピックについての講義を集めたサイト Python Quick Reference @ Richard Gruet (旧版 日語訳) Google's Python Class OLamp.com -- Python Dev Center:O'Reillyのpython関連ニュース Python Miro Community:チュートリアル講演ビデオのポータル Wikipedia:Python_(programming_language) Python tools that everyone shou

  • F値 - 機械学習の「朱鷺の杜Wiki」

    正解率 (精度, accuracy):正や負と予測したデータのうち,実際にそうであるものの割合 \[\mathrm{Accuracy}=\frac{TP+TN}{TP+FP+TN+FN}\] 適合率 (precision):正と予測したデータのうち,実際に正であるものの割合 \[\mathrm{Precision}=\frac{TP}{TP+FP}\] 再現率 (recall, 感度, sensitivity):実際に正であるもののうち,正であると予測されたものの割合 \[\mathrm{Recall}=\frac{TP}{TP+FN}\] 特異度 (specificity):実際に負であるもののうち,負であると予測されたものの割合 \[\mathrm{Specificity}=\frac{TN}{FP+TN}\] F値 (F尺度, F-measure):再現率と適合率の調和平均. \[\

  • 単純ベイズ - 機械学習の「朱鷺の杜Wiki」

    単純ベイズ (naive Bayes)† クラス \(c_1,c_2,\ldots,c_M\) のいずれかに,事例 \(\mathbf{x}\) を分類する場合を考える.\(\mathbf{x}\) が \(K\)個の特徴 \((x_1,\ldots,x_K)\) で記述され,この事例の特徴の値は \(v_{1l_1},\ldots,v_{Kl_K}\) になっているとしよう. このとき,次式によって事例 \(x_i\) をクラスに分類する方法を単純ベイズ分類器 (naïve Bayes classifier) や 単純ベイズ法 と呼ぶ. \[\arg\max_{c_k} \Pr[C=c_k] \prod_{j=1}^K \Pr[x_{j}=v_{jl_j}|C=c_k]\] このモデルではクラスが与えられたときの,各特徴量の条件付独立が仮定されている. \[\Pr[x_i|c_k]=\p

  • k-means法 - 機械学習の「朱鷺の杜Wiki」

    k-means法 (k-means method)† 次の目的関数を最小化する分割最適化クラスタリングの代表的手法. \[\mathrm{Err}(\{X_i\})=\sum_i^k\;\sum_{\mathbf{x}\in X_i}\;{\|\mathbf{x} - \bar{\mathbf{x}}_i\|}^2\] ただし,データ集合 \(X\) は,ベクトルで表現されたデータ \(\mathbf{x}\) の集合. クラスタ \(X_i\) は,データ集合の網羅的で互いに素な部分集合. \(\bar{\mathbf{x}}_i\) は \(X_i\) 中の重心(セントロイドともいう). \(\|\cdot\|\) はユークリッドノルム. ↑ アルゴリズム† 入力はデータ集合 \(X\) とクラスタ数 \(k\),および最大反復数 maxIter. 初期化:データ集合をランダムに \(

  • Paper - 機械学習の「朱鷺の杜Wiki」

    その他の論文紹介一覧† Paper/AAAI-1998-p792 - Learning to Classify Text from Labeled and Unlabeled Documents Paper/ACL-2007-p256 - Frustratingly Easy Domain Adaptation Paper/bias-on-the-web - #author("2020-10-16T22:51:01+00:00","default:ibisforest","ibisforest") Paper/DataMiningAndKnowledgeDiscovery-6-p303 - Techniques of Cluster Algorithms in Data Mining Paper/ICDM-2003-p115 - Clustering of Time-Series Subs

  • PRML - 朱鷺の杜Wiki パターン認識と機械学習 - ベイズ理論による統計的予測

    パターン認識と機械学習 - ベイズ理論による統計的予測† This is a support page for the Japanese edition of "Pattern Recognition and Machine Learning" authored by C. M. Bishop. 書は,Christopher M. Bishop 著「Pattern Recognition and Machine Learning」の日語版です.上下2巻の構成です. パターン認識や機械学習の各種のアルゴリズムや背後の考えについて,ベイズ理論の観点から解説した教科書です. 基礎的な線形モデルから,カーネルトリック,グラフィカルモデル,MCMCなどの発展的な話題までをバランス良く収録しています. 数式による形式的な記述だけにとどまらず,豊富なカラーの図による直観的な説明もなされています.

  • ブートストラップ - 機械学習の「朱鷺の杜Wiki」

    ブートストラップサンプリング† サンプル集合 \(X=\{x_i\}^N\) から,重複を許してサンプリングして新たなサンプル集合 X' を作る方法 ↑ ブートストラップ法† 与えられたサンプル集合 X を用いて,学習器の汎化 e* を推定する方法 \(i = 1,\ldots,m\) について以下の値を計算 X からブートストラップサンプリング でサンプル集合 X'i を生成 訓練集合に X'i を,テスト集合に X を使って推定したエラーを \(e_i\) 訓練集合に X'i を,テスト集合に X'i を使って推定したエラーを \(\hat{e}_i\) 汎化誤差と経験誤差の差 \(R_i=e_i-\hat{e}_i\) を計算 訓練集合に X を,テスト集合に X を使って推定したエラーを \(e\) 汎化誤差の推定値は \(e + \frac{1}{n}\sum_i^n R_i\)

    Naruhodius
    Naruhodius 2012/01/22
    ナルホディウス
  • PAC学習 - 機械学習の「朱鷺の杜Wiki」

    PAC学習 (probably approximately correct learning)† パラメータ:入力の誤差 \(\epsilon\),信頼度 \(\delta\),学習する概念の複雑さの上限 \(s\). 学習する概念についてのエラーがたかだか \(\epsilon\) である確率が \(1-\delta\) 大きくなるような仮説を出力できるアルゴリズムが存在するとき PAC学習可能 (probably approximately correct learnable). こうした学習問題を扱うのがPAC学習 (probably approximately correct learning) さらに,\(1/\epsilon\),\(1/\delta\),\(s\) について,計算時間が多項式時間で抑えられるとき,多項式時間PAC学習可能であるという. -- しましま ↑

    Naruhodius
    Naruhodius 2011/11/24
    ほう
  • English - 機械学習の「朱鷺の杜Wiki」

    辞書など† Native Checker WWW検索で得られた英文を元に英語の表現の適切さをチェックする grammarly:文法チェッカ Microsoft Research ESL Assistant 英文校正ツール コーパスシ・ソーラス corpus.byu.edu:年代や米英の別ごとにいくつかのコーパスがある Thesaurus.com:類義語辞典 Synonym.com:類義語辞典 文脈検索 exemplar - words in context:単語が利用されている文脈を検索 英語例文検索 EReK PoEC:計算言語学関連 AntConc:コーパステキストからの文脈検索 IdiomDictionary.com:イディオム専用の辞書 英辞郎 共同作業で制作された英和辞書 LInguee:日英辞書 wwwjdic 英語の日英辞書 研究者のための英文校正比較 ↑ 機械学習,統計,デ

  • 敵対的学習 - 機械学習の「朱鷺の杜Wiki」

    敵対的学習 (adversarial learning)† スパムメールの検出や,アクセスログを利用したネットワークからの侵入検出に機械学習技術が利用されている.すると,送信や侵入を企てる敵対者 (adversary) は,意図的に入力パターンを変更して,検出を回避しようとする.こうした,敵対的な環境下での利用を想定した機械学習の研究は敵対的学習 (adversarial learning) や 敵対的環境下での機械学習 (machine learning in adversarial environments) と呼ばれる. 敵対者の攻撃を検出する識別器の頑健性の評価や強化する,敵対者側の立場から識別器を回避する,そして防御側と識別器の間のゲーム理論の立場からの均衡の考察などの研究がある. ここでは,攻撃側の攻撃可能性についての文献1の研究を紹介する. スパムフィルタなどの分類器があり,

  • 再生核Hilbert空間 - 機械学習の「朱鷺の杜Wiki」

    再生核Hilbert空間 (reproducing kernel Hilbert space)† Hilbert空間 (完備性と可分性をもつ内積が定義されたベクトル空間) の一つで以下のようなもの. 正定値カーネル \(k(x_i,x_j)\) で,次の再生核写像で,元の点 \(x_i\) が高次元空間に写される. \[\Phi:x_i\rightarrow k(x,x_i)\] 空間中のある点 \(x_i\) に対するこの写像の像の線形結合で構成されるベクトル空間が再生核Hilbert空間 \[f(x)=\sum_{i=1}^m\alpha_i k(x,x_i)\] この空間の元 \(f\) について,\(f(x)=\langle f,k(\cdot,x)\rangle\) で関数の値が計算できる再生性が重要.これにより,内積計算が元空間のカーネルで計算できる \[\langle k(\

  • Book/データマイニングの基礎 - 機械学習の「朱鷺の杜Wiki」

    キーワード† データマイニング, 知識発見, 決定木, CART, ID3, 単純ベイズ, 最近傍法, 相関ルール, Apriori, アンサンブル学習, バギング, ブースティング, ランダムフォレスト, クラスタリング, 凝集型階層的クラスタリング, k-means法, ファジィc-means法, 混合分布, EMアルゴリズム, SVM, カーネル, 帰納論理プログラミング, FOIL, 数値属性の離散化, 特徴選択, 特徴抽出, 事例選択, 交差確認, ブートストラップ, 検定, 精度, 再現率, ROC曲線, 多重比較, 順位相関係数, 最尤推定, AIC, MDL, BIC ↑ メモ† データマイニングについて,初学者向き(学部3回〜修士1回)に書かれた.現在,初学者には最も薦められるだと思う. アルゴリズムの説明だけではなく,実際にデータから知識発見を行う過程を重視している

  • Book/Data Mining - Practical Machine Learning Tools and Techniques - 機械学習の「朱鷺の杜Wiki」

    第3版† #amazon(0123748569) @Book{book, author = "I. H. Witten and E. Frank and M. A. Hall", title = "Data Mining: Practical Machine Learning Tools and Techniques", publisher = "Morgan Kaufmann", year = 2011, edition = "third" }

  • 頻出パターンマイニング - 機械学習の「朱鷺の杜Wiki」

    頻出パターンマイニング (frequent pattern mining)† データ集合中で,一定頻度以上で現れるパターンを列挙・抽出する手法.クラスタリングと並ぶ代表的な教師なし学習.頻出パターン抽出 (frequent pattern extraction) などともいう. 相関ルールのマイニングでは,支持度や確信度がしきい値以上の相関ルールを列挙する. 時系列,系列データ,グラフマイニング,半構造データマイニングなどでも代表的な手法.頻出する部分系列,部分グラフ,部分木などを列挙したり,一つ見つけたりする. 実数空間では,データの密度関数の極大部分を見つけることともみなせ,バンプハンティング (bump hunting)などともいう. -- しましま ↑

    Naruhodius
    Naruhodius 2009/07/10
    ⊂(╹ 、╹)っ♂ ナルホディウス!
  • 1