タグ

ブックマーク / y-uti.hatenablog.jp (6)

  • Soft Confidence-Weighted Learning の実装 - y_uti のブログ

    [2017-03-20] アルゴリズムと実装の対応など、全体的に説明を補強しました。 Soft Confidence-Weighted (SCW)[1] を実装して、Iris データセットを分類する様子を観察します。SCW-I と SCW-II のほかに Confidence-Weighted (CW)[2], Adaptive Reguralization of Weight Vectors (AROW)[3] も実装して、それぞれの動作を比較します。実装にあたっては『オンライン機械学習』と各アルゴリズムの論文を参考にしました。 www.kspub.co.jp 参考にした論文は以下のとおりです*1*2。 [1] J. Wang, P. Zhao, and S. C. H. Hoi. Exact soft confidence-weighted learning. ICML 2012. [

  • ロジスティック回帰のコスト関数を眺める - y_uti のブログ

    先月から、Andrew Ng 先生による Coursera の機械学習のコースを受講しています。各週 1 コマの分量になるように構成されていて、動画による説明を聴き、その週の範囲に関する宿題を提出しながら進めていく形式です。現在、第 3 週のロジスティック回帰まで進んだところです。そこで今回は、ロジスティック回帰について MATLAB でグラフを描きながら遊んでみます。なお、第 3 週の後半では正則化の話があるようですが、実はまだ前半しか終えていないので、今回の記事では正則化については考えません。 www.coursera.org ロジスティック回帰は、判別問題に適用される手法です。 と の関係を次の式で予測します*1。 は、ある で となる確率を予測する関数で、 のときに と、そうでないときに と判別します。 による予測がどのくらい当たるかは、パラメータ の値に依存します。 組のデータ

  • BoW 特徴量に対するロジスティック回帰分析の過学習 - y_uti のブログ

    ここ数回の記事で『言語処理 100 ノック』の第 8 章、ロジスティック回帰による極性分析の問題に取り組みましたが、正則化無しでも交差検定での正解率があまり変わらないという結果が得られました*1。今回は、このことについて詳細に調べてみます。 データの準備 前回までの記事では PHP で独自に実装したロジスティック回帰を用いましたが、今回は scikit-learn が提供している実装を利用します。パラメータを変えながら実験を繰り返すには、PHP での素朴な実装では計算時間がかかりすぎるためです。 まず全体の準備として、NumPy と pyplot を import します。また、グラフのラベルに日語を利用できるように FontProperties を作成しておきます。 import numpy as np import matplotlib.pyplot as plt from mat

    BoW 特徴量に対するロジスティック回帰分析の過学習 - y_uti のブログ
  • Rand index によるクラスタリング間の類似度の算出 - y_uti のブログ

    データのクラスタリング間の類似度を測る尺度として、ランド指数 (Rand Index) というものがあるようです。プログラムを書きながら試してみたので、実例とともに計算方法をまとめてみたいと思います*1。なお Wikipedia英語ページは以下にあります。日語ページは未作成のようです。 Rand index - Wikipedia, the free encyclopedia クラスタリングの対象になるような手ごろなデータがないかと探してみたところ、国土地理院のウェブページで都道府県庁所在地の緯度経度座標が公開されているのを見つけました。今回はこのデータを使ってみることにします。 都道府県庁の経度緯度 まずは HTML ファイルを取得して、この後の処理で使いやすいように csv 形式に変換しておきます。元データは緯度経度が「度分秒」の形式になっていますが、これも十進法に変換しておきま

    Rand index によるクラスタリング間の類似度の算出 - y_uti のブログ
  • k-medoids 法と DTW による時系列データのクラスタリング - y_uti のブログ

    過去の台風の経路情報を題材として、k-medoids 法による時系列データのクラスタリングを試してみました。距離の尺度には、以前の記事*1でも試した Dynamic Time Warping (DTW) を利用しました。K-medoids 法と DTW については、それぞれ Wikipedia に説明があります。 k-medoids - Wikipedia, the free encyclopedia Dynamic time warping - Wikipedia, the free encyclopedia 結果は次のようになりました。気象庁の台風位置表 (http://www.data.jma.go.jp/fcd/yoho/typhoon/position_table/) から過去の台風の経路情報を取得して、k-medoids 法で 5 クラスタに分類した結果です。今回の記事では、こ

    k-medoids 法と DTW による時系列データのクラスタリング - y_uti のブログ
  • プログラマのための文書推薦入門 (社内勉強会の発表資料) - y_uti のブログ

    勤務先の社内勉強会で、機械学習を用いた文書推薦*1に関する基的なことがらについて説明しました。その資料を公開します。 プログラマのための文書推薦入門 from y-uti 数学やコンピュータサイエンスを専門的に学んでいないエンジニアでも理解しやすいように、できるだけ数式を使わずに説明したつもりです。厳密性にはこだわっていないので、専門家からはあちこちツッコミを受ける内容かもしれません。 プログラマ向けということで、実際にコンピュータ上で動作を確認できるように、Wikipedia のデータを対象にして類似文書検索を行うスクリプトを作成しました。GitHub に置いてあります。 y-uti/document-recommendation · GitHub *1:推薦というより情報検索、類似文書検索という方が適切だったかもしれません。

    プログラマのための文書推薦入門 (社内勉強会の発表資料) - y_uti のブログ
  • 1