svm presentation announced at Cyberagent INC in Japan on 04 June 2010
SVMの 2次計画問題に関する解法の考察 東京理科大学工学部経営工学科 沼田研究室 4400079 戸田健一 卒業研究発表 1 発表構成 1. はじめに 2. クラス判別とSVM 2-1. クラス判別問題 2-2. サポートベクターマシン 2-3. 線形分離不可能な場合のSVM 2-4. 非線形SVM 3. 4. 5. 6. 7. Sequential Minimal Optimization(SMO) 2段階SMO 実験 実験結果,考察 まとめ 参考文献 2 1.はじめに パターン認識問題におけるクラス判別手法: サポートベクターマシン(SVM)[1],抄録[3] SVM:2次計画問題を解く →データが多くなるにつれて計算量が非常に多くなる Sequential Minimal Optimization (SMO) [2],[3],抄録[1],[2]: SVMによる2次計画問
Support Vector Machine • C. Cortes and V. Vapnik, Support-Vector Networks, Machine Learning, 20(3):273-297, September 1995 • Vladimir N. Vapnik. The Nature of Statistical Learning Theory. Springer, New York, 1995 http://www.kernel-machines.org/ java applet http://www.csie.ntu.edu.tw/~cjlin/libsvm/ Bio-informatics z Knowledge-based analysis of microarray gene expression data by using support vector
SVMは2次最適化問題になるので、それを勉強してみてはということだったのですが、SVMに特化したSMO(Sequential Minimal Optimisation)アルゴリズムがあるということなので、そちらをやってみました。 SVMの制約条件に というのがあって、yiは正例なら1、負例なら-1となる値なのですが、そうすると、ようするにこの条件は、正例のαの合計と負例のαの合計が等しくなるということを示してるわけです。 この条件をつかうと、ひとつαを操作したときには、ほかのαを操作して、正例と負例のバランスを取る必要があることがわかります。 で、このことを利用して、同時に2つのαを操作することにすると、解析的に一つ目のαが求められて、2つ目のαはそこから足し算引き算で求められてお徳かも、というのがSMOの考え方です。 問題は、いかに効率よく更新する2つのαを決めるかということになります。
潜在的な顧客にいかにその人が欲しい商品を勧めるかは広告主にとって重要な要素である。この手法はインターネットユーザのサイト閲覧履歴やクリック履歴などをもとにユーザの嗜好パターンを学習し、そのユーザが好みそうな商品を推薦するための一般的な手法である。 この手法では、複数のユーザのサイト閲覧履歴データを用いる。図1は、縦軸をユーザ、横軸をWebページとして、履歴のうちどのユーザがどのWebページをクリックしたかを表している。「1」はクリックしたことを表し、「0」はそうでないことを表す。ここで、データの埋まっていない部分について、他人のデータを用いてその人の嗜好を予測するのが本手法である。 このような協調フィルタリングの手法はいくつかあるが、代表的なのが相関係数法である。これは、ユーザAとユーザBの嗜好パターンに高い相関性がある場合に、ユーザAがクリックしたサイトXをユーザBに推薦するという方法で
教師あり学習 † 各手法の詳細やパラメータの変更に関しては、Statistics Toolbox ドキュメント、日本語の解説(最新バージョンには未対応)や、helpコマンド、editコマンドが参考になります。 ↑ 決定木 † Statistics Toolbox が提供している機能です。 参考(関数) 参考(詳細) ウィキペディア「決定木」のゴルフの表 を使って説明します。*1 まずは入力値データ(独立変数)と、結果データ(従属変数)を宣言します。 %独立変数(天気、気温、湿度、風の強さ) meas = [ 1 29 85 1 1 27 90 2 2 28 78 1 3 21 96 1 3 20 80 1 3 18 70 2 2 18 65 2 1 22 95 1 1 21 70 1 3 24 80 1 1 24 70 2 2 22 90 2 2 27 75 1 3 22 80 2 ]
k平均法(kへいきんほう、英: k-means clustering)は、非階層型クラスタリングのアルゴリズム。クラスタの平均を用い、与えられたクラスタ数k個に分類することから、MacQueen がこのように命名した。k-平均法(k-means)、c-平均法(c-means)とも呼ばれる。 何度か再発見されており、まず、Hugo Steinhusが1957年に発表し[1]、Stuart Lloydが1957年に考案し、E.W.Forgyが1965年に発表し[2]、James MacQueenが1967年に発表しk-meansと命名した[3]。 数式で表現すると、下記最適化問題を解くアルゴリズム[4]。本アルゴリズムでは最小値ではなく初期値依存の極小値に収束する。 単純なアルゴリズムであり、広く用いられている。分類をファジィ化したファジィc-平均法やエントロピー法をはじめ、データ構造を発見す
クラスタリング (clustering) とは,分類対象の集合を,内的結合 (internal cohesion) と外的分離 (external isolation) が達成されるような部分集合に分割すること [Everitt 93, 大橋 85] です.統計解析や多変量解析の分野ではクラスター分析 (cluster analysis) とも呼ばれ,基本的なデータ解析手法としてデータマイニングでも頻繁に利用されています. 分割後の各部分集合はクラスタと呼ばれます.分割の方法にも幾つかの種類があり,全ての分類対象がちょうど一つだけのクラスタの要素となる場合(ハードなもしくは,クリスプなクラスタといいます)や,逆に一つのクラスタが複数のクラスタに同時に部分的に所属する場合(ソフト,または,ファジィなクラスタといいます)があります.ここでは前者のハードな場合のクラスタリングについて述べます.
k-means法 (k-means method)† 次の目的関数を最小化する分割最適化クラスタリングの代表的手法. \[\mathrm{Err}(\{X_i\})=\sum_i^k\;\sum_{\mathbf{x}\in X_i}\;{\|\mathbf{x} - \bar{\mathbf{x}}_i\|}^2\] ただし,データ集合 \(X\) は,ベクトルで表現されたデータ \(\mathbf{x}\) の集合. クラスタ \(X_i\) は,データ集合の網羅的で互いに素な部分集合. \(\bar{\mathbf{x}}_i\) は \(X_i\) 中の重心(セントロイドともいう). \(\|\cdot\|\) はユークリッドノルム. ↑ アルゴリズム† 入力はデータ集合 \(X\) とクラスタ数 \(k\),および最大反復数 maxIter. 初期化:データ集合をランダムに \(
集合知プログラミング を読んでいたら、K-means 法(K平均法)の説明が出てきました。K-means 法はクラスタリングを行うための定番のアルゴリズムらしいです。存在は知っていたんだけどいまいちピンときていなかったので、動作を理解するためにサンプルを作ってみました。クリックすると1ステップずつ動かすことができます。クラスタの数や点の数を変更して、RESET を押すと好きなパラメータで試すことができます。こうやって1ステップずつ確認しながら動かしてみると、意外に単純な仕組みなのが実感できました。K-means 法とはK平均法 - Wikipedia に詳しく書いてあるけど、もうすこしザックリと書くとこんなイメージになります。各点にランダムにクラスタを割り当てるクラスタの重心を計算する。点のクラスタを、一番近い重心のクラスタに変更する変化がなければ終了。変化がある限りは 2. に戻る。これ
《 ご案内 》サーチエンジンから直接入ってきた人は、フレームで目次を示していますからこれで目次表示にするとタコ国全体が見やすいです。ここは 9 章から入ります。 ここは 多次元の相関 と 因子負荷量解析 の説明です。 2次元の相関係数の性質や証明は8章へ。 主成分分析の次元縮小(or 縮約)の説明は主成分スコアの計算方法だから4章へ。 相関分析の限界なら4章Q&Aへ。 エクセルで3次元の層別散布図や等高線図(コンター)を描く手順は(おまけ)へ。 正の相関、負の相関という概念を、3次元以上の空間に適用すればどうなるでしょうか? 2次元の平面では4象限ですが、3次元では8象限になります。直線のある位置を正、負だけでは扱えなくなるのは容易にわかりますね。 ちょっとおさらいをしようね。相関係数では共分散を計算して正負を決めるのだから、座標の原点は当然重心ですね。そしてここで描いている座標軸は、偏差
問題発見技法 2010/6/26 1 2010年6月29日(火) 問題発見技法 6 6.クラスタ分析 .クラスタ分析 情報学部 堀田敬介 クラスタ分析 Contents • • クラスタ クラスタ分析 分析 1 クラスタ分析概要 1. クラスタ分析概要 2. 類似度の測定 3. クラスタ化の方法の決定(類似度更新法) • • クラスタ分析 クラスタ分析〔 〔階層的方法 階層的方法〕 〕の実施 の実施 4. Excelで計算したクラスタ分析,Rによるクラスタ分析 5. クラスター分析実施上の注意点 • • クラスタ分析 クラスタ分析〔 〔非階層的方法 非階層的方法〕 〕 6. 非階層的クラスター分析〔K-means法〕 7. Rによるクラスター分析〔K-means法〕 問題発見技法 2010/6/26 2 1.クラスタ分析概要 クラスタ分析とは? 複数の対象(もの,変数など)を,そ どれとど
1. テキストのクラスター分析 図書館の図書は何らかの基準に従ってグル ープ分けされており、新聞の紙面は総合、社 会、経済、国際、生活、料理、スポーツ、地 域などに分けられている。図書は司書らが、 新聞の紙面は編集者たちがグループ分けして いる。しかし、インターネット上の大量のテ キストを何らかの特徴別にグループ分けする 場合、すべての内容を読み、グループ分けす ることは現実的ではない。また、人為的にグ ループ分けすることは読む側の主観的な印象 や認識などに左右されるため、客観的なグル ープ分けが求められている。 本稿では、テキストがどのグループに属す るかに関する情報(外的規準と呼ぶ)を用い ずにグループ分けする方法を説明する。この ようなグループ分けの方法をクラスター分析 と呼ぶ。テキストのクラスター分析には、主 に次のようなアプローチが多用されている。 ¸ 個体の特徴の情報に基づい
キーボードを、持ち歩く。 久しぶりに、スマホ用のキーボードを使ってブログを書いている。 いくつかキーが壊れてしまっているので買い替えないといけないのだが、壊れるくらいには使い込んでいたんだなと思った。 当時は、今のようにPCを普段から持ち歩くことが少なかったので、出先でもブログ…
Kendallの一致係数W(ノンパラメトリック法) Kendallでは関連多群での相関を判定することができる。なお、これはノンパラメトリック法である。 ・仮説の設定 帰無仮説(H0):「相関はない」と仮定する。 対立仮説(H1):「相関はある」と仮定する。 ・確率を求める ○行(要因B)を検定する場合 列(要因A)の各群ごとに順位をつける。その後、順位を足してRiを求める。 (行数をk,列数をnとする) ○列(要因A)を検定する場合 行(要因B)の各群ごとに順位をつける。その後、順位を足してRiを求める。 (行数をn,列数をkとする) ※ここまでの手順はFriedman検定のときと同じである Riを求めたら、Riの偏差平方和Sを次の式によって求める。 ※別に求めなくてもよいが、を使って偏差平方和Sを求める場合は下の式を使って導き出す。 偏差平方和Sを求めたら次の公式によってWを求める。なお
二値変数 (binary variable)† 二値変数とは二つの値をとりうるカテゴリ変数.数値として扱う場合は 0/1 または +1/-1 で符号化する. 対称な二値変数: 男性/女性などどちらの値も同じ重みの二値変数.男性=0,女性=1と符号化しても,男性=1,女性=0 と符号化しても類似度などが変化しないようにする. indicatingな二値変数: ある性質(例:クエリのレコードへの適合)を持つか,持たないかという重要性に差がある二値変数.ある性質があるときを1,そうでないときを0と符号化したなら,二つの二値変数が両方とも1であるときの方が,両方とも0であるときより類似しているように符号化する. ↑ 二値変数の類似度† \(m\)個の0/1の値をとる二値変数のベクトル \(\mathbf{x}\) と \(\mathbf{y}\) の類似度を考える. \(i=1,\ldots,m\
図書館の図書は何らかの特徴別にグループ分けしており、新聞の紙面は総合、社会、経済、国際、生活、料理、スポーツ、地域などに分けられている。図書は図書館の管理者が、新聞の紙面は編集者たちがグループ分けしている。しかし、インターネット上の大量のテキストを何らかの特徴別にグループ分けする場合、すべての内容を読み、グループ分けすることは現実的ではない。また、人為的にグループ分けすることは読む側の主観の印象や認識などに左右されるため、客観的なグループ分けが求められている。 本稿では、テキストがどのグループに属するかに関する情報(外的規準とよぶ)を用いずにグループ分けする方法を説明する。このようなグループ分け方法をクラスター分析と呼ぶ。テキストのクラスター分析は、主に次のようなアプローチ多用されている。 (1)個体の特徴の情報に基づいて、平面や立体空間上で散布図を作成し、分布状況からクラスターの形成状況
とりあえず、一番簡単な理論から出発しようと思う。 生まれた時刻をt=0とする。 そして、死ぬ時をt=Tとする。 また、時刻tにおける、幸せの度合いを関数s=s(t)とする。 s(t)が大きければ大きいほど時刻tでの幸せの度合いも大きいものとする。 このとき、人生の価値をIとすると I = ∫dt s(t) (積分範囲は0<t<T) …① この定義が最も簡単な、人生の価値の尺度になると思う。 この式が表しているのは、見ての通り、Iを大きくさせればそれだけ生きた価値も上るということなのだけど、この方法には大きくは2つの方法がある。 一つ目は0<t<Tのその時々でのs(t)を大きくすること。 ここで大事なのは、ある時刻tのみで大きくするのでは決してないということだ。一瞬の幸せではなく、積分としての幸せの総量が大事だってこと。 そして、二つ目は積分範囲を広げること。つまりTをできるだけ大きく、要す
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く