[B! algorithm][Algorithm] [2ページ] iqmのブックマーク

k-means法 - 機械学習の「朱鷺の杜Wiki」

k-means法 (k-means method)† 次の目的関数を最小化する分割最適化クラスタリングの代表的手法． \[\mathrm{Err}(\{X_i\})=\sum_i^k\;\sum_{\mathbf{x}\in X_i}\;{\|\mathbf{x} - \bar{\mathbf{x}}_i\|}^2\] ただし，データ集合 \(X\) は，ベクトルで表現されたデータ \(\mathbf{x}\) の集合．クラスタ \(X_i\) は，データ集合の網羅的で互いに素な部分集合． \(\bar{\mathbf{x}}_i\) は \(X_i\) 中の重心(セントロイドともいう)． \(\|\cdot\|\) はユークリッドノルム． ↑ アルゴリズム† 入力はデータ集合 \(X\) とクラスタ数 \(k\)，および最大反復数 maxIter．初期化：データ集合をランダムに \(

iqm 2009/05/11

algorithm

リンク

凝集法とk-means法

凝集法とk-means法千田智治, 廣安知之, 三木光範 ISDL Report　 No. 20081014002 2008年 7月 5日 Abstract クラスタリング手法は大きく, 階層型クラスタリングと非階層型クラスタリングの2つに分類される. 有名なクラスタリング手法として, 階層型クラスタリングでは凝集法, 非階層型クラスタリングではk-means法がある. 本報告では, この2つのクラスタリングに注目して, アルゴリズムの説明と, 各クラスタリングにどのような違いがあるのか様々なデータを用いて比較した. 1 はじめにクラスタリング手法は大きく, 階層型クラスタリングと非階層型クラスタリングの2つに分類される. 有名なクラスタリング手法として, 階層型クラスタリングでは凝集法, 非階層型クラスタリングではk-means法がある. 本報告では, この2つのクラス

iqm 2009/05/11

algorithm

リンク

Perceptron を手で計算して理解してみる (nakatani @ cybozu labs)

Perceptron の実装とか見ると、ものすごく簡単なので、本当にこれで学習できちゃうの？　と不安になってしまいました(苦笑)。こういうときは、実際にパーセプトロンが計算しているとおりに、紙と鉛筆で計算してみて、期待する結果が出てくることを確認してみたくなります。参照する教科書は「パターン認識と機械学習・上」(PRML) の「 4.1.7 パーセプトロンアルゴリズム」。短い節です。必要最低限のことを一通り書いてある感じかな。計算に用いるサンプルですが、手で計算できる規模でないといけないので、論理演算の AND を試してみることにします。簡単に勉強ちゃんとした説明は PRML などを見て欲しいですが、とても簡単にまとめます。２値の線形識別モデルは、N 次元空間内を (N-1) 次元の超平面(決定面)で分割することで、入力ベクトル x から得られる特徴ベクトル φ(x) が２つ

iqm 2009/04/28

algorithm

リンク

シムシティーの仕組み

シムシティーを作り始めていちばん最初に考えたのは、街を一種の生き物のように表現できないかってことだった。僕が街についてどう考えているかはすでに説明したけど、大事なのは街を構成する建物とか道路じゃなくって、そこでどんな活動が行なわれているかってことだと思うんだ。道路を車が走り、電車が動き、人々が動き回り、常に要素が変化し続ける“動きのある”システム。街を表現する方法っていうと誰でも地図を思い浮かべると思うけど、僕は動きがない地図じゃなくって、たとえば飛行機から眺めた街、動きのある世界をディスプレイに表現しようって考えた。それこそが僕の考える街の姿だからね。それともう一つ考えたことは、プレイヤーに伝える情報をできるだけわかりやすく、それも“面白い”って思えるような形で表現しようってことだった。シミュレーション・ソフトっていうとたいてい数値や図表がたくさん出てくるけれど、数字が並んでいるのを

iqm 2009/04/22

リンク

Aho Corasick 法 - naoyaのはてなダイアリー

適当な単語群を含む辞書があったとします。「京都の高倉二条に美味しいつけ麺のお店がある」*1という文章が入力として与えられたとき、この文章中に含まれる辞書中のキーワードを抽出したい、ということがあります。例えば辞書に「京都」「高倉二条」「つけ麺」「店」という単語が含まれていた場合には、これらの単語(と出現位置)が入力に対しての出力になります。この類の処理は、任意の開始位置から部分一致する辞書中のキーワードをすべて取り出す処理、ということで「共通接頭辞検索 (Common Prefix Search)」などと呼ばれるそうです。形態素解析、Wikipedia やはてなキーワードのキーワードリンク処理などが代表的な応用例です。 Aho Corasick 法任意のテキストから辞書に含まれるキーワードをすべて抽出するという処理の実現方法は色々とあります。Aho Corasick 法はその方法のひと

iqm 2009/04/07

リンク

Hadoop、hBaseで構築する大規模分散データ処理システム

CodeZine編集部では、現場で活躍するデベロッパーをスターにするためのカンファレンス「Developers Summit」や、エンジニアの生きざまをブーストするためのイベント「Developers Boost」など、さまざまなカンファレンスを企画・運営しています。

iqm 2009/04/03

リンク

多Byte文字コードの圧縮 - シリコンの谷のゾンビ

ひょんなことから気になって調べてみたので結果を記録． Shift-JISやEUC-JPは日本語を2Byteで表現する．同じテキストをShift-JISで表現しようが，EUC-JPで表現しようがサイズは同じになる．けれど，多バイト文字コードのことなんて考えないASCIIな世界の人たちがLZ法のような辞書式アルゴリズムを実装した場合，1バイト単位で処理するから文字コードの差が出るのではないかとふと思った．そういうときは論よりRun．同じテキストを異なる文字コードで表現した際の圧縮サイズを比較してみた．対象テキストは，みんな大好き夏目漱石「こころ」圧縮アルゴリズムはgzip (LZ77+Huffman) --bestオプション付き元サイズ kokoro.txt.sjis 368051 byte kokoro.txt.euc 368051 byte 当然同じ．圧縮後 kokoro.t

iqm 2009/04/03

algorithm

リンク

データ量を操る圧縮／展開を究めよう

というふうに変換します。文字数で比較してみると、圧縮前は14文字でしたが圧縮後は6文字と半分以下になっています。圧縮後のデータから元のデータに戻すことも容易にできます。ランレングス法の実装それでは早速、ランレングス法を実装してみましょう。サンプルデータは某巨大掲示板から引用しました。 <html> <head> <script type="text/javascript"> function getStringById(id) { var element = document.getElementById(id); return element.innerHTML; } </script> </head> <body> <div id="area1"> <pre> ＿＿＿＿＿＿＿＿　　　　　　　　　　　　　＿＿＿＿＿＿＿＿（＿＿＿＿＿　　　＼　　　　 ⊂⊃　　　　／　　　　＿＿＿

iqm 2009/03/05

リンク

るびま

『るびま』は、Ruby に関する技術記事はもちろんのこと、Rubyist へのインタビューやエッセイ、その他をお届けするウェブ雑誌です。 Rubyist Magazine について『Rubyist Magazine』、略して『るびま』は、日本 Ruby の会の有志による Rubyist の Rubyist による、Rubyist とそうでない人のためのウェブ雑誌です。最新号 Rubyist Magazine 0058 号バックナンバー Rubyist Magazine 0058 号 RubyKaigi 2018 直前特集号 Rubyist Magazine 0057 号 RubyKaigi 2017 直前特集号 Rubyist Magazine 0056 号 Rubyist Magazine 0055 号 Rubyist Magazine 0054 号東京 Ruby 会議 11 直

iqm 2009/02/22

リンク

K-means法によるクラスタリングのスマートな初期値選択を行うK-means++ - kaisehのブログ

K-means法は、入力データからK個のランダムな個体を初期クラスタの中心として選択し、以降、クラスタの重心を移動させるステップを繰り返すことでクラスタリングを行う非階層的手法です。K-means法はシンプルで高速ですが、初期値依存が大きいのが弱点で、不適切な初期値選択をすると間違った解に収束してしまいます。以下は、Introduction to Information Retrievalの16章に出てくる例です。 {d1, d2, ..., d6}をK=2でクラスタリングする場合、{{d1, d2, d4, d5}, {d3, d6}}が大域最適解ですが、初期クラスタの中心をd2, d5で与えると、{{d1, d2, d3}, {d4, d5, d6}}という誤った解に収束してしまいます。この問題を改善するK-means++という手法を見つけたので、試してみました。 K-means+

iqm 2009/01/21

algorithm

リンク

Home - Make: DIY Projects and Ideas for Makers

Build a Bamboo Garden Gate Cut, join, and weave bamboo to make a beautiful shiorido tea garden gate. This lightweight partition uses traditional Japanese techniques to make a gorgeous gate from simple, sustainable materials.

iqm 2008/12/19

algorithm

リンク

しかしSVMも最近は速いらしい - 射撃しつつ前転改

Complement Naive BayesがSVMより速いよーと主張していたので、SVMもなんか最近は速くなってるらしいよ、という事を紹介してみたい。近年はSVMなどの学習を高速に行うという提案が行われており、実装が公開されているものもある。その中の一つにliblinearという機械学習ライブラリがある。ライブラリ名から推測できる通り、liblinearではカーネルを使うことが出来ない。しかし、その分速度が速く、大規模データに適用できるという利点がある。 liblinearを作っているのはlibsvmと同じ研究グループで、Chih-Jen Linがプロジェクトリーダーであるようだ。libsvmはかなり有名なライブラリで、liblinearにはそういった意味で安心感がある。（liblinearの方は公開されてしばらくは割とバグがあったらしいけど。） liblinearにはL1-SVM, L

iqm 2008/12/19

algorithm

リンク

新はてなブックマークでも使われてるComplement Naive Bayesを解説するよ - 射撃しつつ前転改

新はてブ正式リリース記念ということで。もうリリースから何週間も経っちゃったけど。新はてなブックマークではブックマークエントリをカテゴリへと自動で分類しているが、このカテゴリ分類に使われているアルゴリズムはComplement Naive Bayesらしい。今日はこのアルゴリズムについて紹介してみる。 Complement Naive Bayesは2003年のICMLでJ. Rennieらが提案した手法である。ICMLというのは、機械学習に関する（たぶん）最難関の学会で、採択率はここ数年は30%を切っている。2003は119/371で、32.1%の採択率だったようだ。 Complement Naive Bayesの位置づけは実装が簡単学習時間が短い性能もそこそこよいという感じで、2003年段階にあっても、絶対的な性能ではSVMに負けていた。しかし、学習が早いというのは実アプリケーシ

iqm 2008/12/19

リンク

アルゴリズムコンテストの挑み方 - d.y.d.

17:29 08/09/30 クロスワード暇つぶしに "Clueless Crossword" という冊子を買ってみて意外とハマっています。クロスワードパズルなんだけど、単語のヒントの代わりに、各マスに1～26の数字が振ってあって同じ数字のマスには同じA～Zが入るように埋めるというもの。「母音っぽくて二連続して語尾にも出てくるのは多分 E だろう、もしかしたら O の可能性はなくもないけど」みたいに埋めていく。ちょっと違うけどフラッシュであった。 20:15 08/09/28 だいちのよろいそろそろ日本に戻る前に観光するぞ月間、ということにして、ウルル（エアーズロック）に行ってきました。もっとワイルドな感じかと思ったら、完全にリゾートのリゾートによるリゾートのための地帯になってました。まあそんなもんか。本日は強風のため登るの禁止とのことだったので、周りから見るだけ。

iqm 2008/09/24

algorithm

リンク

アルゴリズムイントロダクション輪講@京都のお知らせ - motemenの日記

2008-08-18 12:19 追記多数のご応募ありがとうございます。ここでいったん募集を打ち切らせて頂きます。なお、人数の関係で、応募された方からも今回参加できない方が出ることになりますが、あしからずご了承下さい。社内エンジニアの間に、計算機科学をマジメにやろうという機運が高まっています。それを受けはてな社内で計算機科学に関する教科書の輪講をやろうという話になりました。という訳でまずはアルゴリズムの教科書「数学的基礎とデータ構造 (アルゴリズムイントロダクション)」を輪講してみることにします。はてなスタッフだけでなく社外からの参加も募集しているので、京都オフィスに近い方はぜひご参加下さい。数学的基礎とデータ構造 (アルゴリズムイントロダクション) 作者: T.コルメン,R.リベスト,C.シュタイン,C.ライザーソン,Thomas H. Cormen,Clifford Stein,

iqm 2008/08/19

リンク

クラスタリングによる迷路作成アルゴリズム

はじめにクラスタリングアルゴリズムにより、解くと絵が浮かび上がる迷路を作成する方法を紹介する。クラスタリングとはウェブのリンク情報や、mixiの友人関係など、ネットワークの性質を知りたいことがよくある。このとき、ネットワークの性質としてこのネットワークにおいて任意に選んだ要素Aと要素Bはつながっているか？このネットワークは全体がつながっているか？つながっていないとしたらいくつのグループに分かれるか？要素数最大のグループはどれか？などの情報が欲しくなる。このような解析をするときに必要となるのがクラスタリングである。クラスタリングとは、同値関係のリストが与えられたときにグループ分けをすることである。たとえば、友達の友達は友達であると定義すると、友人関係は同値関係を作る。その上で、 A君とB君は友達 C君とE君は友達 B君とD

iqm 2008/06/20

リンク

Cuckoo Hashing - Radium Software

ハッシュテーブルからエントリーを検索する処理は，一般に定数時間で済むとされている。つまり，どんなにエントリーが増えても検索の速さは変わらない，ということ。データ構造の教科書には必ず載っていることだね。でも実際には，ハッシュの衝突が起こった場合に，速度の低下が発生する可能性がある。例えば，一般的なチェイン法（オープンハッシュ）だと，衝突したエントリーに関して線形検索を行うことになるから，衝突が多ければ多いほど，定数時間からは遠のいてしまう。この速度低下を防ぐ方法はいろいろある。なかでも cuckoo hashing （カッコウ・ハッシング）は仕組みが面白い。こいつは，エントリーの検索を必ず定数時間で済ませてくれるという優れものなんだ。 Cuckoo hashing では，２つのハッシュ関数と，２つのテーブルを用いる。ここでは，２つのハッシュ関数をそれぞれ h1, h2 として，２つのテー

iqm 2008/06/03

algorithm

リンク

経路探索アルゴリズムA* - gan2 の Ruby 勉強日記

RTSや防衛ゲームでよく見るキャラが障害物を避けて通る移動方法ってどういうアルゴリズムなんだろう？と気になったのでちょっと調べてみた。そしたら、たぶんこれだっていうのが見つかったのでメモしておきます。その名もA*(エースターって読むらしい)。自分でFlash使って実装してみたい。以下は参考ページ。 A*（A-star：エースター）探索アルゴリズム概要の説明はここがすごく分かりやすい。WikipediaのA*の項を見たときは(　゜д゜)ポカーンって感じだったけど、ここの説明を読んだらすっきりした。 A*アルゴリズム、ActionScriptで。 Flashでの実装。ソース(コメントつき)あり。これを読んで勉強かなぁ。 http://torus.jp/memo/x200606/shibuya-js.rd.htmlと合わせて読むのがいいかも。 2007-07-12 C++での実装。ソ