[B! algorithm][Programming][research] yukimori

yukimori_726 id:yukimori_726

algorithmとProgrammingとresearchに関するyukimori_726のブックマーク (13)

行列分解ライブラリredsvdを公開しました - DO++
大規模疎行列向けの行列分解ライブラリredsvdを公開しました． redsvd 大規模疎行列向けの特異値分解や主成分分析，固有値分解を行うライブラリredsvdを公開しました．修正BSDライセンスで公開しており，コマンドラインから使える他，C++ライブラリが用意されています．例えば，行と列数がそれぞれ10万，非零の要素が1000万からなる疎行列に対する上位20位までの特異値分解を約2秒で処理します．特異値分解とか，使っている技術の詳細とか応用事例を以下に簡単に紹介しましたので，興味のある方は参考にしてください．特異値分解とはまず行列を適当に復習します．行列Xの転置をX^tと表すことにします．またIを単位行列とし，Oを全ての成分が0である零行列とします．また，行列XX^t=IであるようなXを直交行列と呼びます．Xが直交行列の時，Xvはベクトルvを長さを変えずに回転させます．ここでは
yukimori_726 2010/09/01
algorithm

programming

research
リンク
Zinnia: 機械学習ベースのポータブルな手書き文字認識エンジン
Zinnia: 機械学習ベースのポータブルなオンライン手書き文字認識エンジン [日本語][英語] Zinniaは機械学習アルゴリズム SVM を用いたポータブルで汎用的なオンライン手書き文字認識エンジンです。Zinniaは組み込みの容易さと汎用性を高めるために、文字のレンダリング機能は持っていません。Zinniaは文字のストローク情報を座標の連続として受け取り、確からしい順にスコア付きでN文字の認識結果を返すだけに機能を限定しています。また、認識エンジンは完全に機械学習ベースであるために、文字のみならずユーザの任意のマウス・ペンストロークに対して任意の文字列をマッピングするような認識エンジンを小コスト作成することができます。主な特徴機械学習アルゴリズムSVMによる高い認識精度ポータブルでコンパクトな設計 -- POSIX/Windows (C++ STLのみに依存) リエント
yukimori_726 2010/04/24
svm

algorithm

programming

research
リンク
[機械学習] クラスタリングにおけるコサイン類似度に関する性質の証明 - tsubosakaの日記
bayonやCLUTOが爆速な理由 - download_takeshi’s diaryを読んで、すぐには成り立つかどうか分からなかったので証明してみた。上の記事で述べられていることはクラスタ中のベクトルとその中心ベクトルのコサイン類似度の和と、クラスタ中のベクトルを全て足したベクトルのノルムが一致するというである。ただしここでクラスタ中の要素ベクトルはすべて大きさ1の規格化されたベクトルであるとする。証明今クラスタ内に含まれるベクトルをとする。このとき全ベクトルを足しこんだ複合ベクトルをとする。またこのクラスタのセントロイドはとなる。このときセントロイドと各ベクトルとのコサイン類似度は [tex: s_i = \frac{}{||C|| ||x_i||} = \frac{}{||{C}||}] となる。ここでと正規化されていることを用いた。この類似度の合計は [tex:
yukimori_726 2010/02/16
algorithm

math

Programming

clustering

machinelearning

research
リンク
bayonやCLUTOが爆速な理由 - download_takeshi’s diary
クラスタリングツールbayonを使っていて、常々「どうしてこんなに高速に処理できんのかなぁ」と疑問に感じていました。repeated bisectionという手法自体がk-means法などと比べると効率がいいのですが、それにしても、それだけでは説明がつかないほど爆速なわけです。うまく例えられませんが、自前でk-meansのスクリプトを書いて比べてみると、自転車と新幹線くらいちがうという印象です。はじめてCLUTOを触った時、数万件程規模のクラスタリング処理が本当に「あっ」という間に終わってしまい、びっくりした記憶があります。きっと実装面でなにか特殊なことがあるんだろうなと思い、mixiエンジニアブログでbayonの記事を改めて読み漁っていたら、以下の部分が目に止まりました。このクラスタの評価は、クラスタの各要素とクラスタの中心とのcosine類似度の和としています。この和が大きいほど
yukimori_726 2010/02/14
algorithm

ベクトル

bayon

Programming

分散処理・負荷分散

research
リンク
クラスタリングツールbayonを便利に使うText::Bayonを書きましたよ - download_takeshi’s diary
JPerl Advent Calender 2009 のhacker trackに「Perlではじめるテキストマイニング」というタイトルで記事を書きました。テキストマイニング系のモジュールを色々紹介しているので、興味ある人はぜひご覧ください。さてさて、記事の最後の方で軽くふれましたが、つい先日 Text::Bayon というモジュールをリリースしました。 Text::Bayon - Handling module for the clustering tool 'bayon' CPAN : http://search.cpan.org/~miki/Text-Bayon/ Github : http://github.com/miki/Text-Bayon それの具体的な使い方を紹介します。何をするものか？ Text::Bayonはクラスタリングツールbayonをperlスクリプトからス
yukimori_726 2009/12/12
algorithm

programming

research
リンク
P2P basic
P2P basic P2Pとは何か？〜基礎から研究紹介まで〜最近，P2Pという言葉を良く聞きます。ニュースの中でも「P2Pを意識している」とか「P2Pの研究に着手」というニュースを聞いたことがあるのではないでしょうか？しかしながら，P2Pとは何かいまいちわからなかったり、どんなことに役に立つのか調べにくいことも確かです。またP2Pの動向は激しく，その流れについていくのも大変です。私は情報系の研究所でP2Pの研究開発をしていました。そのため、このような現状を踏まえてP2Pの基礎から私の研究まで重要な部分をなるべくわかりやすく紹介致します。また用語についてはわかりやすさを優先するために一部不正確なところがあるのでご了承下さい。質問，コメント等はメール(tnishita@yahoo.co.jp) にて連絡して頂くと，ページ改良の参考になりますのでよろしくお願い致します。 P2Pに
yukimori_726 2009/09/12
algorithm

dht

network

technology

web

programming

research
リンク
My Bookmark: Machine Learning
私のブックマーク学習 1. はじめに機械学習の研究は飛躍的な進歩を遂げ、専門化が進んでいる。元々は人間の学習能力を目標に始められた研究分野だが、それどころではなくなってきたようで、全体を一望するのが困難になってきた。しかも、機械学習の一分野である帰納論理プログラミングについて、理科大の溝口文雄教授によるブックマークが昨年9月号で取り上げられていて、機械学習全体をカバーする有力サイトも紹介済だったりする。そこで、大規模で便利なサイトに筆者がたまたま訪れたサイトを織り交ぜながら、紹介したい。また、このコラムで紹介済のブックマークは省くか、違った説明を試みるので、バックナンバーも合わせて参照されたい。 2. ポータルサイト機械学習について調べ物をするとき、とりあえずなんでもそろっているポータルサイトとしては、MLnet(Machine Learning network, http://ww
yukimori_726 2009/08/30
programming

research

algorithm
リンク
ビジュアル・プログラミング
Powered by SmartDoc ビジュアル・プログラミング >> ビジュアル・プログラミング服部隆志 (印刷用 PS 版は /home/hattori/visual-prog/latex2e/main.ps です) 目次ビジュアル・プログラミングとはプログラミング言語の役割プログラミング言語に影響を与えたもの計算モデルと抽象化命令型パラダイム関数型パラダイム論理型パラダイムオブジェクト指向テキスト言語の利点と欠点欠点利点ビジュアルプログラミング言語の種類アルゴリズムの図形的表現制御の流れの図形化フローチャート PAD NSチャートデータフロー図 StateChart ペトリネットオートマトン有限オートマトンセルラーオートマトン定義 Artificial Life との関係グラフ文法形式言語理論グラフ文法の例 Parsingの過程埋
yukimori_726 2009/08/30
programming

algorithm

research
リンク
グラフ理論ライブラリのJGraphTを使ってみた - kaisehのブログ
JGraphT JGraphTは、Javaのグラフライブラリです。グラフの描画ではなく、グラフ理論のモデルとアルゴリズムの方にフォーカスしています。とても使いやすかったので、紹介してみます。無向グラフ UndirectedGraph<String, DefaultEdge> g = new SimpleGraph<String, DefaultEdge>( DefaultEdge.class); g.addVertex("a"); g.addVertex("b"); g.addVertex("c"); g.addEdge("a", "b"); g.addEdge("b", "c"); System.out.println(g.vertexSet()); System.out.println(g.edgeSet()); System.out.println(g.edgesOf("c"));
yukimori_726 2009/05/24
algorithm

programming

graph

java

library

math

research
リンク
Canonical Huffman Codes - naoyaのはてなダイアリー
1999年出版と少し古い書籍ですが Managing Gigabytes を読んでいます。理解のために 2.3 で出て来る Canonical Huffman Codes の習作を作りました。ハフマン符号は情報圧縮で利用される古典的なアルゴリズムで、圧縮対象データに出現するシンボルの出現確率が分かっているときに、その各シンボルに最適な符号長の接頭語符号を求めるものです。通常のハフマン符号はポインタで結ばれたハフマン木を構築して、ツリーを辿りながら各シンボルに対する接頭語符号を計算します。このハフマン木には曖昧な箇所が残されています。ハフマン木は木の辺を右に辿るか左に辿るかで符号のビットが決まりますが、右が 0 で左が 1 などというのはどちらでも良いという点です。(曖昧だから駄目、という話ではありません。) 従って、ハフマン木から生成される符号は一意には決まりません。ここで各シンボル
yukimori_726 2009/05/08
programming

research

python

perl

algorithm
リンク
DO++: AND検索の最尤推定
検索技術においてAND検索、つまり二つの単語を指定して、それが両方出現している文書数の推定を高速に行うのは難しい問題です。問題を正しく書くと単語w_xが出ている文書番号(x1,x2,x3,..,xn)とw_yが出ている文書番号(y1,y2,y3,...,ym)が与えられたら | {(i,j)|x_i = y_j} | の数を求める問題です。これは前もって全通り求めて保存しておくにも単語種類数の二乗のオーダー分必要なのでできません。これは機械学習でも特徴関数が0/1の値しかとらないとき、二つの要素の特徴ベクトルの内積を求める問題と同じで、またデータベースでもJOINの順番を決めるときにでてくる問題です。普通は全体の文書からサンプルをとって、その中で数えてみて、それを元のサイズにスケールさせることをします。例えば全体文書1億件の中から文書1000件だけとってきて、その中でw_xとw_y
yukimori_726 2009/05/01
algorithm

research

math

programming

search
リンク
分布推定アルゴリズム - yukobaのブログ
分布推定アルゴリズム。遺伝的アルゴリズムを改良した物です。個体の集合を交叉・突然変異させるのではなく、個体の生成確率を進化させます。最適化問題のアルゴリズムです。以下、自分へのメモです。わかったことが増えたら追記するかも。ビットストリング計算量に関しては、ビット数をn、反復数をTとしています。 Population-Based Incremental Learning (PBIL) http://citeseerx.ist.psu.edu/viewdoc/summary?doi=10.1.1.61.8554 http://citeseerx.ist.psu.edu/viewdoc/summary?doi=10.1.1.44.5424 http://citeseerx.ist.psu.edu/viewdoc/summary?doi=10.1.1.43.1108 Population-ba
yukimori_726 2009/04/27
programming

research

algorithm

recommendation
リンク
コサイン距離ベースのLSHをRubyで - <s>gnarl,</s>技術メモ”’<marquee><textarea>￥
参考文献:Web+DB press vol.49 レコメンド特集のPart3など。アルゴリズムの概要詳細(特に数学的な)はぐぐれ。モチベーションとしては、高次元における近傍点探索を高速で行いたい。まじめにやるとどう工夫しても計算量がすごいことになるので、近似で。どうするかというと、「距離が近いと同じような値になるハッシュ関数」を使う。あるベクトルの近傍を求めたい場合、そのベクトルのハッシュと同じ(もしくは近い)値のハッシュを持つベクトルをテーブルから引いてきて返す。計算量がどうなるかはややこしいけど、とりあえず全部探すよりは速い。で、どういう関数をハッシュとするのか。これは距離の定義によって異なる。ハミング距離、コサイン距離、ユークリッド距離などにはそういった関数の存在が知られている。コサイン距離の場合、ランダムなベクトルをいくつか用意して、入力されたベクトルがそれらと似ている
yukimori_726 2009/04/11
programming

ruby

algorithm

research

recommendation
リンク
1