TheTocotonistのブックマーク / 2010年6月4日

TheTocotonist id:TheTocotonist

2010年6月4日のブックマーク (4件)

3ヶ月で149.5勉強時間達成できたGoogleDocsによる自動見える化のやり方とその効用 | nanapi[ナナピ]
3ヶ月で149.5勉強時間達成できたGoogleDocsによる自動見える化のやり方とその効用に関するライフレシピをご紹介します。nanapi [ナナピ]は、みんなで作る暮らしのレシピサイトです。はじめにこのレシピの主旨勉強記録を見える化する簡単な仕組みを最初に作ることで、日々の勉強のモチベーション継続を目指します。イントロ色々勉強したい！と思って勉強を始めたものの、３日坊主になってしまう経験ある方少なく無いかと思います。私はしょっちゅうそういうことに陥ります。どうしても継続したい勉強があった場合、毎日「記録」することが継続の鍵となると良く言われます。（参考：「「朝2時起きで、なんでもできる」の私の書評」）ただ、「その「記録」することが億劫だから継続できないんだよっ！」そんなところを解消するのが今回のレシピの主旨です。なお、タイトルの時間についてですが、201
TheTocotonist 2010/06/04
[***]

study
リンク
Hadoopを使わずにWikipediaのテキスト処理を400倍高速化 - tsubosakaの日記
タイトルは釣りです。id:mamorukさんの書いたHadoop で Wikipedia のテキスト処理を900倍高速化 - 武蔵野日記を読んで、そもそも1G程度のデータの単語頻度を数えるのに858分もかかるんだっけと思い、id:nokunoさんの資料を読んでみると単語頻度を求める際に a b a aみたいなデータを a 3 b 1に変形するのにsortしたファイルをuniq -cで処理するということをやっていた。これはあまり効率のよい方法ではなくて行数をNとしたときにO(N log N)の計算時間となる(文字列比較はO(1)でやれることにする)。これに対して、単語の頻度をハッシュ表で保存すると理想的な条件の元ではO(N)の計算時間で頻度を求めることが出来、より高速に計算することが可能となることが期待される。また、単語数をWとしたとき、C++のmapのような二分探索木を使ってもO(N
TheTocotonist 2010/06/04
hadoop
リンク
Power Iteration Clustering - tsubosakaの日記
岡野原さんのtweetで紹介されていたPower Iteration Clusteringという文章分類の手法に関する論文[1,2]を読んでみた。背景 n個のデータX={x_1,...,x_n}が与えられたときに各データ間の類似度s(x_i,x_j)を成分に持つ類似度行列Aを考える。また次数行列としてAのi行目の値を合計したd_{ii} = \sum_j A_{ij}を対角成分にもつ対角行列をDとする。このときW:=D^{-1} Aをnormalized affinity matrixと定義する。簡単のためWはフルランクであるとする。この行列はすべての要素が1となる固有ベクトルをもち、この時固有値は1となる。実はこれが最大固有値である(行列Aの行和が1となること+Gershgorin circle theorem(en)より導かれる)。また、行列Wの固有値を1=λ_1>=...>=
TheTocotonist 2010/06/04
clustering

algorithm
リンク
[機械学習] PRML勉強会 - tsubosakaの日記
PRML勉強会で11.4のスライスサンプリングについて発表してきました。発表スライドは以下となります。 Prml11 4View more presentations from tsubosaka. また、参考として以前のPRMLハッカソンで作成したスライスサンプリングを用いたLDAのコードをgithubにアップロードしました。http://github.com/tsubosaka/LDASlice/tree/master/src/lda/
TheTocotonist 2010/06/04
prml
リンク
- 2010年6月20日
- 2010年6月4日
- 2010年6月3日