タグ

2010年6月4日のブックマーク (4件)

  • 3ヶ月で149.5勉強時間達成できたGoogleDocsによる自動見える化のやり方とその効用 | nanapi[ナナピ]

    3ヶ月で149.5勉強時間達成できたGoogleDocsによる自動見える化のやり方とその効用 に関するライフレシピをご紹介します。nanapi [ナナピ]は、みんなで作る暮らしのレシピサイトです。はじめに このレシピの主旨 勉強記録を見える化する簡単な仕組みを最初に作ることで、 日々の勉強のモチベーション継続を目指します。 イントロ 色々勉強したい!と思って勉強を始めたものの、3日坊主になってしまう経験ある方少なく無いかと思います。私はしょっちゅうそういうことに陥ります。 どうしても継続したい勉強があった場合、毎日「記録」することが継続の鍵となると良く言われます。(参考:「「朝2時起きで、なんでもできる」の私の書評」) ただ、 「その「記録」することが億劫だから継続できないんだよっ!」 そんなところを解消するのが今回のレシピの主旨です。 なお、タイトルの時間についてですが、201

    TheTocotonist
    TheTocotonist 2010/06/04
    [***]
  • Hadoopを使わずにWikipediaのテキスト処理を400倍高速化 - tsubosakaの日記

    タイトルは釣りです。id:mamorukさんの書いたHadoop で Wikipedia のテキスト処理を900倍高速化 - 武蔵野日記を読んで、そもそも1G程度のデータの単語頻度を数えるのに858分もかかるんだっけと思い、id:nokunoさんの資料を読んでみると単語頻度を求める際に a b a aみたいなデータを a 3 b 1に変形するのにsortしたファイルをuniq -cで処理するということをやっていた。これはあまり効率のよい方法ではなくて行数をNとしたときにO(N log N)の計算時間となる(文字列比較はO(1)でやれることにする)。 これに対して、単語の頻度をハッシュ表で保存すると理想的な条件の元ではO(N)の計算時間で頻度を求めることが出来、より高速に計算することが可能となることが期待される。 また、単語数をWとしたとき、C++mapのような二分探索木を使ってもO(N

    Hadoopを使わずにWikipediaのテキスト処理を400倍高速化 - tsubosakaの日記
  • Power Iteration Clustering - tsubosakaの日記

    岡野原さんのtweetで紹介されていたPower Iteration Clusteringという文章分類の手法に関する論文[1,2]を読んでみた。 背景 n個のデータX={x_1,...,x_n}が与えられたときに各データ間の類似度s(x_i,x_j)を成分に持つ類似度行列Aを考える。 また次数行列としてAのi行目の値を合計したd_{ii} = \sum_j A_{ij}を対角成分にもつ対角行列をDとする。 このときW:=D^{-1} Aをnormalized affinity matrixと定義する。簡単のためWはフルランクであるとする。 この行列はすべての要素が1となる固有ベクトルをもち、この時固有値は1となる。実はこれが最大固有値である(行列Aの行和が1となること+Gershgorin circle theorem(en)より導かれる)。また、行列Wの固有値を1=λ_1>=...>=

    Power Iteration Clustering - tsubosakaの日記
    TheTocotonist
    TheTocotonist 2010/06/04
    clustering
  • [機械学習] PRML勉強会 - tsubosakaの日記

    PRML勉強会で11.4のスライスサンプリングについて発表してきました。 発表スライドは以下となります。 Prml11 4View more presentations from tsubosaka. また、参考として以前のPRMLハッカソンで作成したスライスサンプリングを用いたLDAのコードをgithubにアップロードしました。http://github.com/tsubosaka/LDASlice/tree/master/src/lda/

    [機械学習] PRML勉強会 - tsubosakaの日記