sleepy_yoshiのブックマーク / 2010年3月25日

sleepy_yoshi id:sleepy_yoshi

2010年3月25日のブックマーク (4件)

Not Only NoSQL!! 驚異的なまでにWRITE性能をスケールさせるSPIDERストレージエンジン
Webサービスでは、世界中からのトラフィックを捌く必要があるため、いくらチューニングしようとも一台のRDBMSでは捌ききることが出来ないのが常だ。MySQLは最初からマスター・スレーブ型のレプリケーション機能が搭載されており、スレーブをたくさんぶら下げることによって参照の負荷をスレーブに割り振るというスケールアウトによってその問題に対処してきた。スレーブによるスケールアウトは、参照（＝PV）が多いWebサイトと非常に相性が良く、幾多のWebサイトにおいて実績を作ってきているし、まだまだ利用されている。しかしながら、サイトのトラフィックが劇的に増加してくるようになると、レプリケーションによる負荷分散では追いつかなくなってきた。そこで人々がとった選択肢は、memcachedを利用することである。memcachedはインメモリ型の高速なKVSであり、参照・更新性能はMySQLより格段に高い。M
sleepy_yoshi 2010/03/25
db
リンク
03月24日のつぶやき - 発声練習
01:06 参加希望です。 @noby_germany 【4 月3日（土）の夕方以降、東京】： #wesmag オフ会+「ひすとり！編集会議」（「飲み会」前にどこかで自己紹介兼ミーティングを予定）。 01:15 ご教示ありがとうございます。 @boxeur Google はPicasaやGmailなどのストレージを買えば良いかと RT @next49:... 01:16 でも、Twitterやmixiは知人同士の結びつきを加速させますけどね。 @saikoro88 twitter は便利ですけど、リアルの他人との触れ合いがなくなるのが想像すると怖いですね。 01:17 やっぱりありますよね。 @skin0 鹿児島の建築学生による@KDP_commission という組織が、KDP2010というイベント企画の進捗過程をtweetしてます。 01:19 @fuku33 そうか、昔話は
sleepy_yoshi 2010/03/25
卒論修論チェックリスト

study

論文
リンク
pLSI をハードクラスタリングに使おうとしたけどイマイチだった - nokunoの日記
きっかけはPythonでpLSA(pLSI)を実装している人がいたので、文書クラスタリングに使えないかな、と考えたことでした。satomacoto: PythonでPLSAを実装してみるただpLSIはいわゆるソフトクラスタリングで、以下のような問題がありました。結果の解釈が直接しづらい処理時間がかかるこのうち1つ目の問題は文書が与えられたときのクラスタへの所属確率 P(z|d) の最大値を取ってハードなクラスタリングの結果を得れば解決します。しかし、処理時間のほうはEMアルゴリズムの途中で0でないパラメータが多いことが原因なので、単にP(z|d)をハード化しても他のパラメータ（P(z|w,d)など）がなくならないのでイマイチでした。そこで P(z|w,d), P(w|z), P(d|z) の各パラメータをハード化することで高速化できないかなと考えたのですが、結果はかなり劣化してしま
sleepy_yoshi 2010/03/25
clustering
リンク
irisデータをクラスタリングしてみた - nokunoの日記
発表や議論を聞きながら試してみました。階層的クラスタリング plot(hclust(dist(iris[1:4]))) データそのものではなく、距離行列dist()だけを使う ward法だと綺麗なデンドログラムになりやすい kmeansクラスタリング data.frame(kmeans(iris[1:4],3)[1],iris[5]) 特徴量（iris[1:4]）からラベル（iris[5]）を教師なしで推定します irisデータだけあって、かなりきれいに取れている> data.frame(kmeans(iris[1:4],3)[1],iris[5]) cluster Species1 1 setosa2 1 setosa3 1 setosa4 1 setosa5 1 setosa6 1 setosa7 1 setosa8 1 setosa9 1 setosa10 1 setosa（中略）
sleepy_yoshi 2010/03/25
R

clustering
リンク
- 2010年3月26日
- 2010年3月25日
- 2010年3月24日