タグ

2010年3月25日のブックマーク (4件)

  • Not Only NoSQL!! 驚異的なまでにWRITE性能をスケールさせるSPIDERストレージエンジン

    Webサービスでは、世界中からのトラフィックを捌く必要があるため、いくらチューニングしようとも一台のRDBMSでは捌ききることが出来ないのが常だ。MySQLは最初からマスター・スレーブ型のレプリケーション機能が搭載されており、スレーブをたくさんぶら下げることによって参照の負荷をスレーブに割り振るというスケールアウトによってその問題に対処してきた。スレーブによるスケールアウトは、参照(=PV)が多いWebサイトと非常に相性が良く、幾多のWebサイトにおいて実績を作ってきているし、まだまだ利用されている。 しかしながら、サイトのトラフィックが劇的に増加してくるようになると、レプリケーションによる負荷分散では追いつかなくなってきた。そこで人々がとった選択肢は、memcachedを利用することである。memcachedはインメモリ型の高速なKVSであり、参照・更新性能はMySQLより格段に高い。M

    Not Only NoSQL!! 驚異的なまでにWRITE性能をスケールさせるSPIDERストレージエンジン
  • 03月24日 のつぶやき - 発声練習

    01:06  参加希望です。 @noby_germany 【4 月3日(土)の夕方以降、東京】: #wesmag オフ会+「ひすとり!編集会議」(「飲み会」前にどこかで自己紹介兼ミーティングを予定)。 01:15  ご教示ありがとうございます。 @boxeur Google はPicasaやGmailなどのストレージを買えば良いかと RT @next49:... 01:16  でも、Twitterやmixiは知人同士の結びつきを加速させますけどね。 @saikoro88 twitter は便利ですけど、リアルの他人との触れ合いがなくなるのが想像すると怖いですね。 01:17  やっぱりありますよね。 @skin0 鹿児島の建築学生による@KDP_commission という組織が、KDP2010というイベント企画の進捗過程をtweetしてます。 01:19  @fuku33 そうか、昔話は

    03月24日 のつぶやき - 発声練習
    sleepy_yoshi
    sleepy_yoshi 2010/03/25
    卒論修論チェックリスト
  • pLSI をハードクラスタリングに使おうとしたけどイマイチだった - nokunoの日記

    きっかけはPythonでpLSA(pLSI)を実装している人がいたので、文書クラスタリングに使えないかな、と考えたことでした。satomacoto: PythonでPLSAを実装してみるただpLSIはいわゆるソフトクラスタリングで、以下のような問題がありました。 結果の解釈が直接しづらい 処理時間がかかるこのうち1つ目の問題は文書が与えられたときのクラスタへの所属確率 P(z|d) の最大値を取ってハードなクラスタリングの結果を得れば解決します。しかし、処理時間のほうはEMアルゴリズムの途中で0でないパラメータが多いことが原因なので、単にP(z|d)をハード化しても他のパラメータ (P(z|w,d)など) がなくならないのでイマイチでした。そこで P(z|w,d), P(w|z), P(d|z) の各パラメータをハード化することで高速化できないかなと考えたのですが、結果はかなり劣化してしま

  • irisデータをクラスタリングしてみた - nokunoの日記

    発表や議論を聞きながら試してみました。 階層的クラスタリング plot(hclust(dist(iris[1:4]))) データそのものではなく、距離行列dist()だけを使う ward法だと綺麗なデンドログラムになりやすい kmeansクラスタリング data.frame(kmeans(iris[1:4],3)[1],iris[5]) 特徴量(iris[1:4])からラベル(iris[5])を教師なしで推定します irisデータだけあって、かなりきれいに取れている> data.frame(kmeans(iris[1:4],3)[1],iris[5]) cluster Species1 1 setosa2 1 setosa3 1 setosa4 1 setosa5 1 setosa6 1 setosa7 1 setosa8 1 setosa9 1 setosa10 1 setosa(中略)