タグ

ブックマーク / llamerada.hatenadiary.org (6)

  • Key Value Store勉強会に参加してきた - llameradaの日記

    とても楽しかった。ミドルウェア系の勉強会が一番自分の関心に近いみたい。印象に残ったことを何点か。 Masterがあるタイプの分散ソフトウェアで、障害時のMaster選択に苦労した話を聞いて、Chubbyが便利な理由が改めてよくわかった。 Key Value Store だとランダム・リードが主なユースケースなので分散ハッシュのアプローチが有効みたいで、分散システム系はだいたいそうだった。全文検索みたいなユースケースだとシーケンシャル・リードが大事なので、BigTableのようなB-Treeのアプローチの方が有効だが、そのあたりはあまり開拓されていないみたい。 TokyoCabinetを最下層のストレージに使っているケースが多かった。

    Key Value Store勉強会に参加してきた - llameradaの日記
    otsune
    otsune 2009/02/21
  • GoogleのBigTableの特長の1つはエンジンとストレージが疎結合であること - llameradaの日記

    GoogleのBigTableの特長の1つはエンジンとストレージが疎結合であることである。 MySQLやPostgreSQLではSQLクエリを受け付けるマシン(エンジン)と、実際にデータを格納するマシン(ストレージ)は同じである。つまり、エンジンとストレージが密結合である。 エンジンとストレージが密結合である利点は、ストレージへのアクセスが、ネットワーク越しの場合に比べて高速なことである。 しかし、この利点は薄れつつある。ディスクへのアクセスはメモリへのアクセスに比べれば遥かに低速である。そのため、ストレージをメモリにキャッシュして運用することが多い。そして、常にストレージをメモリにキャッシュするならば、ストレージがローカルディスクにあるが、ネットワーク越しの別マシンにあろうが大差ない。必要に応じてメモリに読み込むだけである。 GoogleのBigTableではストレージはGFS上に格納さ

    GoogleのBigTableの特長の1つはエンジンとストレージが疎結合であること - llameradaの日記
    otsune
    otsune 2008/02/22
  • ニコニコ動画は動画検索におけるGoogleになり得るか? - llameradaの日記

    ニコニコ動画は動画検索におけるGoogleになり得ると思う。GoogleがWebページ検索において革命的であったのは、重要なのはページそのもの内容ではなく、Webページに対するアノテーション、つまり、リンクであることに気が付いた点である。そして、ニコニコ動画のコメントは、Webページのリンクと同じ性質を持っている。 ニコニコ動画のコメントとWebページのリンクで類似している点は次の3点である。 アノテーションの内容は不定形のテキスト(リンクの場合はアンカーテキスト)である。その為、キーワード検索で利用出来る。 人気のあるコンテンツに対してはアノテーションの数が多い。その為、アノテーション数を人気度の指標に出来る。 アノテーションを作成する動機は自分の楽しみ・利益の為である。その為、アノテーションの数はほっておいても自然に増大する。 これらの3つの特徴をリンクが持つため、Web検索ではページ

    ニコニコ動画は動画検索におけるGoogleになり得るか? - llameradaの日記
    otsune
    otsune 2007/03/20
  • 複数の単語を似た意味に分類するサービス

    単語をクラスタリングするサービスを作りました。 http://llamerada.sakura.ne.jp/clustord/cluster.cgi 入力された単語を似た意味のグループの分割します。例えば、「トマト」「りんご」「みかん」「なす」を入力した場合、「トマト なす」と「りんご みかん」に分類します。 検索キーワードなどは多種多様で、そのまま眺めても全体を把握しづらいことがありますが、単語をクラスタリングすることで概要がつかみやすくなります。また、私のdel.icio.usのタグを分類してみたところ次のようになりました。なんとなく合っているようです。 http://llamerada.sakura.ne.jp/clustord/cluster.cgi?id=5 精度はそれなりですが、使いどころはあるのかなと思います。向上の余地はまだまだあるので、少しずつ手を入れていきたいと思います

    複数の単語を似た意味に分類するサービス
    otsune
    otsune 2006/12/26
  • HTML要素を抜き出す正規表現の自動生成プログラム - llameradaの日記

    HTML要素を抜き出す正規表現を自動生成するプログラム html2regexp を作ったので公開します。 札幌市で賢い借金返済方法を教えます! 使い方は簡単で、HTMLファイル中の抜き出したいHTML要素の先頭タグの末尾にh2rと書き加えるだけです。例えば次のように指定します。 <ul> <li><a href="hoge" class="h" h2r>hoge</a></li> <li><a href="huga" class="h" h2r>huga</a></li> </ul> <div> <a href="f">f</a> </div>すると、html2regexpは、2つのa要素を抜き出す次の正規表現を生成します。 (<(\w*?)\s*([^>]*?" class="h"[^>]*?)>(.*?)<\/\2>)HTMLを抜き出して利用したり、Webアプリケーションのテストなどの

    HTML要素を抜き出す正規表現の自動生成プログラム - llameradaの日記
  • 「はてなブックマーク」ユーザのクラスタリング結果の公開を停止した理由 - llameradaの日記

    先日の記事で「はてなブックマーク」(はてブ)のユーザをクラスタリングした結果を投稿しましたが、考えるところがあって公開を取りやめました。 参考リンク:クラスタリング技術を使った「はてなブックマーク」でのお気に入りユーザ数ランキング(簡易ジャンル別) 「はてブ」のコメントで公開停止を残念がるコメントがあったので、公開停止の理由を簡単に述べておきます。 公開を停止した一番の理由は、「はてブ」で公開されているデータを勝手に加工する事に関して、同意が十分には得られていない点です。同じ手続きを「ブログ」に対して適用したならば、公開停止はなかったと思います。「ブログ」では、著者が情報の公開・非公開を自分で管理していると自覚しているのが普通ですし、それゆえ、公開されている情報を煮ようが焼こうが問題は発生しにくいでしょう。それに対して「はてブ」では、ユーザが自分のブックマークを一般に公開しているという意識

    「はてなブックマーク」ユーザのクラスタリング結果の公開を停止した理由 - llameradaの日記
  • 1