タグ

ブックマーク / llamerada.hatenadiary.org (5)

  • Google WSDM'09講演翻訳:大規模な情報検索システム構築における課題(1) - llameradaの日記

    GoogleのFellowであるJeffrey Dean氏のWSDM'09における講演"Challenges in Building Large-Scale Information Retrieval Systems"のスライドを翻訳してみました。Googleの検索システムの10年間の進化の軌跡が紹介されており、興味深い話が満載です。個人的にはディスクの外周部と内周部を使い分けている話がツボでした。なお、イタリック体で一部解説・感想をいれています。翻訳は素人なので詳しくは元の資料を参照してください。 スライドの入手元:Jeffrey Dean – Google AI 検索システムに取り組む理由 チャレンジングなサイエンスとエンジリアニングのブレンド 多くの魅力的な未解決な問題が存在する。 CS(コンピュータサイエンス)の多数の領域にまたがる。 アーキテクチャ、分散システム、アルゴリズム、圧

    Google WSDM'09講演翻訳:大規模な情報検索システム構築における課題(1) - llameradaの日記
  • HTML要素を抜き出す正規表現の自動生成プログラム - llameradaの日記

    HTML要素を抜き出す正規表現を自動生成するプログラム html2regexp を作ったので公開します。 札幌市で賢い借金返済方法を教えます! 使い方は簡単で、HTMLファイル中の抜き出したいHTML要素の先頭タグの末尾にh2rと書き加えるだけです。例えば次のように指定します。 <ul> <li><a href="hoge" class="h" h2r>hoge</a></li> <li><a href="huga" class="h" h2r>huga</a></li> </ul> <div> <a href="f">f</a> </div>すると、html2regexpは、2つのa要素を抜き出す次の正規表現を生成します。 (<(\w*?)\s*([^>]*?" class="h"[^>]*?)>(.*?)<\/\2>)HTMLを抜き出して利用したり、Webアプリケーションのテストなどの

    HTML要素を抜き出す正規表現の自動生成プログラム - llameradaの日記
  • イチローのベーコン指数は4次 - Amazon DVD データベースでのスモールワールドネットワーク - llameradaの日記

    ベーコン指数というのをご存知だろうか?まず、俳優ケビン・ベーコンと共演した俳優のベーコン指数を1次とする。そして、ベーコン指数が1次の俳優と共演した俳優のベーコン指数を2次とする。この操作を繰り返して、俳優のベーコン指数を定義する。すると、殆どの俳優(日人やインド人も含めて)が6次以下のベーコン指数を持つ。このような現象をスモール・ワールド現象と呼び、このようなネットワークをスモールワールドネットワークと呼ぶ。いわゆる「世間は狭い」というやつである。 参考:スモール・ワールド現象 - Wikipedia この現象は中々面白いのだが、簡単に体験できるサービスがなかった。ベーコン指数を求めるサービスはあるのだが、ケビン・ベーコンは日人とあまりなじみがない。 そこで、Amazon.co.jpが持つDVDのデータベースを使って、任意の俳優間で、両者をつなげる俳優の共演関係を求めるサービスを作っ

    イチローのベーコン指数は4次 - Amazon DVD データベースでのスモールワールドネットワーク - llameradaの日記
  • llameradaの日記 - ユーザがページに滞在した時間をサーバに記録するJavaScript

    Ajaxの普及に伴い、ページ当たりのユーザの滞在時間が注目されるようになっている。従来、サービスがユーザに与えるインプレッションの指標としてページ・ビューが広く用いられている。しかし、Ajaxを利用するとページの移動があまり発生しないため、ページ・ビューが低くなってしまう。そこで、インプレッションの指標として、滞在時間を使おうという動きがある。 今回、JavaScriptでユーザの滞在期間が記録できるかどうか調べてみた。取り組む前は難しいかなと思ったが、実際にはとても簡単であった。コードは下記。 (function(){ var start = new Date; window.onunload = function(){ var time = (new Date - start ); var image = new Image; image.src = "/dummy?t=" + tim

    llameradaの日記 - ユーザがページに滞在した時間をサーバに記録するJavaScript
  • 更新をチェックするRSSフィードの賢い選択方法 - llameradaの日記

    はてなは理系の会社? - higepon blogにRSSリーダ・サービスが、どのフィードをチェックするかについて議論している話が載っている。 単純に考えれば、購読者数が多く、最後にチェックした時刻が古いフィードをチェックすれば良いように思える。この感覚は正しい。しかし、役には立たない。なぜならば、購読者数と更新時刻の間での交換レートを決定する必要があるからだ。たとえ、更新時刻が古くとも、購読者数の少ないフィードは後回しにしてもよいし、購読者数が多いフィードは、積極的に更新チェックする必要がある。 そこで、久しぶりに統計学を利用して、フィードの更新チェック戦略を作ってみた。数式を使うと、ブログでは書きづらいので、こちらのpdfをダウンロードしてください。 計算した結果を簡単に紹介すると、フィードの購読者数を r, フィードを最後に更新した時刻を lとしたとき、次の値を最大にするフィードを選

    更新をチェックするRSSフィードの賢い選択方法 - llameradaの日記
    overlast
    overlast 2006/02/19
  • 1