タグ

algorithmとgoogleに関するstarsky5のブックマーク (8)

  • Google File System(GFS)技術メモ — ありえるえりあ

    * 参照した論文 + http://labs.google.com/papers/gfs-sosp2003.pdf * 特徴 + 安いPC(OSはGNU/Linux)で分散ファイルシステムを構築しています(*注1)。 + PCは壊れるという前提で設計しています(*注2)。このため、分散システムを構成するノードが壊れた時、データが失われないことと、自動で復旧できることに主眼を置いています。 + ファイルシステムを利用する側(アプリ)に、ある程度の想定を求めています。任意の利用ケースに対してそこそこのパフォーマンスを出す(=平均的に良い性能)のではなく、特定の利用ケースで性能を発揮できるように設計しています。 + 性能を発揮できる利用ケースは次のようなケースです。 ++ 主にサイズの大きいファイルを扱う(*注3)。 ++ ファイルへの書き込みは追記(append)が多い(ファイルの一部分を何度

  • Google Code Jam

    Put your coding skills to the test as you work your way through multiple rounds of algorithmic coding puzzles for the title of Code Jam Champ and 15,000 USD.

    Google Code Jam
  • 開発チームが明かす、Google Waveの実装概要 - @IT

    2009/06/01 グーグルが発表した新しいコミュニケーションプラットフォームの「Google Wave」が大きな反響を呼んでいる。技術的な詳細がかなり明らかにされているので、何が可能かはだいたい予想ができそうだが(だからこそ発表時に会場を埋めていた4000人あまりの聴衆は興奮のあまり立ち上がって喝采を送ったのだが)、誰も想像できなかったようなキラーアプリケーションが登場するのかどうか、あるいはWave自体がキラーアプリケーションなのか、それはまだ誰にも分からない。 レポート記事(【詳報】Google Waveとは何なのか?)への反響を見ると、さまざまな疑問を感じている人がいる。そこでここでは、直接Waveのプロジェクトリーダーに話を聞いたり、別セッションで開発チームが行った説明、およびオンラインドキュメントから読み取れたことなど、いくつか追加情報をまとめたい。ちなみに、Google I

  • リンク解析とか: 重要度尺度と von Neumann カーネル - smly’s notepad

    NAIST の入学手続を終えた. 残りの期間はサーベイするぞーということで shimbo 先生の講義資料「リンク解析とその周辺の話題」を読んでいます. 一日目, 二日目の資料は PageRank, HITS, SALSA などの重要度尺度の紹介と, von Neumann Kernels と HITS の関係についてのお話が中心. これらを実装してみた. 後半に進むほど力尽きて記述が適当になってます:)PageRankポイントはランダム遷移行列による random walk では定常分布に収束しない (エルゴード性 (ergodic) を満たさない) という点. どうして満たさないかというと. sink (出次数のない節点) が存在するとき, 明らかに既約 (irreducible) でないのでエルゴード性を満たさない. 複数の強連結成分を持つケース => 周期性を持つと考えてよい? 周期

  • MapReduce - naoyaのはてなダイアリー

    "MapReduce" は Google のバックエンドで利用されている並列計算システムです。検索エンジンのインデックス作成をはじめとする、大規模な入力データに対するバッチ処理を想定して作られたシステムです。 MapReduce の面白いところは、map() と reduce() という二つの関数の組み合わせを定義するだけで、大規模データに対する様々な計算問題を解決することができる点です。 MapReduce の計算モデル map() にはその計算問題のデータとしての key-value ペアが次々に渡ってきます。map() では key-value 値のペアを異なる複数の key-value ペアに変換します。reduce() には、map() で作った key-value ペアを同一の key で束ねたものが順番に渡ってきます。その key-values ペアを任意の形式に変換すること

    MapReduce - naoyaのはてなダイアリー
  • グーグル、検索アルゴリズムを少しずつ明らかに

    Googleは、同社の検索エンジンの内部動作について、少し秘密にしすぎていたという結論に達した。 同社はこれまで、何を検索結果一覧の先頭に表示するかを決定するアルゴリズムについて、あえて公表を避けてきた。同社の検索品質に関するエンジニアリング担当バイスプレジデントを務めるUdi Manber氏は米国時間5月21日付けのブログ投稿で、その理由の1つは、競合他社による模倣を防止するためであり、また別の理由としてはそれを悪用するウェブサイトの出現を防ぐためであったと述べた。しかし今後は、もう少し公開していく予定である。 「完全な秘密主義を貫くのは理想的ではない。このブログ投稿は、今後はこれまでよりももう少し公開していこうという新たな決意を示すものである」とManber氏は述べている。「これからは定期的に新しい部分について語り、古い部分を説明し、アドバイスをし、情報を公開し、対話していくよう努力す

    グーグル、検索アルゴリズムを少しずつ明らかに
  • 検索結果の「鮮度」が変わる、Google "QDF"アルゴリズムの仕組み:渡辺隆広のサーチエンジン情報館

    前々回の記事「百度、気で日の検索エンジン市場に参入する けど」の文中で、Googleの検索結果が同じキーワードでも朝と夜で変化するという話を書きましたが、それについて説明している日語の記事があまりないので、ここで解説をしておきます。この技術はもともと、米New York TimesのGoogleへのインタビューの中で紹介されたもので、QDF(query deserves freshness)と呼ばれるものです。日国内では2007年4月以降、Googleウェブ検索によく「5分前」「1時間前」「4時間前」といったラベルつきのリンクが掲載されることがありますが、これはQDFアルゴリズムによるものです。 --------------- GoogleYahoo!で検索した時に私たちが目にする検索結果の並び順というのは、ある時点におけるウェブページのランク付けの結果に基づいたものだ。ウェブ

    検索結果の「鮮度」が変わる、Google "QDF"アルゴリズムの仕組み:渡辺隆広のサーチエンジン情報館
  • Googleページランクの初期モデルの限界とGoogleが加えた2つの重要な調整 | Moz - SEOとインバウンドマーケティングの実践情報

    GoogleのPageRank(Googleツールバーが表示する小さな緑のインジケータではなく生の値)の裏にある「ランダムサーファー」について知っている検索マーケティング担当者は多い。Google自身の表現を借りれば、以下のようになる。 PageRankは、ユーザーの挙動を表した1つのモデルと考えることができる。たとえば、無作為にウェブページを訪問して片っ端からリンクをクリックし、決して「戻る」ボタンをクリックせず、最終的にはそこに飽きて別のページで同じことを繰り返す「ランダムサーファー」がいると仮定する。そうしたランダムサーファーがページを訪問する可能性を示すのがPageRankである。 別の言い方をすれば、あるページに対するリンクが多ければ多いほど、そのページはたくさんの「票」を獲得し、その結果PageRankも高くなるというわけだ。もう少し深く掘り下げて言うと、票の重さはリンク元の各

    Googleページランクの初期モデルの限界とGoogleが加えた2つの重要な調整 | Moz - SEOとインバウンドマーケティングの実践情報
  • 1