いまやネットの世界を左右する強力な検索エンジンとなったGoogle。日本ではまだYahoo!の方がはるかに利用者が多いのでさほどではないですが、アルゴリズムの基本的な考えが似ているため、同じような結果が出てきます。つまり、既存の検索エンジンのその基礎となった一番最初のGoogleの検索アルゴリズムを理解すれば、検索エンジン対策にも役立つはず。 ということで、初代Googleのアルゴリズムをできるだけわかりやすく解説してみます。既存の他サイトの解説とは違い、きちんとした最初のGoogleの数式に基づいています。 詳細は以下から。The Anatomy of a Search Engine http://www-db.stanford.edu/~backrub/google.html Googleの画期的なランク付けの方法が数式による全自動のページランクというのは聞いたことがあると思いますが、
第 318 回 PTT のお知らせ 日時:2006年 1月26日(木) 18:30 から 場所:東京大学工学部 6号館(本郷キャンパス) 3階セミナー室A あまりわかりやすくはありませんが(失礼),交通機関の情報は「本郷アク セスマップ」(http://www.u-tokyo.ac.jp/campusmap/map01_02_j.html)を 御覧下さい. キャンパス内地図は「本郷キャンパス工学部 6号館」 (http://www.u-tokyo.ac.jp/campusmap/cam01_04_07_j.html)を参照して 下さい. ◆本郷三丁目駅(地下鉄丸ノ内線,地下鉄大江戸線),東大前駅(地下鉄南北線) からの場合: 本郷通りを通ってまず東京大学正門(キャンパス内を向くと安田講堂が見えます) を目指します.キャンパスに入り,安田講堂へと続く道の左側を並行にはしる道を 進みますと,
先日に引き続き、秋葉原の稚内北星学園大学東京サテライト校で行われたマルレク・サブセミナーに行ってきました。 http://www.wakhok.ac.jp/tyo-sat/subsemi2007.html 今日は二日目で「MapReduceとSawzall」。 今回は前回の反省を活かし、早めに到着して良い席をGETできました。開始を待つ間にMapReduceの論文を眺めて予習。前回の講義スピードと同じだとすると、とても予習ナシでは内容についていけないので。 今回も内容が盛りだくさんで、講義はハイスピード。途中会場からの質問なんかも軽く盛り上がり、残念ながら予定していたSawzallの話は全く出来ませんでした。 では簡単に、興味深かったことをノートから抜粋。 「MapReduce」 関数型プログラミングモデルに基づき、大規模なデータセットの処理/生成を行う。 keyとvalueのペアを処理し
処理内容 mapに対しては任意のデータが与えられる。 mapはkeyとvalueからなる大量のデータを戻す。 shuffleにて、全てのmapのkeyをまとめあげて、keyごとにreduce workerにkeyとvalue listを渡す。 reduceは、受け取ったkey/value listを処理する。 key/valueなデータに特化したPlaggerってことで間違いないのかなぁ? mapperで大量のデータから必要な物をフィルタリング(Subscription,Aggregator)して、reducerで実際の処理(Filter,Publish,Notify)を行うというPlaggerみたいな感じ。 全てのmapやreduceに大しての各workerの仕事量は平均的になる様にバランス良く配置する。 多分、mapやreduceの直前で、それぞれのjobの大きさを計測してmanage
Posted by: Hirotaka Ogawa @ January 26, 2006 11:55 PM | 久しぶりにPTTに参加した(#318th PTT (in Japanese))。東大に行くのもチョー久しぶりということもあって根津の坂をのぼるときには感慨めいたものを感じすらした。 今回はGoogleの林芳樹さんがMapReduceの話をしてくれるとあって異様に盛況だった。20人を切ることも稀でないPTTにあって60人以上の参加者。和田英一先生がイニシャルオーダーの話をしてくださった回には及ばないものの、Googleのネームバリューはすごいのね。話の内容はOSDI04のスライドとほぼ同じだったので参加できなかった方は以下を参照のこと。 MapReduce:Simplified Data Processing on Large Clusters MapReduceフレームワークで気
MapReduceは,Google社内でクラスタ上のデータ処理に用いられている並列分散プログラミングモデルである.ちょうど今サンフランシスコで開催されるOSDI 2004に発表予定の論文が,すでに公開されているが,これが非常に面白い. http://labs.google.com/papers/mapreduce.html 概要は次のような感じ. データ処理を,MapとReduceの2つに分割する.なお,この名前は同様な機能を持つLispの関数名が由来. Mapでは,あるキーと値の組から,中間のキーと値の組のリストを生成し,ローカルディスクに書き込む. Reduceでは,Mapが生成したキーと値の組をリモートディスクから読み出し,値のリストを返す. MapとReduceは,複数のワーカによって分散したマシン上で並列に実行される. たとえば,細分化された入力ファイルをMapを処理するワーカが
1.はじめに Webデータにおけるパターン発見をデータマイニング技術を用いて行なうこと をWebマイニングと呼ぶ。Webマイニングは、自然言語処理や機械学習、データ マイニングなどの人工知能の分野にとどまらず、情報検索やデータベースなど 幅広い分野と関連する複合的な研究分野である。 注目するWebデータの種類によって、Webマイニングは以下の3つに分類される。 1) Webページのコンテンツに注目し、自然言語処理やデータベースのアプローチを用いて、 テキストマイニングによる情報抽出や半構造データにおける検索のモデル化などを 目指すWeb内容マイニング 2) Webページ間を結ぶハイパーリンクによって構成されるグラフ構造に注目し、 関連ページの発見や重要ページのランキング、グラフ構造のモデル化などを 目指すWeb構造マイニング 3) Webページの閲覧によって生じる(サーバー側やクライアント
長い時間がかかったが、4大検索エンジンがランキングアルゴリズムの点から見てそれぞれ実際にどう異なるのか、だんだんわかり始めてきた。検索エンジンの中でYahoo!は、相変わらず最も秘密主義だ。Googleのますます複雑化するアルゴリズムについては、最もきちんと文書化されてはいるものの、最も理解されていない。 Yahoo!が2003年4月に独自の検索エンジンを使用し始めたとき※1、おそらくAltavistaやAllTheWeb、Inktomiが持つ技術から最高の機能を取り込んだはずだ。Inktomiは、リンクに重きを置いた最初の大手検索エンジンであり、偏りのない純粋なリンク人気に依存していた。また、これは個人的な意見だが、Altavistaの主な強みは、各ページの内容をまとめ、関連テーマごとに集約する能力にあると思う。この点においても、またその他に点に関しても、Altavistaの実験的な投資
This domain may be for sale!
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く