https://www.facebook.com/notes/facebook-engineering/under-the-hood-building-posts-search/10151755593228920 Facebookがエンジニアブログで、2年間に渡って開発した投稿検索機能について紹介しています。投稿10億件/日、投稿インデックス1兆件で数百テラバイトのデータをリアルタイム処理する機能とはすごいですね。 1) データの収集 一番の大きなチャレンジは、データスキーマの変更に都度対応しながら、時間/場所/タグ(ウォール投稿、写真、チェックインで仕様がバラバラ)でソートできる検索システムを構築しなければいけなかったこと。Facebookのカルチャーとして、必要なものはどんどん変更されていくのだが、投稿検索で利用しているデータは約70種。その多くは、特定のタイプの投稿に紐づいている。か
米オラクルが主催するMySQLのイベント「MySQL Connect」が9月21日から23日まで、サンフランシスコで開催されました。Oracle OpenWorld、JavaOneとの同時開催でした。 基調講演の1つには、MySQLのヘビーユーザーであるFacebookのHarrison Fisk氏が登壇。FacebookにおけるMySQLの役割、大規模運用の背景などを紹介しています。その内容をダイジェストで紹介しましょう。 MySQL@Facebook Lots and lots of small data Harrison Fisk氏。 Facebookでデータパフォーマンスチームのマネージャをしている。社内ではMySQLはもちろん、HBase Hadoopなどにも関わっている。 まずは、どんな種類のデータをMySQLで扱っているのかについて。 Facebookとは基本的にグラフだ。グ
People following the open source Giraph project likely know that Facebook (s fb) was experimenting with it, and on Wednesday the company detailed just how heavily it’s leaning on Giraph. Facebook scaled it to handle trillions of connections among users and their behavior, as the core of its Open Graph tool. Oh, and now anyone can download Giraph, which is an Apache Software Foundation project, wit
ラックごとに物理的にコンピュータリソースを最適化するFacebookの技術「Disaggregated Rack」とは何か? Facebookは、データセンターのサーバ構成をより柔軟にするための新しい手法「Disaggregated Rack」を、1月に米サンタクララで開催されたOpen Compute Summit Winter 2013で明らかにしています(いまになって公開された動画を見ていたら見つけました)。 データセンターのサーバやストレージを効率的に利用するためには、仮想化によってリソースプールを作り、アプリケーションに応じてそれを切り出して使う方法が一般に考えられています。 しかしFacebookが採用する方法は、CPUやメモリやストレージを物理的なコンポーネントにして、それをラックに追加したり引き抜いたりすることでラックごとのシステム構成を物理的に変えてしまおうという手法です
Facebook、Hadoopのスケーラビリティ問題を解決する、独自の「Hadoop Corona」をオープンソースで公開 Facebookでは、24時間ごとに0.5ペタバイトのデータが生成され、それらを分析するために毎日6万回以上ものHiveのクエリが実行されているそうです。 こうした大規模処理を行うプラットフォームとして使われているのがHadoop。しかしFacebookはHadoop MapReduceのスケーラビリティに限界を感じており、それを解決するための新しいソフトウェア「Hadoop Corona」を開発、オープンソースで公開しました。 Facebookのページ「Under the Hood: Scheduling MapReduce jobs more efficiently with Corona」では、従来のHadoop MapReduceのどこに課題があったのか、4つ
Engineers at Twitter, Paypal have joined Facebook in offering a look under the hood of the massive MySQL deployments that drive their web services. Database and application engineers at both of the web giants provided intimate details of how they use MySQL open source relational databases to run globally-distributed, highly available and consistent web applications. The move echoes a Facebook webc
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く