2. Overview Motivations Real world problems we faced at Facebook Why Hadoop and Hive Hadoop & Hive Deployment and Usage at Facebook System architecture Use cases of Hive in Facebook Hive open source development and supports More use cases outside of Facebook Open source development and release cycles More technical details 3. “Real World” Problems at Facebook – growth! Data, data and more data 200
分析指向データレイク実現の次の一手 ~Delta Lake、なにそれおいしいの?~(NTTデータ テクノロジーカンファレンス 2020 発表資料) 分析指向データレイク実現の次の一手 ~Delta Lake、なにそれおいしいの?~ (NTTデータ テクノロジーカンファレンス 2020 発表資料) 2020年10月16日(金) NTTデータ システム技術本部 デジタル技術部 梅森 直人 講演動画は、YouTubeチャンネル「NTT DATA Tech」にて公開中! https://www.youtube.com/watch?v=NDb9nORBT_A "Apache Flink’s Exactly-Once Semantics (EOS) integration for writing to Apache Kafka has several pitfalls, due mostly to t
基本的には以下のエントリーを自分なりに再試・咀嚼したものです。 HDFS and Hive storage - comparing file formats and compression methods - Adaltas Hiveテーブルを作成する際、SequenceFileはTextFileに比べてMapReduce時の処理効率は概ね良くなる傾向にありますが、様々なヘッダー情報が付与されるためファイルサイズ的には若干冗長になります。 僕もHiveを触り始めてまだ1ヶ月ちょっとなので色々調べている中、RCFileという、HDFS上でHiveテーブルのように構造化されたデータを扱うのに適したデータ構造がある、という事を知ったので、それぞれ以下3種のデータフォーマットについてデータサイズの比較を行いました。 TEXTFILE SEQUENCEFILE RCFILE ◯前提条件 今回試験に使
Spark, SQL on Hadoop etc. Advent Calendar 2014 - Qiita 10日目の記事です。 とあるプロジェクトにて、パフォーマンスチューニングのために実施した7つのことをまとめました。 この内容はCloudera World Tokyo 2014でお話しさせていただいた内容を再編したものです。 登壇資料 - Hadoopで作る広告分析プラットフォーム 登壇の様子 - 国内最大級のHadoop関連カンファレンスに登壇してきました! 1.YARNが利用可能なリソースの変更 YARNではMR1と異なりスロットではなくコンテナという概念でリソースが管理されます。 以下のパラメータでノードマネージャがコンテナに利用可能なメモリ量、CPU数を変更しました。 yarn.nodemanager.resource.memory-mb yarn.nodemanager.
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く