Architecting a Next Generation Data Platform – Strata Singapore 2017
2. 自己紹介 • 木浦正博, Masahiro Kiura • 株式会社ドワンゴ/第二サービス開発本部 • ソフトウェアエンジニア • 2015年01月入社 • I ❤️ • 分散システム(Hadoop/Grid computing etc…) • パラメータチューニング • Linux • Python 2DWANGO Co., Ltd. all rights reserved. 3. 会社紹介 株式会社ドワンゴ • カドカワグループ • ニコニコ動画、ニコニコ生放送を はじめとするニコニコ事業を展開 • 2016年04月 N高等学校/N予備校 開校 • 2017年04月 ニコニコ超会議2017開催 項目 データ 登録者数 約6,743万人 プレミアム会員数※ 約243万人 MAU 約913万人 ※プレミアム会員とは? 月額540円にて、専用回線での快適な視聴や、 生放送の優先視聴ほか
原文: https://blog.cloudera.com/blog/2015/09/introduction-to-hdfs-erasure-coding-in-apache-hadoop/ 訳注:2015/9/23に公開されたブログの翻訳です。ブログ公開当時とは異なる点もありますので、最新情報はHDFS-7285、HDFS-8031などをご確認ください。 HDFSの新機能であるイレイジャーコーディング(Erasure Coding)は、レプリケーション(複製)と比較して、同等の永続性の保証を維持しながらストレージのオーバーヘッドを約50%削減することができます。 このブログでは、Erasure Codingがどのように動作するかを説明します。 デフォルトでHDFSは各ブロックを3回複製します。 レプリケーションは、ほとんどの障害シナリオを回避するための、シンプルで堅牢な冗長性の形式を提
I've done some estimates on how much space our data structures take on the name-node per block, file and directory. Brief overview of the data structures: Directory tree (FSDirectory) is built of inodes. Each INode points either to an array of blocks if it corresponds to a file or to a TreeMap<String, INode> of children INodes if it is a directory. [Note: this estimates were made before Dhruba rep
1. Copyright © 2017 Yahoo Japan Corporation. All Rights Reserved. 2017年1月30日 1 ヤフー株式会社 システム統括本部 サイトオペレーション本部 インフラ技術3部 DCNW1 深澤 開 Network for the Large-scale Hadoop Cluster at Yahoo! JAPAN 2. Copyright © 2017 Yahoo Japan Corporation. All Rights Reserved. 自己紹介 2 名前 深澤 開 (ふかざわ かい) 所属 データ&サイエンスソリューション統括本部 データプラットフォーム本部 開発2部 システム統括本部 サイトオペレーション本部 インフラ技術3部 (兼務) 業務 全社Hadoopの設計・構築・運用 データセン
11. 店舗発注業務の裏側 ローソン全業務で利⽤されるマスタデータを ⽇次バッチで最新化 1 最新化された全業務マスタデータの更新差分を 各店舗へファイル連携 店舗へ更新分データのファイル連携 2 本部センター ファイル 連携基盤 ストアコンピュータ データ反映 発注端末 商品を発注 しますね 更新データ 全業務マスタデータ ⽇次バッチ処理 最新化 1 2 3 4 全業務マスタデータの最新化処理 連携されたファイルデータを各店舗にある ストコン内のDBへ反映する。 3 最新化されたマスタデータをもとに発注業務を実施 発注時の商品データ参照4 更新分データのDB反映処理 12. 店舗発注業務の裏側 ローソン全業務で利⽤されるマスタデータを ⽇次バッチで最新化 1 最新化された全業務マスタデータの更新差分を 各店舗へファイル連携 店舗へ更新分データのファイル連携 2 本部センター ファイル 連
基幹業務もHadoopで!! -ローソンにおける店舗発注業務への�Hadoop + Hive導入と その取り組みについて-
クラウド時代の今、"Cloud Native" や "Microservices" などのワードをよく見かけるようになりました。これらは基本的に「クラウド上でアプリケーションを開発するためのベストプラクティス」を意味する言葉です。一方、Hadoop がクラウドの文脈で語られることはまだまだ少ない状況です。それはアプリケーションと比較して、より H/W や OS に近いレイヤーの Hadoop をクラウド上で稼働させるためには今までとは違う根本的なアーキテクチャーの変更を伴うケースがあるためです。本セッションでは "Cloud Native" な Hadoop とは何か、またそのベストプラクティスをデモを交えて紹介します。Read less
http://hadoopsummit.org/tokyo チケット代が約4万円で高いと噂になったHadoop Summit Tokyo 2016に行ってきました。 ただ海外ではこのぐらいの値段は普通らしく、むしろ日本が異常に安すぎるという。 そのしわ寄せがイベント運営者にいってしまっているのが現状なので、世界基準を知る良い機会だったかも。 僕は2日間とも最初から参加しました。 基調講演を除くと聞いたセッションは下記の通り。 10/26 Real-time Analytics in Financial: Use Case, Architecture and Challenges Path to 400M Members: LinkedIn’s Data Powered Journey Hadoop 3.0 in a Nutshell Apache Eagle - Monitor Hadoo
Apache Parquet is a columnar storage format available to any component in the Hadoop ecosystem, regardless of the data processing framework, data model, or programming language. The Parquet file format incorporates several features that support data warehouse-style operations: Columnar storage layout - A query can examine and perform calculations on all values for a column while reading only a sma
IT Cutting Edge ─世界を変えるテクノロジの最前線 第6回Hiveでボトルネックとなってきたメタデータ、HBaseを使ってレイテンシの改善に挑む ―「Hadoop Summit 2016 San Jose」から 2016年6/28~6/30(米国時間)の3日間に渡って米サンノゼで開催された「Hadoop Summit 2016 San Jose」(主催: Hortornworks/Yahoo!)では、2016年のHadoopトレンドを紹介する数多くの技術/事例セッションが行われました。本稿ではそのひとつ、Hortonwokrsによるセッション「hive HBase Metastore - Improving Hive with a Big Data Metadata Storage」をもとに、HiveのメタデータをHBaseでストアすることでHiveの低レイテンシ化を図る技
AWS Big Data Blog Using CombineInputFormat to Combat Hadoop’s Small Files Problem James Norvell is a Big Data Cloud Support Engineer for AWS Many Amazon EMR customers have architectures that track events and streams and store data in S3. This frequently leads to many small files. It’s now well known that Hadoop doesn’t deal well with small files. This issue can be amplified when migrating from Had
前提 コミュニティ版のHadoop 2.6.0がインストールされていること 参考: Hadoop 2.5.0からHDFSをアップグレードするメモ Tez 0.5.2のインストール 基本的に、公式ドキュメントに従う ソースコードをダウンロード、展開 $ wget https://dist.apache.org/repos/dist/dev/tez/tez-0.5.2-src-rc0/apache-tez-0.5.2-src.tar.gz $ tar xf apache-tez-0.5.2-src.tar.gz $ cd apache-tez-0.5.2-src diff --git a/pom.xml b/pom.xml index dbf5923..28cd805 100644 --- a/pom.xml +++ b/pom.xml @@ -37,7 +37,7 @@ <propertie
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く