[B! Hadoop] kimutanskのブックマーク

Architecting a Next Generation Data Platform – Strata Singapore 2017

kimutansk 2017/12/06

内容の網羅っぷりが広範ですねぇ・・　年末年始のチーム内技術の流れ振り返り、このスライドを要約して説明すればいい気がしてきました。

リンク

認証/認可が実現する安全で高速分析可能な分析処理基盤

2. 自己紹介 • 木浦正博, Masahiro Kiura • 株式会社ドワンゴ/第二サービス開発本部 • ソフトウェアエンジニア • 2015年01月入社 • I ❤️ • 分散システム(Hadoop/Grid computing etc…) • パラメータチューニング • Linux • Python 2DWANGO Co., Ltd. all rights reserved. 3. 会社紹介株式会社ドワンゴ • カドカワグループ • ニコニコ動画、ニコニコ生放送をはじめとするニコニコ事業を展開 • 2016年04月 N高等学校/N予備校開校 • 2017年04月ニコニコ超会議2017開催項目データ登録者数約6,743万人プレミアム会員数※ 約243万人 MAU 約913万人 ※プレミアム会員とは? 月額540円にて、専用回線での快適な視聴や、生放送の優先視聴ほか

kimutansk 2017/11/07

どういうモチベーション、どういう段階、どういう対応を経て実現したかという意味でのまとめ・振り返りとして非常に秀逸な資料だとは思います。

hadoop
auth

リンク

Apache HadoopのHDFS Erasure Codingの紹介

原文: https://blog.cloudera.com/blog/2015/09/introduction-to-hdfs-erasure-coding-in-apache-hadoop/ 訳注：2015/9/23に公開されたブログの翻訳です。ブログ公開当時とは異なる点もありますので、最新情報はHDFS-7285、HDFS-8031などをご確認ください。 HDFSの新機能であるイレイジャーコーディング(Erasure Coding)は、レプリケーション（複製）と比較して、同等の永続性の保証を維持しながらストレージのオーバーヘッドを約50％削減することができます。このブログでは、Erasure Codingがどのように動作するかを説明します。デフォルトでHDFSは各ブロックを3回複製します。レプリケーションは、ほとんどの障害シナリオを回避するための、シンプルで堅牢な冗長性の形式を提

kimutansk 2017/05/19

NameNodeのブロックマップは相応に増える、あとはラックも分散させる必要はある。ただスループットは向上し、当然ディスク使用量も減ると。きちんとはまるケースは相応にありそうです。

hadoop
HDFS

リンク

Tez on CDH 5.2.5 -- CDH-4212

kimutansk 2017/03/22

いきなりこの手の差分があるあたりが厄介な点ではありますね。ただ、実際はJar入れ替えで済んで、Tezをソースコードからビルドして実環境に投入することはありませんでしたが。

リンク

Slider getting InvalidProtocolBufferException error

kimutansk 2017/03/16

protobufのバージョンは同じでもHadoopのバージョンが異なるとプロトコルエラーになるのは、特定のエンティティなどを基にprotobufが通信モジュールを生成しているから・・？

リンク

[HADOOP-1687] Name-node memory size estimates and optimization proposal. - ASF JIRA

I've done some estimates on how much space our data structures take on the name-node per block, file and directory. Brief overview of the data structures: Directory tree (FSDirectory) is built of inodes. Each INode points either to an array of blocks if it corresponds to a file or to a TreeMap<String, INode> of children INodes if it is a directory. [Note: this estimates were made before Dhruba rep

kimutansk 2017/03/15

NameNodeのメモリ上に存在するブロック情報がレプリケーションされても増えないことが疑問でしたが、実際は増えるがファイルやブロックのサイズに比べると影響が小さいと。

Hadoop
HDFS

リンク

Compression vs. Performance · Apache Big_Data Notes: Hadoop, Spark, Flink, etc.

kimutansk 2017/02/22

BZIP2、圧縮率高いしIndexなしでSplittableなのでその意味ではいいのですが、やはり現実のジョブとしては重いですか。このあたりちと残念ですよね・・・

リンク

Yahoo! JAPAN MeetUp #8 （インフラ技術カンファレンス）セッション②

1. Copyright © 2017 Yahoo Japan Corporation. All Rights Reserved. 2017年1月30日 1 ヤフー株式会社システム統括本部サイトオペレーション本部インフラ技術3部 DCNW1 深澤開 Network for the Large-scale Hadoop Cluster at Yahoo! JAPAN 2. Copyright © 2017 Yahoo Japan Corporation. All Rights Reserved. 自己紹介 2  名前  深澤開 (ふかざわかい)  所属  データ&サイエンスソリューション統括本部データプラットフォーム本部開発2部  システム統括本部サイトオペレーション本部インフラ技術3部 (兼務)  業務  全社Hadoopの設計・構築・運用  データセン

kimutansk 2017/01/31

75PB・・・とりあえず、ネットワーク周りの構成は理解できるようにしておかないと。

Hadoop

リンク

基幹業務もHadoop(EMR)で!!のその後

11. 店舗発注業務の裏側ローソン全業務で利⽤されるマスタデータを⽇次バッチで最新化 1 最新化された全業務マスタデータの更新差分を各店舗へファイル連携店舗へ更新分データのファイル連携 2 本部センターファイル連携基盤ストアコンピュータデータ反映発注端末商品を発注しますね更新データ全業務マスタデータ⽇次バッチ処理最新化 1 2 3 4 全業務マスタデータの最新化処理連携されたファイルデータを各店舗にあるストコン内のDBへ反映する。 3 最新化されたマスタデータをもとに発注業務を実施発注時の商品データ参照4 更新分データのDB反映処理 12. 店舗発注業務の裏側ローソン全業務で利⽤されるマスタデータを⽇次バッチで最新化 1 最新化された全業務マスタデータの更新差分を各店舗へファイル連携店舗へ更新分データのファイル連携 2 本部センターファイル連

kimutansk 2016/12/15

チューニング結果ボトルネックが移動と。ただ、Auroraでも構成図だけ見ちゃうとスケールアウトできない個所でいつか死ねる気もします。もっと前段階の見切りが必要・・？

aws
hadoop

リンク

基幹業務もHadoopで!! -ローソンにおける店舗発注業務への�Hadoop + Hive導入とその取り組みについて-

kimutansk 2016/12/15

AWSとHadoopの上で実施しているものの、業務のせいかやはりSIer感を感じさせる内容。とはいえ、だからこそ資料を見ていて面白いです。

hadoop
aws

リンク

Cloud Native Hadoop #cwt2016

クラウド時代の今、"Cloud Native" や "Microservices" などのワードをよく見かけるようになりました。これらは基本的に「クラウド上でアプリケーションを開発するためのベストプラクティス」を意味する言葉です。一方、Hadoop がクラウドの文脈で語られることはまだまだ少ない状況です。それはアプリケーションと比較して、より H/W や OS に近いレイヤーの Hadoop をクラウド上で稼働させるためには今までとは違う根本的なアーキテクチャーの変更を伴うケースがあるためです。本セッションでは "Cloud Native" な Hadoop とは何か、またそのベストプラクティスをデモを交えて紹介します。Read less

kimutansk 2016/11/10

S3に直接アクセスしていくモデルになると、AWSが強力な従量マネージドなサービスを出すと全部持っていかれそうですが、そこにディストリビュータがどう伍してきますかね。

aws
hadoop

リンク

Hadoop Summit Tokyo 2016に行ってきた - wyukawa's diary

http://hadoopsummit.org/tokyo チケット代が約4万円で高いと噂になったHadoop Summit Tokyo 2016に行ってきました。ただ海外ではこのぐらいの値段は普通らしく、むしろ日本が異常に安すぎるという。そのしわ寄せがイベント運営者にいってしまっているのが現状なので、世界基準を知る良い機会だったかも。僕は2日間とも最初から参加しました。基調講演を除くと聞いたセッションは下記の通り。 10/26 Real-time Analytics in Financial: Use Case, Architecture and Challenges Path to 400M Members: LinkedIn’s Data Powered Journey Hadoop 3.0 in a Nutshell Apache Eagle - Monitor Hadoo

kimutansk 2016/10/29

確かにユースケース次第では「部署単位でHadoopクラスタを持って必要に応じてデータをコピー」も面白いのかも。残念ながら用途が違うので私たちは出来ませんが。

hadoop

リンク

Cloudera Hybrid Data Community

kimutansk 2016/10/27

ZeppelinからのSpark接続とか、ありがたいQAが多いですね。Design&Architectureとかもいい。

hadoop

リンク

https://mail-archives.apache.org/mod_mbox/hive-user/201605.mbox/%3Ccda51537-18d0-be85-ea4c-c59f1c6e2b5c@oracle.com%3E

kimutansk 2016/08/16

MR1系だとやはりHDFSのFileInputFormatの再帰読み込みできないわけですか。ただCDHで普通にhadoop jarコマンドで走らせると再帰読み込み効かなくなるのはなぜだ・・？

hadoop

リンク

Using Apache Parquet Data Files with CDH | 6.3.x | Cloudera Documentation

Apache Parquet is a columnar storage format available to any component in the Hadoop ecosystem, regardless of the data processing framework, data model, or programming language. The Parquet file format incorporates several features that support data warehouse-style operations: Columnar storage layout - A query can examine and perform calculations on all values for a column while reading only a sma

kimutansk 2016/08/04

読み方が一瞥できるのはありがたい・・・

リンク

第6回　Hiveでボトルネックとなってきたメタデータ、HBaseを使ってレイテンシの改善に挑む ―「Hadoop Summit 2016 San Jose」から | gihyo.jp

IT Cutting Edge ─世界を変えるテクノロジの最前線第6回Hiveでボトルネックとなってきたメタデータ、HBaseを使ってレイテンシの改善に挑む ―「Hadoop Summit 2016 San Jose」から 2016年6/28～6/30（米国時間）の3日間に渡って米サンノゼで開催された「Hadoop Summit 2016 San Jose」（⁠主催: Hortornworks／Yahoo!）では、2016年のHadoopトレンドを紹介する数多くの技術／事例セッションが行われました。本稿ではそのひとつ、Hortonwokrsによるセッション「hive HBase Metastore - Improving Hive with a Big Data Metadata Storage」をもとに、HiveのメタデータをHBaseでストアすることでHiveの低レイテンシ化を図る技

kimutansk 2016/07/20

ボトルネックになるのはわかりますが、これを果たしてHBaseでやる必要性があったのか。Hadoopファミリーで統一しようという意図はわかるのですが・・・

hadoop
HBase

リンク

Introduction to Apache Apex

kimutansk 2016/05/29

やはり、YARNに最適化された動作、HDFSに状態保存可能という意味で、Hadoopクラスタで運用する利点が大きいですね。Apexは。

リンク

Using CombineInputFormat to Combat Hadoop’s Small Files Problem | Amazon Web Services

AWS Big Data Blog Using CombineInputFormat to Combat Hadoop’s Small Files Probl em James Norvell is a Big Data Cloud Support Engineer for AWS Many Amazon EMR customers have architectures that track events and streams and store data in S3. This frequently leads to many small files. It’s now well known that Hadoop doesn’t deal well with small files. This issue can be amplified when migrating from Had

kimutansk 2016/05/05

細分化したファイルをマージして読み込む場合、パっと見た感じ、「HDFSのブロック情報上のサイズ」基準のマージですか。圧縮ファイルの場合は圧縮後のサイズが基準と。

hdfs
hadoop

リンク

Tez 0.5.2をHadoop 2.6.0で動かしてみる - Qiita

前提コミュニティ版のHadoop 2.6.0がインストールされていること参考: Hadoop 2.5.0からHDFSをアップグレードするメモ Tez 0.5.2のインストール基本的に、公式ドキュメントに従うソースコードをダウンロード、展開 $ wget https://dist.apache.org/repos/dist/dev/tez/tez-0.5.2-src-rc0/apache-tez-0.5.2-src.tar.gz $ tar xf apache-tez-0.5.2-src.tar.gz $ cd apache-tez-0.5.2-src diff --git a/pom.xml b/pom.xml index dbf5923..28cd805 100644 --- a/pom.xml +++ b/pom.xml @@ -37,7 +37,7 @@ <propertie