Distributed computing (Apache Hadoop, Spark, ...) Advent Calendar 2016の12/25分です。もともとYARNのApplication Timeline Server v2について書こうと思っていたのですが、気が変わってHadoopとS3の関係性について書いていこうと思います。もし期待していた方がいらっしゃったらごめんなさい。(ATSについては機会があればまた書きたいと思います。) 背景 S3について書こうとおもったのは、下記のような仕組みを作っている中でいろいろ思うところがあったからです。 システムがS3に吐き出す様々なログ、データやメトリクスをZepplinで可視化するための仕組みです。永続化したいデータはS3にしか置かず、SparkやZeppelinなどのコンポーネントはステートレスかつ拡張、もしくは別の計算フレームワ
![HadoopとS3 - Qiita](https://cdn-ak-scissors.b.st-hatena.com/image/square/c36e1696713f0cbc7c3def9e90ba1beebb4d00b7/height=288;version=1;width=512/https%3A%2F%2Fqiita-user-contents.imgix.net%2Fhttps%253A%252F%252Fcdn.qiita.com%252Fassets%252Fpublic%252Fadvent-calendar-ogp-background-7940cd1c8db80a7ec40711d90f43539e.jpg%3Fixlib%3Drb-4.0.0%26w%3D1200%26mark64%3DaHR0cHM6Ly9xaWl0YS11c2VyLWNvbnRlbnRzLmltZ2l4Lm5ldC9-dGV4dD9peGxpYj1yYi00LjAuMCZ3PTk3MiZoPTM3OCZ0eHQ9SGFkb29wJUUzJTgxJUE4UzMmdHh0LWFsaWduPWxlZnQlMkN0b3AmdHh0LWNvbG9yPSUyMzNBM0MzQyZ0eHQtZm9udD1IaXJhZ2lubyUyMFNhbnMlMjBXNiZ0eHQtc2l6ZT01NiZzPTE5NjdjY2IxNGZiNDkyZjBkMmIwM2E2OTViMmZmOTI2%26mark-x%3D120%26mark-y%3D96%26blend64%3DaHR0cHM6Ly9xaWl0YS11c2VyLWNvbnRlbnRzLmltZ2l4Lm5ldC9-dGV4dD9peGxpYj1yYi00LjAuMCZoPTc2Jnc9OTcyJnR4dD0lNDBpbWFpZmFjdG9yeSZ0eHQtY29sb3I9JTIzM0EzQzNDJnR4dC1mb250PUhpcmFnaW5vJTIwU2FucyUyMFc2JnR4dC1zaXplPTM2JnR4dC1hbGlnbj1sZWZ0JTJDdG9wJnM9NDhlOWQ1YzhkMTEyNzZlODJhOWM0ZTNiMDczZjFkOTY%26blend-x%3D120%26blend-y%3D500%26blend-mode%3Dnormal%26s%3Deca8c12a733b270cb6d976d053c007e2)