[B! hdfs] hohoho_ho2005のブックマーク

Apache Hadoop HDFSの最新機能の紹介（2018）#dbts2018

2018年9月20日開催されたdb tech showcase Tokyo 2018で発表した資料です。

hohoho_ho2005 2018/09/21

hdfs
hadoop

リンク

HDFSの新しい機能３つ

HDFSは分散ファイルシステムとして確固たる地位を築きましたが、NFSのサポートやスナップショットなど、多くの機能が追加されています。その中で、今後 Hadoop 3 で重要となる「HDFSのイレイジャーコーディング」を含めたClouderaのHDFSに関するブログ記事を日本語に翻訳しました。全３回にわたって掲載する予定なので、興味があればご覧ください。第１弾：Apache HadoopのHDFS Erasure Codingの紹介第２弾：How-to: Apache Hadoopで新しいHDFS DataNodeディスク間バランサを使用する第３弾：HDFSのメンテナンスステート

hohoho_ho2005 2017/06/08

hdfs
hadoop

リンク

独断と偏見で選ぶHDFSのファイル形式 - サナギわさわさ.json

HDFSのファイル形式を何にすべきか、というのはRPGの主人公の名前を何にすべきか、と同じぐらい皆さん悩まれるかと思います。ご多分に漏れず僕も悩みましたので、調べた事をまとめておきます。なお先に結論だけ言っておきますと、大体のケースではORCをZlib圧縮して使っておけば良いんじゃないかなと考えています。マサカリは歓迎です。 ※201701/21追記 EMR5.0以降ではHive + ORCで遅くなるケースがあるとのアドバイスをAWSのサポートの方から伺いました。EMRを使っている方はParquetとの速度比較をしてみたほうが良いかもしれません。ファイル形式の候補ファイル形式の候補としては大体以下が挙げられます。 ORC Apache Parquet Apache Avro SequenceFile TextFile 各形式の特徴それぞれのファイル形式の詳細な説明はここではせず、

hohoho_ho2005 2016/11/28

HDFS

リンク

Start HDFS and YARN on Mac - Qiita

HadoopをインストールここからHadoop Commonをダウンロード。ビルド済なのでmacでも動く。設定などは全て/etc/hadoopの中に含まれている。(2.xであれば) こいつを擬似分散モードで動かします。コマンドなどのバイナリはbinとsbinに含まれているのでここにPATHを通しておくといい。あとJAVA_HOMEが適切に設定されていることも確認する。自分はzshrcにこんな風に書いた。 export JAVA_HOME=`/usr/libexec/java_home` export HADOOP_INSTALL=/Users/kaisasak/hadoop-2.4.1 export PATH=$PATH:$HADOOP_INSTALL/bin:$HADOOP_INSTALL/sbin

hohoho_ho2005 2016/01/07

hadoop
HDFS

リンク

HDFS Architecture Guideを読んだ - ほげほげ日記

HDFS(Hadoop Distributed File System)はHadoopのデータストアとして使われる分散ファイルシステムである。「Google File System」を元に設計されている。高い耐障害性を持つこと、高いスループットが大きな特徴である。また、大規模データ処理に使われるため、巨大なデータを格納できるように設計してある。以下、メモ書き。 3 NameNode and DataNode HDFSはマスタースレーブ型のアーキテクチャを採用している。マスターノードのことをNameNode、スレーブノードのことをDataNodeと呼ぶ。 NameNodeはファイルやディレクトリの操作をとり行う。また、ブロック(後述)をどのDataNodeで作成するかを決定する。 DataNodeはNameNodeからの命令を受けて、ブロックの作成・削除・複製を行う。 4 The

hohoho_ho2005 2015/07/03

hadoop
hdfs

リンク

HDFSが高速に？キャッシュメカニズムの追加

本日公開された HDFS-4949 のJIRAは、HDFSにインメモリキャッシュ機構を導入しようというものです。 Jiraに添付されているドキュメントより興味深い点を抜粋してみます：Centralized cache management 問題点1：複数ノードでのキャッシュの利用 HDFS上のデータの読み書きの際には、ディスクから読み出されたデータは、Linuxのカーネル内のページキャッシュ（原文ではBuffer cacheとなってます）にキャッシュされます。（これにより毎回ディスクアクセスを避けることが期待できます）しかし、ページキャッシュの情報はカーネルが持っており、ユーザーランドに公開されているわけではありません。つまり、上位のフレームワークの視点から見ると、タスクをどのノードに配置するかのために公開されているわけではないということです。（当たり前ですが、、）その結果、HDFSに

hohoho_ho2005 2013/12/16

hadoop
hdfs

リンク

Twitter: データ分析基盤改善取り組み - ワザノバ | wazanova.jp

https://www.facebook.com/photo.php?v=10151697364230687&set=vb.9445547199&type=2&theater TwitterのAnalyticsインフラチームが、データ分析基盤の改善に取り組んできた事例を紹介しています。 1) 背景４億tweet/日を発信 & 消費しているユーザのアクティビティを、Twitter社内の多くのチームがそれぞれの観点 & 様々な利用形態で分析データを必要とするため、量およびデータの依存関係が、相当大きく複雑なものになっている。Analyticsインフラは、1000ノードあるHadoopのクラスタをいくつかもつ規模。ストレージフットプリント & I/Oを減らすだけでなく、他の方法でプロセススピードをあげることに取り組んでいる。 2) Parquet （「Hadoop用のカラムナストレージフォー

hohoho_ho2005 2013/10/26

リンク

HDFSの暗号化

Hadoopのセキュリティについての雑記認証についてはKerberosを使うというのがスタンダードですが、暗号化についても徐々に進んでいます。ネットワークの暗号化例えば、ネットワークの暗号化については下記のブログがお勧めです。 http://blog.cloudera.com/blog/2013/03/how-to-set-up-a-hadoop-cluster-with-network-encryption/ ファイルシステムの暗号化ファイルシステム／ディスクの暗号化は現状対応していないので、LinuxのDevice Mapperを使用したdm-cryptや、eCryptfsの仕組みを利用するしかありません。ところが先週 Jira に「Hadoop cryptographic file system」というチケット(HDFS-5143)が登録されました。今後どうなるかわかりませ

hohoho_ho2005 2013/08/31

hdfs
hadoop

リンク

HDFSのショートサーキット雑感

HDFSのShort-Circ uit Local Readについてのブログ記事を読んで先週お盆休みに公開されたブログ、「How Improved Short-Circ uit Local Reads Bring Better Performance and Security to Hadoop」には興味深い内容が書いてあります。これは必読では？と思ったので、少しまとめてみます。元々の処理クライアントがHDFSからデータを読み出す場合、データノードとのネットワーク通信が発生します。これはシンプルですが、カーネル内でTCPソケットを保持しておくなどのオーバヘッドがかかります。（ブログ中の最初の図） Short-Circ uit Local Reads with HDFS-2246 このチケットでの改善は、クライアントとデータノードが同一マシンの場合、直接ローカルファイルシステムからデータを読