タグ

hdfsに関するhohoho_ho2005のブックマーク (10)

  • Apache Hadoop HDFSの最新機能の紹介(2018)#dbts2018

    2018年9月20日開催されたdb tech showcase Tokyo 2018で発表した資料です。

    Apache Hadoop HDFSの最新機能の紹介(2018)#dbts2018
  • HDFSの新しい機能3つ

    HDFSは分散ファイルシステムとして確固たる地位を築きましたが、NFSのサポートやスナップショットなど、多くの機能が追加されています。 その中で、今後 Hadoop 3 で重要となる「HDFSのイレイジャーコーディング」を含めたClouderaのHDFSに関するブログ記事を日語に翻訳しました。 全3回にわたって掲載する予定なので、興味があればご覧ください。 第1弾:Apache HadoopのHDFS Erasure Codingの紹介 第2弾:How-to: Apache Hadoopで新しいHDFS DataNodeディスク間バランサを使用する 第3弾:HDFSのメンテナンスステート

    HDFSの新しい機能3つ
  • 独断と偏見で選ぶHDFSのファイル形式 - サナギわさわさ.json

    HDFSのファイル形式を何にすべきか、というのはRPGの主人公の名前を何にすべきか、と同じぐらい皆さん悩まれるかと思います。 ご多分に漏れず僕も悩みましたので、調べた事をまとめておきます。 なお先に結論だけ言っておきますと、大体のケースではORCをZlib圧縮して使っておけば良いんじゃないかなと考えています。マサカリは歓迎です。 ※201701/21追記 EMR5.0以降ではHive + ORCで遅くなるケースがあるとのアドバイスをAWSのサポートの方から伺いました。EMRを使っている方はParquetとの速度比較をしてみたほうが良いかもしれません。 ファイル形式の候補 ファイル形式の候補としては大体以下が挙げられます。 ORC Apache Parquet Apache Avro SequenceFile TextFile 各形式の特徴 それぞれのファイル形式の詳細な説明はここではせず、

    独断と偏見で選ぶHDFSのファイル形式 - サナギわさわさ.json
  • Start HDFS and YARN on Mac - Qiita

    Hadoopをインストール ここからHadoop Commonをダウンロード。ビルド済なのでmacでも動く。設定などは全て/etc/hadoopの中に含まれている。(2.xであれば) こいつを擬似分散モードで動かします。 コマンドなどのバイナリはbinとsbinに含まれているのでここにPATHを通しておくといい。あとJAVA_HOMEが適切に設定されていることも確認する。自分はzshrcにこんな風に書いた。 export JAVA_HOME=`/usr/libexec/java_home` export HADOOP_INSTALL=/Users/kaisasak/hadoop-2.4.1 export PATH=$PATH:$HADOOP_INSTALL/bin:$HADOOP_INSTALL/sbin

    Start HDFS and YARN on Mac - Qiita
  • HDFS Architecture Guideを読んだ - ほげほげ日記

    HDFS(Hadoop Distributed File System)はHadoopのデータストアとして使われる分散ファイルシステムである。 「Google File System」を元に設計されている。 高い耐障害性を持つこと、高いスループットが大きな特徴である。 また、大規模データ処理に使われるため、巨大なデータを格納できるように設計してある。 以下、メモ書き。 3 NameNode and DataNode HDFSはマスタースレーブ型のアーキテクチャを採用している。 マスターノードのことをNameNode、スレーブノードのことをDataNodeと呼ぶ。 NameNodeはファイルやディレクトリの操作をとり行う。また、ブロック(後述)をどのDataNodeで作成するかを決定する。 DataNodeはNameNodeからの命令を受けて、ブロックの作成・削除・複製を行う。 4 The

    HDFS Architecture Guideを読んだ - ほげほげ日記
  • HDFSが高速に?キャッシュメカニズムの追加

    日公開された HDFS-4949 のJIRAは、HDFSにインメモリキャッシュ機構を導入しようというものです。 Jiraに添付されているドキュメントより興味深い点を抜粋してみます:Centralized cache management 問題点1:複数ノードでのキャッシュの利用 HDFS上のデータの読み書きの際には、ディスクから読み出されたデータは、Linuxのカーネル内のページキャッシュ(原文ではBuffer cacheとなってます)にキャッシュされます。(これにより毎回ディスクアクセスを避けることが期待できます) しかし、ページキャッシュの情報はカーネルが持っており、ユーザーランドに公開されているわけではありません。つまり、上位のフレームワークの視点から見ると、タスクをどのノードに配置するかのために公開されているわけではないということです。(当たり前ですが、、) その結果、HDFSに

    HDFSが高速に?キャッシュメカニズムの追加
  • Twitter: データ分析基盤改善取り組み - ワザノバ | wazanova.jp

    https://www.facebook.com/photo.php?v=10151697364230687&set=vb.9445547199&type=2&theater TwitterのAnalyticsインフラチームが、データ分析基盤の改善に取り組んできた事例を紹介しています。 1) 背景 4億tweet/日を発信 & 消費しているユーザのアクティビティを、Twitter社内の多くのチームがそれぞれの観点 & 様々な利用形態で分析データを必要とするため、量およびデータの依存関係が、相当大きく複雑なものになっている。Analyticsインフラは、1000ノードあるHadoopのクラスタをいくつかもつ規模。 ストレージフットプリント & I/Oを減らすだけでなく、他の方法でプロセススピードをあげることに取り組んでいる。 2) Parquet (「Hadoop用のカラムナストレージフォー

  • HDFSの暗号化

    Hadoopのセキュリティについての雑記 認証についてはKerberosを使うというのがスタンダードですが、暗号化についても徐々に進んでいます。 ネットワークの暗号化 例えば、ネットワークの暗号化については下記のブログがお勧めです。 http://blog.cloudera.com/blog/2013/03/how-to-set-up-a-hadoop-cluster-with-network-encryption/ ファイルシステムの暗号化 ファイルシステム/ディスクの暗号化は現状対応していないので、LinuxのDevice Mapperを使用したdm-cryptや、eCryptfsの仕組みを利用するしかありません。 ところが先週 Jira に「Hadoop cryptographic file system」というチケット(HDFS-5143)が登録されました。今後どうなるかわかりませ

    HDFSの暗号化
  • HDFSのショートサーキット雑感

    HDFSのShort-Circuit Local Readについてのブログ記事を読んで 先週お盆休みに公開されたブログ、「How Improved Short-Circuit Local Reads Bring Better Performance and Security to Hadoop」には興味深い内容が書いてあります。これは必読では?と思ったので、少しまとめてみます。 元々の処理 クライアントがHDFSからデータを読み出す場合、データノードとのネットワーク通信が発生します。これはシンプルですが、カーネル内でTCPソケットを保持しておくなどのオーバヘッドがかかります。(ブログ中の最初の図) Short-Circuit Local Reads with HDFS-2246 このチケットでの改善は、クライアントとデータノードが同一マシンの場合、直接ローカルファイルシステムからデータを読

    HDFSのショートサーキット雑感
  • HDFS の信頼性(原題:HDFS Reliability) ‎(Pac Learner)‎

    Not your computer? Use a private browsing window to sign in. Learn more about using Guest mode

  • 1