[B! HDFS][hdfs] [3ページ] yassan0627のブックマーク

HDFS Storage Data Format like Avro vs Parquet vs ORC

yassan0627 2017/06/29

リンク

Apache Hadoop 3.4.0 – Hadoop: Setting up a Single Node Cluster.

General Overview Single Node Setup Cluster Setup Commands Reference FileSystem Shell Compatibility Specification Downstream Developer's Guide Admin Compatibility Guide Interface Classification FileSystem Specification Common CLI Mini Cluster Fair Call Queue Native Libraries Proxy User Rack Awareness Secure Mode Service Level Authorization HTTP Authentication Credential Provider API Hadoop KMS Trac

yassan0627 2017/06/26

hadoop
HDFS

リンク

HDFS Erasure Codingの紹介とYahoo! JAPANにおける運用事例

ヤフー株式会社は、2023年10月1日にLINEヤフー株式会社になりました。LINEヤフー株式会社の新しいブログはこちらです。LINEヤフー Tech Blog はじめにこんにちは。Yahoo! JAPANでHadoopに携わっているエンジニアの浅沼です。Hadoopは大量のデータを分散処理するためのオープンソースソフトウエアです。この夏にリリース予定のバージョン3.0系には、HDFSの新機能であるErasure Codingが導入されます。Yahoo! JAPANではHadoopコミュニティーでErasure Codingの実装に参加してきました。本記事ではErasure Codingの仕組みを詳しく解説し、弊社での運用事例を紹介します。既存のHDFSの課題 Hadoopの中核をなす分散ファイルシステムのHDFS（Hadoop Distributed File System）は、マス

yassan0627 2017/06/25

すごく良い紹介。参考になる(∩´∀｀)∩ﾜｰｲ

HDFS
hadoop

リンク

HDFSのメンテナンスステート

原文: http://blog.cloudera.com/blog/2017/05/hdfs-maintenance-state/ はじめに:OSの更新、セキュリティパッチの適用、修正プログラムなどのシステムのメンテナンス作業は、どのデータセンターでも日常的な作業です。このようなメンテナンス作業を行っている最中のDataNodeは、数分から数時間の間オフラインになる可能性があります。設計上、Apache HadoopのHDFSはDataNodeのダウンに対応できますが、同時に複数のDataNodeで調整されていないメンテナンス操作があれば、一時的にデータ可用性の問題を引き起こす可能性があります。 HDFSは現在、計画された保守作業を実行するために次の機能をサポートしています: ローリングアップグレードデコミッションメンテナンスステート (CDH 5.11以降）ローリングアップグレードの

yassan0627 2017/05/31

リンク

Suspended – Medium

yassan0627 2017/05/22

リンク

How-to: Apache Hadoopで新しいHDFS DataNodeディスク間バランサを使用する

原文: http://blog.cloudera.com/blog/2016/10/how-to-use-the-new-hdfs-intra-datanode-disk-balancer-in-apache-hadoop/ 現在、HDFSにはノードでデータを移動するための包括的なストレージ容量管理アプローチが含まれています (CDH 5.8.2以降)。 HDFSでは、DataNodeはhdfs-site.xmlのdfs.datanode.data.dirを用いて指定できるローカルのファイルシステムディレクトリにデータブロックを分配します。HDFSの用語でボリュームと呼ばれる各ディレクトリは、一般的なインストールでは別のデバイス（たとえば、別のHDDやSSD）上にあります。新しいブロックをHDFSに書き込む際、DataNodeはボリューム選択ポリシー(volume-choosing po

yassan0627 2017/05/22

リンク

Choosing an HDFS data storage format- Avro vs. Parquet and more - StampedeCon 2015

Choosing an HDFS data storage format- Avro vs. Parquet and more - StampedeCon 2015 At the StampedeCon 2015 Big Data Conference: Picking your distribution and platform is just the first decision of many you need to make in order to create a successful data ecosystem. In addition to things like replication factor and node configuration, the choice of file format can have a profound impact on cluster

yassan0627 2017/03/11

HDFS

リンク

[HDFS-7285] Erasure Coding Support inside HDFS - ASF JIRA

HDFS now provides native support for erasure coding (EC) to store data more efficiently. Each individual directory can be configured with an EC policy with command `hdfs erasurecode -setPolicy`. When a file is created, it will inherit the EC policy from its nearest ancestor directory to determine how its blocks are stored. Compared to 3-way replication, the default EC policy save

yassan0627 2017/03/09

HDFS

リンク

導入編～Hadoopクラスタを構築するまで

EnterpriseZine（エンタープライズジン）編集部では、情報システム担当、セキュリティ担当の方々向けに、EnterpriseZine Day、Security Online Day、DataTechという、3つのイベントを開催しております。それぞれ編集部独自の切り口で、業界トレンドや最新事例を網羅。最新の動向を知ることができる場として、好評を得ています。

yassan0627 2017/03/07

hadoop
HDFS

リンク

Hadoopを支える「HDFS」

出典：日経コンピュータ 2012年6月7日号 pp.102-103 （記事は執筆時の情報に基づいており、現在では異なる場合があります） Hadoopの高速性をひも解くとき、分散ファイルシステム「HDFS」の存在は欠かせない。MapReduceと協調して行う“ローカル処理”は、バッチ処理の高速化に向くアーキテクチャーだ。そんなHDFSにも、BIツールなどが使いづらいという課題がある。HDFSの代替製品をHadoopに組み込む動きは、その解決を目指すものだ。「HDFS（Hadoop Distributed File System）」は、その名の通り分散バッチ処理ソフト「Apache Hadoop」向けのファイルシステムだ。ファイルを分割して複数のディスクで管理、大量データ処理のスループットを引き上げる。最近になり、HDFSの課題を解決しようと、代替製品をHadoopに組み込む例が増えてきた。

yassan0627 2017/03/05

リンク

Cloudera Standard のご案内 ~ 無償版大幅機能強化のお知らせ | Cloudera Japan

データを信頼し、AI を信頼する信頼できるデータ、信頼できるモデル、信頼できる AI を実現するために、これほど多くのクラウドのさまざまなデータタイプを管理でき、オープンデータのイノベーションと大規模展開に対応できるプラットフォームは他にありません。

yassan0627 2016/12/11

リンク

Spark Streamingの概要と検証シナリオ

はじめにビッグデータ向けの処理基盤として「Apache Spark」（以降、Spark）が注目を集めています。Sparkは世界中で利用が進んでおり、アメリカのUberやAirbnb、イギリスのSpotifyといった企業から、CIAなどの政府機関まで広く利用されています。 Sparkにはストリームデータを処理する「Spark Streaming」というコンポーネントがあります。本連載では、Spark Streamingとその他のOSSを組み合わせたストリームデータ処理システムを構築し、その性能検証結果を紹介していきます。 Sparkは複数のコンポーネントで構成されており、Spark Streamingはその1つです。Spark Streamingについて説明する前に、まずSparkおよびSparkと関連の深いHadoopについて説明します。 Hadoopとは情報システムでは、日々多くの各

yassan0627 2016/11/30

リンク

1000台規模のHadoopクラスタをHive/Tezアプリケーションにあわせてパフォーマンスチューニングした話

Hadoop/Spark で Amazon S3 を徹底的に使いこなすワザ / Hadoop / Spark Conference Japan 2019 講演者：関山宜孝（Amazon Web Services Japan）昨今 Hadoop/Spark エコシステムで広く使われているクラウドストレージ。本講演では Amazon S3 を例に、Hadoop/Spark から見た S3 の動作や HDFS と S3 の使い分けをご説明します。また、AWS サポートに寄せられた多くのお問い合わせから得られた知見をもとに、Hadoop/Spark で S3 を最大限活用するベストプラクティス、パフォーマンスチューニング、よくあるハマりどころ、トラブルシューティング方法などをご紹介します。併せて、Hadoop/Spark に関係する S3 のサービスアップデート、S3 関連の Hadoop

yassan0627 2016/02/25

リンク

はてなブックマーク

タグ

関連タグで絞り込む (45)

HDFSとhdfsに関するyassan0627のブックマーク (53)

お知らせ

今週のはてなブックマーク数ランキング（2024年10月第1週）

月間はてなブックマーク数ランキング（2024年9月）

今週のはてなブックマーク数ランキング（2024年9月第5週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス