原文: https://blog.cloudera.com/blog/2019/05/small-files-big-foils-addressing-the-associated-metadata-and-application-challenges/ 著者: Shashank Naik, Bhagya Gummalla 訳注: 本稿は2019/5/9に公開されたブログ記事の翻訳です。 「スモール・ファイル」はApache Hadoopの世界では一般的な課題であり、注意して扱わないと、いくつかの複雑な問題を引き起こす可能性があります。Apache Hadoop分散ファイルシステム(HDFS)は、テラバイトからペタバイトの範囲にわたる、大きなデータセットを格納して処理するために開発されました。しかしHDFSはスモール・ファイルを効率的に格納しないため、スモール・ファイルによってNameNo
Hadoop/Spark で Amazon S3 を徹底的に使いこなすワザ / Hadoop / Spark Conference Japan 2019 講演者: 関山 宜孝 (Amazon Web Services Japan) 昨今 Hadoop/Spark エコシステムで広く使われているクラウドストレージ。本講演では Amazon S3 を例に、Hadoop/Spark から見た S3 の動作や HDFS と S3 の使い分けをご説明します。また、AWS サポートに寄せられた多くのお問い合わせから得られた知見をもとに、Hadoop/Spark で S3 を最大限活用するベストプラクティス、パフォーマンスチューニング、よくあるハマりどころ、トラブルシューティング方法などをご紹介します。併せて、Hadoop/Spark に関係する S3 のサービスアップデート、S3 関連の Hadoop
ヤフー株式会社は、2023年10月1日にLINEヤフー株式会社になりました。LINEヤフー株式会社の新しいブログはこちらです。LINEヤフー Tech Blog 本記事は前編に続いて出張報告の後編です。後編はデータプラットフォーム本部の浅沼が担当します。この記事ではMeetUpの様子と、MeetUpで発表があった新機能のRouter-based Federationについて詳しく紹介します。 MeetUpの様子 今回のMeetUpはシリコンバレーにあるLinkedInのオフィスで開催されました。シリコンバレーでは南北にわたってフリーウェイと呼ばれる無料の高速道路が伸びています。片道5車線もあるのですが、通勤ラッシュ時は渋滞になるほど大量の車が引っ切り無しに走っています。ホテルからLinkedInのオフィスまで結構離れていたのですが、この道路のおかげで数十分でたどり着くことができました。(前
インフラエンジニアの茂木(@tkmoteki)です。CyberZエンジニアブログ初投稿です。 私が最近業務で行った、本番Hadoopクラスタ2つのメジャーアップグレード検証と実施について記載していきます。 Hadoopクラスタのメジャーアップグレードはかなりクリティカルでヘビーな業務でした。 検証から実施までは今年の9月下旬から10月下旬の1ヶ月間で行いました。 クリティカルな作業でもあり、検証や準備する項目が多く、なかなかタイトなスケジュールでした。 今回の記事では以下について記載します。 弊社のHadoop環境と構成 アップグレード検証 アップグレード実施 1. Hadoop環境と構成 運用に際しHadoop専任エンジニアを必要とせず、運用負荷を削減できる事から、 Cloudera社のCDH4とCloudera Manager4(以降CM4)を導入しております。 今回はCDH5とClo
8. ● Hadoop ○ HADOOP-12366 : expose calculated paths ○ HADOOP-11628 : SPNEGO auth does not work with CNAMEs in JDK8 ● HBase ○ HBASE-18000 : Make sure we always return the scanner id with ScanResponse ← NEW !!! ● Flume ○ FLUME-3026 : Add Kafka 0.10 support for Flume ○ FLUME-3065 : Enable multiple monitoring types ○ FLUME-3100 : Support arbitrary header substitution for topic of Kafka ● Spark ○ SPAR
1. © 2018 NTT DATA Corporation 2018/7/20 技術革新統括本部 システム技術本部 鯵坂 明 HDFS router based federation 2. © 2018 NTT DATA Corporation 2 本日紹介するセッション • HDFS router based federation • Microsoft, Uberの共同発表 • 資料: https://www.slideshare.net/Hadoop_Summit/hdfs-router-based-federation • HDFS BoF 3. © 2018 NTT DATA Corporation 3 従来のNameNode Federation • HDFSクラスタを複数束ねて、1つのHDFSクラスタに見せるための仕組み • NameNodeの限界を緩和するために、開発され
With the recent merger of Hadoop companies Cloudera and Hortonworks, some are asking: Is the Hadoop file system officially dead? The news around this merger has reiterated the impact of the economics of cloud. Reports are now going as far as saying that using cloud storage can easily “crush Hadoop storage costs.” Object stores such as Google Cloud Storage are overtaking on-premise Hadoop Distribut
Cloudera World Tokyo 2016 (http://www.clouderaworldtokyo.com/) での講演内容です
Hire me to supercharge your Hadoop and Spark projects I help businesses improve their return on investment from big data projects. I do everything from software architecture to staff training. Learn More Note, I use ‘File Format’ and ‘Storage Format’ interchangably in this article. If you’ve read my beginners guide to Hadoop you should remember that an important part of the Hadoop ecosystem is HDF
HDFSのファイル形式を何にすべきか、というのはRPGの主人公の名前を何にすべきか、と同じぐらい皆さん悩まれるかと思います。 ご多分に漏れず僕も悩みましたので、調べた事をまとめておきます。 なお先に結論だけ言っておきますと、大体のケースではORCをZlib圧縮して使っておけば良いんじゃないかなと考えています。マサカリは歓迎です。 ※201701/21追記 EMR5.0以降ではHive + ORCで遅くなるケースがあるとのアドバイスをAWSのサポートの方から伺いました。EMRを使っている方はParquetとの速度比較をしてみたほうが良いかもしれません。 ファイル形式の候補 ファイル形式の候補としては大体以下が挙げられます。 ORC Apache Parquet Apache Avro SequenceFile TextFile 各形式の特徴 それぞれのファイル形式の詳細な説明はここではせず、
Hadoopの時代は終わった、という言説をたまに見かけるようになりました。 もちろん終わってなどいません。しかし、Hadoopとその取り巻く環境が変化したのは事実です。 本記事では、この変化が何なのかを明らかにし、その上で、なぜHadoopの時代は終わったという主張が実態を正しく表していないのかを説明していきます。 DISCLAIMER 私はHadoopを中心としたデータ基盤を取り扱うベンダー、Clouderaの社員です。 中立的に書くよう努めますが、所属組織によって発生するバイアスの完全な排除を保証することはできません。 以上をご了承の上、読み進めてください。 要約 データ基盤は、Hadoopの登場により非常に安価となり、今まででは不可能だった大量のデータを取り扱えるようになりました。 Hadoopは、NoSQLブームの中、処理エンジンであるMapReduceとストレージであるHDFSが
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く