Hadoopのワードカウントの例だとテキスト形式の入力ファイルが出てきますが、 Hadoopではそれ以外にもバイナリ形式のKey-Valueレコードを保存するためのフォーマットとしてSequenceFileというのがあります。 Hadoopは容量が少ないファイルを大量に扱うのは苦手です(ネームノードのメモリを圧迫する)。 なので容量が少ないファイルを1つのファイルにまとめると効率的になりますが、SequenceFileはその用途に使えます。また圧縮も使えます。 SequenceFileに関しては象本の4章に詳しく書かれていますが、ここで簡単に紹介したいと思います。まあ自分自身の備忘録ですね。 ファイルフォーマットはこんな感じです。 ヘッダー レコード レコード 同期 レコード レコード レコード 同期 レコード ところどころに同期マーカーがありますが、これによって1つのファイルを複数のスプ
速度 MapReduceはHadoopクラスタのメモリを有効活用できていなかった。 SparkではRDD(Resilient Distributed Datasets)を使うことで、データをメモリに保存することができ、必要な場合にのみディスクへの保存を行うことができる。 これにより、SparkはHadoopよりも格段に高速である。 データ Hadoopはデータをディスクに保存するが、Sparkはメモリに保存する。 SparkはRDD(Resilient Distributed Datasets)とよばれるデータストレージモデルを用いる。RDDはnetwork IOを最小化するフォールトトレランスの機構を提供する。RDDの一部のデータが失われた場合、lineage(データに提供された処理の履歴)を元に再構築が行われる。このためフォールトトレランスのためのレプリケーションが不要となる。 これに
副業のプロフェッショナルによるネットを活用したビジネスの紹介事業 デジタル化が進む現代、副業やネットビジネスは新たな収益モデルとして多くの人々に注目されています。私たちは、最新の技術と専門的な知見を活用して、一人ひとりに合った副業やネットビジネスの選択肢を提供しています。特に、初心者が直面する「何から始めればよいのか分からない」という課題を解決するため、効率的かつパーソナライズされたアプローチを採用しています。 また、怪しい副業や詐欺的なビジネスからユーザーを守るため、リスク回避に関する情報や注意喚起記事を公開しています。これにより、安全かつ効率的に副業を始めるためのサポート体制を整えています。 さらに、チャットツールを活かし、ネットビジネスやサイドジョブの成功事例や最新トレンドを発信することで、利用者がより具体的なイメージを持ちながら挑戦できる環境を提供しています。私たちの目標は、副業を
MapReduce/Spark/Tezのフェアな性能比較に向けて (Cloudera World Tokyo 2014 LT講演)
業界トップ のエンタープライズ Hadoop 企業 Cloudera に入社しました http://www.cloudera.co.jp/ 今年の6月に、「平成21年度 産学連携ソフトウェア工学実践事業報告書」というドキュメント群が経産省から公表されました。 そのうちの一つに、NTTデータに委託されたHadoopに関する実証実験の報告書がありましたので、今更ながら読んでみることにしました。 Hadoop界隈の人はもうみんなとっくに読んでるのかもしれませんけど。 http://www.meti.go.jp/policy/mono_info_service/joho/downloadfiles/2010software_research/clou_dist_software.pdf 「高信頼クラウド実現用ソフトウェア開発(分散制御処理技術等に係るデータセンター高信頼化に向けた実証事業)」という
Apache Sparkに手を出してヤケドしないための基本 ~「Apache Spark入門より」~ (デブサミ 2016 講演資料)
This document summarizes a benchmark study of file formats for Hadoop, including Avro, JSON, ORC, and Parquet. It found that ORC with zlib compression generally performed best for full table scans. However, Avro with Snappy compression worked better for datasets with many shared strings. The document recommends experimenting with the benchmarks, as performance can vary based on data characteristic
手元でちょっとやったのでメモっとく。 Missing blocksが出た場合 HDFSのブロックが読めなくなることがある。手元ではHoop Server経由でappendが高頻度で発生している状況で、さらにHiveのクエリ実行が重なって派手にiowaitが出たときに起きた。 こうなると、そのブロックを含むファイルをMapReduceジョブが読みにいったときにIOErrorでコケてどうにもならなくなる。 状況は以下のコマンドで確認できる。 $ hadoop dfsadmin -report Configured Capacity: 35339596017664 (32.14 TB) Present Capacity: 33745796892986 (30.69 TB) DFS Remaining: 13764055724032 (12.52 TB) DFS Used: 19981741168
NTTデータのソリューションとは NTTデータは、大規模データの活用にHadoopを利用した、分散処理のアプローチで多くの実績があります。 従来は夜間時間帯で実行していたバッチ処理を高速化することで、より早く情報を活用できる機会を創りました。 また、機器の容量不足などにより数日間分で捨てていたデータを数か月~年単位で保存することで、分析の精度を高めることができるようになりました。 実現したいことに応じて、数台~千台規模のサーバーからなるHadoopシステムを導入するなどの実績がございます。 加えて、データの活用シーンに応じて様々な分散処理環境を提供してきた実績もございます。 そして、数年以上のHadoopシステム運用で得られたノウハウを蓄積しています。 分散処理技術Hadoopについて Hadoop, Spark, Kafkaを利用した分散処理システムに強み NTTデータでは、Hadoop
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く