[B! Hadoop] wlbhiroのブックマーク

wlbhiro id:wlbhiro

Hadoopに関するwlbhiroのブックマーク (106)

Cloudera Express and Cloudera Enterprise Features
wlbhiro 2018/04/16
cloudera

express

enterprise

Hadoop

Compare
リンク
https://www.isus.jp/wp-content/uploads/pdf/TheParallelUniverse_Issue_24_04.pdf
wlbhiro 2018/04/16
Intel

MPI

Hadoop
リンク
分散システムについて語らせてくれ
NTT Tech Conference #2 にて話した資料時間が足りなかったので全部は話せなかった。
wlbhiro 2017/10/27
Distribute

Spark

Hadoop

分散処理
リンク
HadoopのSequenceFileのフォーマット - wyukawa's diary
Hadoopのワードカウントの例だとテキスト形式の入力ファイルが出てきますが、 Hadoopではそれ以外にもバイナリ形式のKey-Valueレコードを保存するためのフォーマットとしてSequenceFileというのがあります。 Hadoopは容量が少ないファイルを大量に扱うのは苦手です（ネームノードのメモリを圧迫する）。なので容量が少ないファイルを１つのファイルにまとめると効率的になりますが、SequenceFileはその用途に使えます。また圧縮も使えます。 SequenceFileに関しては象本の4章に詳しく書かれていますが、ここで簡単に紹介したいと思います。まあ自分自身の備忘録ですね。ファイルフォーマットはこんな感じです。ヘッダーレコードレコード同期レコードレコードレコード同期レコードところどころに同期マーカーがありますが、これによって１つのファイルを複数のスプ
wlbhiro 2017/05/15
Hadoop

SEQUENCEFILE
リンク
SparkとHadoop MapReduceの違い
速度 MapReduceはHadoopクラスタのメモリを有効活用できていなかった。 SparkではRDD（Resilient Distributed Datasets）を使うことで、データをメモリに保存することができ、必要な場合にのみディスクへの保存を行うことができる。これにより、SparkはHadoopよりも格段に高速である。データ Hadoopはデータをディスクに保存するが、Sparkはメモリに保存する。 SparkはRDD（Resilient Distributed Datasets）とよばれるデータストレージモデルを用いる。RDDはnetwork IOを最小化するフォールトトレランスの機構を提供する。RDDの一部のデータが失われた場合、lineage（データに提供された処理の履歴）を元に再構築が行われる。このためフォールトトレランスのためのレプリケーションが不要となる。これに
wlbhiro 2017/03/08
Hadoop

MapReduce

Spark

Compare
リンク
株式会社アシスト | 副業エキスパートの紹介とネットビジネスメディアの運営
副業のプロフェッショナルによるネットを活用したビジネスの紹介事業デジタル化が進む現代、副業やネットビジネスは新たな収益モデルとして多くの人々に注目されています。私たちは、最新の技術と専門的な知見を活用して、一人ひとりに合った副業やネットビジネスの選択肢を提供しています。特に、初心者が直面する「何から始めればよいのか分からない」という課題を解決するため、効率的かつパーソナライズされたアプローチを採用しています。また、怪しい副業や詐欺的なビジネスからユーザーを守るため、リスク回避に関する情報や注意喚起記事を公開しています。これにより、安全かつ効率的に副業を始めるためのサポート体制を整えています。さらに、チャットツールを活かし、ネットビジネスやサイドジョブの成功事例や最新トレンドを発信することで、利用者がより具体的なイメージを持ちながら挑戦できる環境を提供しています。私たちの目標は、副業を
wlbhiro 2017/02/24
cloudera

Hadoop

推奨構成

Hardware
リンク
特徴 - Amazon EMR | AWS
Amazon EMR は、ビッグデータ環境とアプリケーションの構築および運用を簡略化します。EMR の機能には、簡単なプロビジョニング、マネージドスケーリング、クラスターの再設定、共同開発のための EMR Studio が含まれます。
wlbhiro 2017/02/14
AWS

EMR

Hadoop

Cloud
リンク
Tez on EMRを試してみた
MapReduce/Spark/Tezのフェアな性能比較に向けて (Cloudera World Tokyo 2014 LT講演）
wlbhiro 2017/02/13
AWS

EMR

Hive

Hadoop
リンク
オンプレとクラウドのHadoopを比較して僕の思うとこ
20211019 rpa勉強会！「自動化ネタ・rpaネタ・itネタ」ライトニングトーク大会！ vol.31
wlbhiro 2017/02/03
Hadoop

Cloud
リンク
Linux勉強会　～Hadoopと高可用性～ Hadoop入門
wlbhiro 2017/01/18
Linux勉強会

Hadoop

高可用性

HA
リンク
NTTデータのHadoop報告書がすごかった - 科学と非科学の迷宮
業界トップのエンタープライズ Hadoop 企業 Cloudera に入社しました http://www.cloudera.co.jp/ 今年の6月に、「平成２１年度産学連携ソフトウェア工学実践事業報告書」というドキュメント群が経産省から公表されました。そのうちの一つに、NTTデータに委託されたHadoopに関する実証実験の報告書がありましたので、今更ながら読んでみることにしました。 Hadoop界隈の人はもうみんなとっくに読んでるのかもしれませんけど。 http://www.meti.go.jp/policy/mono_info_service/joho/downloadfiles/2010software_research/clou_dist_software.pdf 「高信頼クラウド実現用ソフトウェア開発（分散制御処理技術等に係るデータセンター高信頼化に向けた実証事業）」という
wlbhiro 2017/01/18
Hadoop

資料

NTT
リンク
Hadoopの概念と基本的知識
Apache Sparkに手を出してヤケドしないための基本～「Apache Spark入門より」～（デブサミ 2016 講演資料）
wlbhiro 2017/01/18
Hadoopの推奨構成

Hadoop
リンク
Hadoop徹底入門
Googleの技術から生まれたオープンソースフレームワーク、大規模分散処理をPCで。
wlbhiro 2017/01/18
L3やL2スイッチを使ったHadoopの構成例

Hadoop

構成例
リンク
平成２１年度産学連携ソフトウェア工学実践事業（高信頼クラウド実現用ソフトウェア開発（分散制御処理技術等に係るデータセンターの高信頼化に向けた実証事業））事業成果報告書
wlbhiro 2017/01/18
ネットワークセグメントについて。(どのようにセグメントを切って配置するかを記載している。)

Hadoop

Network

NetworkSegment
リンク
org.apache.hadoop.io.compress (Apache Hadoop Main 2.7.2 API)
wlbhiro 2016/12/30
Spark

Hadoop

Compression

gzip

bzip2
リンク
File Format Benchmark - Avro, JSON, ORC & Parquet
This document summarizes a benchmark study of file formats for Hadoop, including Avro, JSON, ORC, and Parquet. It found that ORC with zlib compression generally performed best for full table scans. However, Avro with Snappy compression worked better for datasets with many shared strings. The document recommends experimenting with the benchmarks, as performance can vary based on data characteristic
wlbhiro 2016/12/30
Parquet

JSON

ORC

Avro

format

Hadoop

Spark

Compression

Hive
リンク
HDFSでMissing blocksが出た場合、DataNodeに問題があって外したい場合の対応メモ - たごもりすメモ
手元でちょっとやったのでメモっとく。 Missing blocksが出た場合 HDFSのブロックが読めなくなることがある。手元ではHoop Server経由でappendが高頻度で発生している状況で、さらにHiveのクエリ実行が重なって派手にiowaitが出たときに起きた。こうなると、そのブロックを含むファイルをMapReduceジョブが読みにいったときにIOErrorでコケてどうにもならなくなる。状況は以下のコマンドで確認できる。 $ hadoop dfsadmin -report Configured Capacity: 35339596017664 (32.14 TB) Present Capacity: 33745796892986 (30.69 TB) DFS Rem aining: 13764055724032 (12.52 TB) DFS Used: 19981741168
wlbhiro 2016/12/23
Hadoop

HDFS

fsck
リンク
NTTデータのHadoopソリューション：Hadoop構築・運用ソリューション
NTTデータのソリューションとは NTTデータは、大規模データの活用にHadoopを利用した、分散処理のアプローチで多くの実績があります。従来は夜間時間帯で実行していたバッチ処理を高速化することで、より早く情報を活用できる機会を創りました。また、機器の容量不足などにより数日間分で捨てていたデータを数か月～年単位で保存することで、分析の精度を高めることができるようになりました。実現したいことに応じて、数台～千台規模のサーバーからなるHadoopシステムを導入するなどの実績がございます。加えて、データの活用シーンに応じて様々な分散処理環境を提供してきた実績もございます。そして、数年以上のHadoopシステム運用で得られたノウハウを蓄積しています。分散処理技術Hadoopについて Hadoop, Spark, Kafkaを利用した分散処理システムに強み NTTデータでは、Hadoop
wlbhiro 2016/12/14
NTT

NTT DATA

Spark

Hadoop

事例

CaseStudy
リンク
Configure NameNode HA Cluster - Hortonworks Data Platform
wlbhiro 2016/12/11
HA化の手順．

HA

Hadoop

HDFS
リンク
Hadoop lucene-users - Cannot obtain block length for LocatedBlock
wlbhiro 2016/12/08
“hdfs fsck -openforwrite -files -blocks -locations / ”

Hadoop

HDFS

fsck
リンク
1 2 3 4 5 6 次のページ

お知らせ

もっと読む

公式Twitter

@HatenaBookmark
リリース、障害情報などのサービスのお知らせ
@hatebu
最新の人気エントリーの配信

キーボードショートカット一覧

j次のブックマーク

k前のブックマーク

lあとで読む

eコメント一覧を開く

oページを開く

設定を変更しましたx