[B! Hadoop] zima0314のブックマーク

Typical HDP Cluster Network Configuration Best Practices

zima0314 2021/04/24

リンク

HDFS Data Write Operation - Anatomy of file write in Hadoop - DataFlair

zima0314 2021/03/31

Hadoop

リンク

Rack Awareness in Hadoop HDFS - An Introductory Guide - DataFlair

zima0314 2021/03/31

Hadoop

リンク

Hadoop -NameNode HAの仕組み-

Hadoop (主に NameNode、DataNode、HDFS) についての基礎知識があり、NameNode HA について詳しく知りたい人向けの内容となっています。

zima0314 2020/11/17

リンク

Hadoopのカレンダー | Advent Calendar 2013 - Qiita

Apache Hadoop およびその関連ソフトウェアの Advent Calendar 2013 です．Pig/Hive といった MapReduce 上で動作する基盤の他， Impala/Drill/Presto/Spark/Shark など，HDFS 上で動作する処理基盤に関する話題でも構いません :-)

zima0314 2014/02/23

Hadoop

リンク

https://builds.apache.org/view/G-L/view/Hadoop/

zima0314 2013/01/25

Hadoop

リンク

zookeeper-user - Growing a cluster

zima0314 2012/08/30

リンク

Spring BootによるAPIバックエンド構築実践ガイド第2版何千人もの開発者が、InfoQのミニブック「Practical Guide to Building an API Back End with Spring Boot」から、Spring Bootを使ったREST API構築の基礎を学んだ。この本では、出版時に新しくリリースされたバージョンである Spring Boot 2 を使用している。しかし、Spring Boot3が最近リリースされ、重要な変...

zima0314 2012/03/08

Hadoop

リンク

Hadoopを使いこなす(2)

ヤフー株式会社は、2023年10月1日にLINEヤフー株式会社になりました。LINEヤフー株式会社の新しいブログはこちらです。LINEヤフー Tech Blog こんにちは、前回のHadoopの記事に引き続き、MapReduceのカスタマイズポイントを解説していきます。前回の記事の図や、表などを参照しながら読み進めていただければと思います。 MapperやReducerの流れの制御 Mapperの実行の流れは、デフォルトでは、初期化処理を行った後、map関数を繰り返し実行し、終了処理を行うようになっていますが、この流れ自体を制御することができます。古いAPIでは、MapRunnerを通じてこの流れを制御できますが、0.20.0からの新しいAPIでは単純にMapperクラスのrun関数をオーバーライドすることで、行えます。デフォルトのrun関数は以下の通りです。 public vo

zima0314 2011/11/08

Hadoop

リンク

MapReduce デザインパターン (2) - めもめも

"word co-occurrence probl em" （文書内の近くにペアで出現する単語の数をカウントする処理）の２つの基本パターンである "Pairs" と "Stripes" から、まずは、Pairs を見てみます。事前準備「カラマーゾフの兄弟」のテキストを HDFS に保存しておきます。 $ wget http://www.gutenberg.org/files/28054/28054.zip $ unzip 28054.zip $ hadoop fs -copyFromLocal 28054.txt Karamazov.txt ソースコード例えば、連続して出現する単語のペアをカウントする場合、次のようなコードが書けます。 pairs/TextPair.java package pairs; /* テキストのタプルを Key に使用するためのクラスです。像本のサンプル・コ

zima0314 2011/11/04

Hadoop

リンク

12ノードまでほぼ比例して向上

スレーブノード数を変化させた場合、100万件のデータの場合はノード数を増加させてもスループットがわずかしか向上しなかったが、1000万件のデータの場合はノード数にほぼ比例してスループットが向上した 12ノードの場合の性能は、処理時間にすると2分5秒である。実際にはこれにインポートなどの処理時間がかかるが、数分で終わるだろう。筆者らが開発に携わったRDBMSの実システムでは、約100万件の仕入データの買掛計上処理に約1時間を要していた。それに比べると100倍近い性能になる。もちろん、検証環境では「実データより性能が得られやすい分布のデータを使用した」「検証用のプログラムは実システムと比べると処理が簡略化されている」などの違いはあるが、ケタ違いの性能が出たことは確かだ。また、分散処理システムの中には数ノード程度で性能が頭打ちになるものもあるが、Hadoopは10ノード以上でも性能が向上し、

zima0314 2011/08/23

Hadoop

リンク

Multi-host SecondaryNameNode Configuration - Cloudera Blog

You might think that the SecondaryNameNode is a hot backup daemon for the NameNode. You’d be wrong. The SecondaryNameNode is a poorly understood component of the HDFS architecture, but one which provides the important function of lowering NameNode restart time. This blog post describes how to configure this daemon in a large-scale environment. The default Hadoop configuration places an instance of

zima0314 2011/05/17

Hadoop

リンク

Hadoopを用いた大規模ログ解析

JCBの Payment as a Service 実現にむけたゼロベースの組織変革とテクニカル・イネーブラー（NTTデータテクノロジーカンファレンス ...NTT DATA Techno logy & Innovation

zima0314 2011/04/11

Hadoop

リンク

Hadoop Conference Japanに参加しました #hcj2011 - nokunoの日記

というわけでHadoop Conference Japanに参加しました。Hadoop Conference Japan 2011会場は豊洲のNTTデータ本社で、初めて来たのですが駅前の広場が楽天のある品川シーサイドと全く同じでびっくりしました。『Hadoop on クラウド / Amazon Elastic MapReduceの真価』（Amazon Web Services, Jeff Barr） Introduction AWS: 2002-Twitter: @jeffbarr What is Big Data Doesn't refer just to volume Big Data Tool EMR Overview Hadoop Hosting Framework Launch and monitor job flows: Web, CUI, REST Upload data

zima0314 2011/02/23

Hadoop

リンク

『モバゲーの大規模データマイニング基盤におけるHadoop活用』－Hadoop Conference Japan 2011－ #hcj2011

『モバゲーの大規模データマイニング基盤におけるHadoop活用』－Hadoop Conference Japan 2011－ #hcj2011 2011/02/22 [登壇後エントリ] ：" 「モバゲーの大規模データマイニング基盤におけるHadoop活用」－Hadoop Conference Japan 2011 #hcj2011 で登壇してきました " http://d.hatena.ne.jp/hamadakoichi/20110222/p1Read less

zima0314 2011/02/22

Hadoop

リンク

次世代Hadoopは10,000台にスケールアウトし、MapReduce以外のフレームワークをもサポートする - nokunoの日記

Yahoo!のブログにHadoopに関する興味深い記事が上がっていたので紹介したいと思います。かなりボリュームのある記事で翻訳するのは骨が折れました。The Next Generation of Apache Hadoop MapReduce · Yahoo! Hadoop Blog原題はシンプルに「次世代のApache Hadoop MapReduce」です。概要大規模データを扱うビジネスでは、少数の大規模なクラスタのほうが多数の小規模なクラスタよりも安価になります。大規模クラスタは多くのデータセットを処理し、多くのジョブと多くのユーザをサポートする必要があります。ApacheのHadoop MapReduceフレームワークはだいたい4,000台程度でスケーラビリティの限界が来ます。私たちは次世代のApache Hadoop MapReduceを開発しており、そこではフレームワークを汎

zima0314 2011/02/16

Hadoop

リンク

グーグル発「Hadoop」、日本企業も利用へ

Hadoopは、グーグルが検索エンジン用に開発したバッチ処理システムを基に開発された、オープンソースソフトだ。グーグルが開発した分散ファイルシステム「Google File System（GFS）」を模した「Hadoop Distributed File System（HD FS）」と、データ処理機構「MapReduce」を模した「Hadoop MapReduce」で構成する。米国では米VISAや米JPモルガン・チェースのような大手金融機関が、バッチ処理にHadoopを使用する。そのHadoopがいよいよ、日本企業でも使われ始めた。例えば楽天は、ある商品に対するお薦め商品をリストアップする「レコメンド処理」にHadoopを使用する。NTTデータは、全国の渋滞情報をリアルタイムに可視化するシステムの構築にHadoopを採用した。三菱UFJインフォメーションテクノロジーもHadoopを使っ

zima0314 2011/01/22

Hadoop

リンク

MapReduce Tutorial

This document comprehensively describes all user-facing facets of the Hadoop MapReduce framework and serves as a tutorial. Make sure Hadoop is installed, configured and running. See these guides: Single Node Setup for first-time users. Cluster Setup for large, distributed clusters. Hadoop MapReduce is a software framework for easily writing applications which process vast amounts of data (multi-te

zima0314 2010/11/08

Hadoop

リンク

はてなブックマーク

タグ

関連タグで絞り込む (3)

Hadoopに関するzima0314のブックマーク (18)

お知らせ

今週のはてなブックマーク数ランキング（2024年10月第1週）

月間はてなブックマーク数ランキング（2024年9月）

今週のはてなブックマーク数ランキング（2024年9月第5週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス