Welcome to Apache Flume¶ Flume is a distributed, reliable, and available service for efficiently collecting, aggregating, and moving large amounts of log data. It has a simple and flexible architecture based on streaming data flows. It is robust and fault tolerant with tunable reliability mechanisms and many failover and recovery mechanisms. It uses a simple extensible data model that allows for o
Documentation Download Apache Parquet is an open source, column-oriented data file format designed for efficient data storage and retrieval. It provides high performance compression and encoding schemes to handle complex data in bulk and is supported in many programming language and analytics tools.
HCatalog graduated from the Apache incubator and merged with the Hive project on March 26, 2013. Hive version 0.11.0 is the first release that includes HCatalog. OverviewHCatalog is a table and storage management layer for Hadoop that enables users with different data processing tools — Pig, MapReduce — to more easily read and write data on the grid. HCatalog’s table abstraction presents users wit
Apache / Oozie / Apache Oozie Workflow Scheduler for Hadoop Last Published: 2021-02-26 Overview Oozie is a workflow scheduler system to manage Apache Hadoop jobs. Oozie Workflow jobs are Directed Acyclical Graphs (DAGs) of actions. Oozie Coordinator jobs are recurrent Oozie Workflow jobs triggered by time (frequency) and data availability. Oozie is integrated with the rest of the Hadoop stack supp
概要 HDFSをコマンドラインから操作する際に使える引数の一覧です。 下記のページを参考にしています。 HDFS File System Shell Guide http://hadoop.apache.org/common/docs/r0.20.0/hdfs_shell.html ls / lsr lsはLinuxなどのlsコマンドと同じ、指定ディレクトリのファイルの一覧を表示する。 $ hadoop fs -ls /user/hdfs Found 1 items drwxr-xr-x - hdfs supergroup 0 2011-11-11 01:35 /user/hdfs/sample ディレクトリを指定しない場合は/user/${ユーザ名}を見に行く。 ディレクトリが存在しない場合は、以下のようなエラーになる。 $ hadoop fs -ls ls: Cannot access
HDFSにファイルを格納 今度はHadoopがストレージとして利用する分散ファイルシステム「HDFS(Hadoop Distributed File System)」に、今回集計するデータを配置していきます。HDFSにディレクトリを作成し、データファイルをアップロードします。 まず、Hiveで処理するデータを用意します。サンプルデータは、第1~第2回のPig編で使用した米Amazon.com社の「Amazon review」を用います。このデータは、アメリカのAmazonで取り扱っている商品のレビュー記事を抽出したものです。米イリノイ大学の Nitin Jindal氏とBing Liu氏の手によって一般に公開されており、主にテキスト分析や評判分析の研究などに使われています。 必要なデータはレビューデータの「reviewsNew.rar」と商品データの「productinfo.rar」です。
Hadoop ソースコードリーディング #16 日 時: 2014年5月29日(木) 19:00~21:00 (受付開始 18:45) 場 所: 豊洲センタービル (NTTデータ) ← いつもの隣のビル! 地 図: http://www.nttdata.com/jp/ja/corporate/profile/guide/map.html (有楽町線豊洲駅3番出口を出て、左手奥の建物。エスカレータを上がった1Fに受付を設営します) 定 員: 120名 Spark 、個人的にはまだ触ったことがないのだけれど、久々に Hadoop ソースコードリーディングが開催されるということで、参加してきました。 今回は、 Hadoop ソースコードリーディングというより、 Spark ソースコードリーディングだったというのはおいておいて、、 飲み食いなし! 本当にソースを読んだ!! スピーカーなお三方のプレ
Hadoopソースコードリーディング 第16回に参加してきました。今回は1.0がリリースされる目前のApache Sparkがテーマでした。 NTTデータ濱野さんの冒頭の挨拶 Spark1.0リリースを記念する予定が、されていないw 今回はお酒を飲んでグダグダする時間はないw Apache Sparkのご紹介(前半) NTTデータ土橋さん まずは土橋さんからSparkの背景やSpark Summit 2013の振り返り、Sparkの基本についての説明がありました。詳細はスライドを見てもらった方がいいですが、さくっと雰囲気を掴みたい方は以下のメモをご参照下さい。 土橋さん 6年前からHadoopに関わっている。 基本はインフラエンジニア Ansible使っている。 アジェンダ Sparkの背景 Spark Summit 2013振り返り Sparkのキホン RDD スケジューラ 前提 机上調
Kafka Apache Kafka is a distributed streaming platform. I have written the following tutorials related to Kafka: What Every Software Engineer Should Know about Apache Kafka: Events, Streams, Tables, Storage, Processing, And More Of Streams and Tables in Kafka and Stream Processing, Part 1 Integrating Kafka and Storm: Code Examples and State of the Game Integrating Kafka and Spark Streaming: Code E
wyukawaさんがデータ分析環境について書いていましたが、全部 CDH を使えば実現可能なので便乗して書いておこうと思います。 1. ETL 処理 CDH なら以下のツールがあります。 Sqoop RDBMS / DWH などに対するインポート・エクスポートツール。最近日本語の本も出版されたので皆さん買ってください。 Hue を使えば Web ブラウザ上から設定できます。デモビデオはこちら。 Pig Hive の影に隠れがちなクエリ言語ですが、特に ETL として使う場合は書きやすいです。中身は MapReduce。Java はもちろん、Python、Javascript、Ruby、そしてGroovyでUDFが書けるのが特徴。HCatalog というツールのおかげで Hive 同様スキーマを扱えるようになりました。 Hue を使えば Web ブラウザ上から実行できます。デモビデオはこちら
TOPICS Data Science , Database , Python 発行年月日 2014年04月 PRINT LENGTH 236 ISBN 978-4-87311-671-6 原書 Agile Data Science FORMAT PDF 本書は、データの収集・集約・解析・レポート化をアジャイルに行うアプリケーションを構築するための考え方と方法を解説します。Python、Apache Pig、D3.jsライブラリのような軽量ツールを使い、メール受信ボックスを使ったデータマイニングを行うためのサンプルアプリケーションを作成します。データを解析するためのアジャイルな環境を作る方法やツールの組み合わせ方などを解説し、さらに行いたい解析やデータの特性によって解析の手段を変更できるようにする方法も学びます。日本語版では付録としてクラスメソッドの能登諭氏と佐々木大輔氏による「Fluen
この連載では、HadoopやHBaseのトラブルを解決する手順をご紹介します。第1回目となる今回は、本連載のキーとなるツール「halook」を紹介します。「halook」はオープンソースで開発しているHadoop/HBase用の可視化ツールで、トラブルの発生を可視化して把握し、原因究明するために利用できます。まずは「halook」の概要から紹介します。 Hadoop、HBaseの難しさ Hadoopは大量データの保存と分散処理のために、数十台~数千台のマシンを扱います。そのため、何かトラブルがあったときに、どこに原因があるのか突き止めるのが難しい場合が多く、あるいは、そもそもトラブルが起こっていることに気付くのが遅れてしまうこともあります。たとえば、次のような点が挙げられます。 データは正しく分散配置されているか 処理は分散して実行されているか 設定ミスをしていないか 問題の報告の難しさ
業界トップ のエンタープライズ Hadoop 企業 Cloudera に入社しました http://www.cloudera.co.jp/ 今年の6月に、「平成21年度 産学連携ソフトウェア工学実践事業報告書」というドキュメント群が経産省から公表されました。 そのうちの一つに、NTTデータに委託されたHadoopに関する実証実験の報告書がありましたので、今更ながら読んでみることにしました。 Hadoop界隈の人はもうみんなとっくに読んでるのかもしれませんけど。 http://www.meti.go.jp/policy/mono_info_service/joho/downloadfiles/2010software_research/clou_dist_software.pdf 「高信頼クラウド実現用ソフトウェア開発(分散制御処理技術等に係るデータセンター高信頼化に向けた実証事業)」という
なぜzabbix? Hadoop監視ツールとしてはAmazon Elastic MapReduceでの利用や、NTTデータが公表した 検証資料 で採用された Ganglia の方が有名ですが、日本ではユーザ会の活動も活発なzabbix を使って監視したい!という方のためのアプローチです。zabbixに強いTISの某I氏が作成したものを引き取ってJVM監視用に拡張しました。 zabbix-server-1.8.5に含まれているzabbix-templateにはjmxを使った定義も格納されているのですが、portの特定等少々面倒なようなので、新たに定義しなおしています。 監視のためにやったこと 基本的にはawkでJVMやリソース情報を取るスクリプト書き、zabbix-agentから呼び出しています。 こんな感じです。 ps auxww で取れる情報から、指定のプロセスを実行クラス名でgre
こんばんは、はじめまして、 Skipperです。 今日は、Hadoopに関連して、 Hadoopの環境にあると便利なツールの1つを紹介します。 #他にもKickStart、puppet、WOLなどあるのですが、書ききれないので #1つに絞りました。 parallel-ssh Hadoopで性能出すためには、 マシンを最低10台必要だと言われています。 ですが、仮に10台のマシンを用意したとして、 1台1台ログインしてログ集めたり、Hadoopのサービスを再起動したり… というのは面倒ですよね。 このparallel-sshは、そんな面倒な操作をすべて1回でやってくれます。 私もこれで複数台のPCを一度にシャットダウンの画面にしたときは、 ちょっと感動しました。 使い方 使い方はいたって簡単。 一度に操作したいマシンのホスト名(IPアドレス)をファイルに書き出し、 [hostlist] ce
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く