[B! Hadoop] [7ページ] nobusueのブックマーク

Hadoop Conference Japan 2014

nobusue 2014/07/09

講演資料がぼちぼち公開されてます

リンク

Welcome to Apache Flume — Apache Flume

Welcome to Apache Flume¶ Flume is a distributed, reliable, and available service for efficiently collecting, aggregating, and moving large amounts of log data. It has a simple and flexible architecture based on streaming data flows. It is robust and fault tolerant with tunable reliability mechanisms and many failover and recovery mechanisms. It uses a simple extensible data model that allows for o

nobusue 2014/07/07

flume
hadoop

リンク

Parquet

Documentation Download Apache Parquet is an open source, column-oriented data file format designed for efficient data storage and retrieval. It provides high performance compression and encoding schemes to handle complex data in bulk and is supported in many programming language and analytics tools.

nobusue 2014/07/02

clumnar dataをポータブルなファイルに落とす

リンク

HCatalog UsingHCat - Apache Hive - Apache Software Foundation

HCatalog graduated from the Apache incubator and merged with the Hive project on March 26, 2013. Hive version 0.11.0 is the first release that includes HCatalog. OverviewHCatalog is a table and storage management layer for Hadoop that enables users with different data processing tools — Pig, MapReduce — to more easily read and write data on the grid. HCatalog’s table abstraction presents users wit

nobusue 2014/06/30

リンク

Oozie - Apache Oozie Workflow Scheduler for Hadoop

Apache / Oozie / Apache Oozie Workflow Scheduler for Hadoop Last Published: 2021-02-26 Overview Oozie is a workflow scheduler system to manage Apache Hadoop jobs. Oozie Workflow jobs are Directed Acyclical Graphs (DAGs) of actions. Oozie Coordinator jobs are recurrent Oozie Workflow jobs triggered by time (frequency) and data availability. Oozie is integrated with the rest of the Hadoop stack supp

nobusue 2014/06/30

Oozie
hadoop

リンク

IBM SPSS Modeler - ODBC Configuration Best Practices and Troubleshooting

IBM Developer is your one-stop location for getting hands-on training and learning in-demand skills on relevant techno logies such as generative AI, data science, AI, and open source.

nobusue 2014/06/28

YARN
hadoop

リンク

HDFSシェルコマンド一覧 | mwSoft

概要 HDFSをコマンドラインから操作する際に使える引数の一覧です。下記のページを参考にしています。 HDFS File System Shell Guide http://hadoop.apache.org/common/docs/r0.20.0/hdfs_shell.html ls / lsr lsはLinuxなどのlsコマンドと同じ、指定ディレクトリのファイルの一覧を表示する。 $ hadoop fs -ls /user/hdfs Found 1 it ems drwxr-xr-x - hdfs supergroup 0 2011-11-11 01:35 /user/hdfs/sample ディレクトリを指定しない場合は/user/${ユーザ名}を見に行く。ディレクトリが存在しない場合は、以下のようなエラーになる。 $ hadoop fs -ls ls: Cannot access

nobusue 2014/06/22

hadoop

リンク

［4］AmazonのレビューをHiveで集計する

HDFSにファイルを格納今度はHadoopがストレージとして利用する分散ファイルシステム「HDFS（Hadoop Distributed File System）」に、今回集計するデータを配置していきます。HDFSにディレクトリを作成し、データファイルをアップロードします。まず、Hiveで処理するデータを用意します。サンプルデータは、第1～第2回のPig編で使用した米Amazon.com社の「Amazon review」を用います。このデータは、アメリカのAmazonで取り扱っている商品のレビュー記事を抽出したものです。米イリノイ大学の Nitin Jindal氏とBing Liu氏の手によって一般に公開されており、主にテキスト分析や評判分析の研究などに使われています。必要なデータはレビューデータの「reviewsNew.rar」と商品データの「productinfo.rar」です。

nobusue 2014/06/11

hadoop
hive

リンク

実際のところ Spark ソースコードリーディングだった #hadoopreading #16 はネ申回だった！ - #garagekidztweetz

Hadoop ソースコードリーディング #16 日　時： 2014年5月29日（木） 19:00～21:00 （受付開始 18:45）場　所：豊洲センタービル（NTTデータ） ← いつもの隣のビル！地　図： http://www.nttdata.com/jp/ja/corporate/profile/guide/map.html （有楽町線豊洲駅3番出口を出て、左手奥の建物。エスカレータを上がった1Fに受付を設営します）定　員： 120名 Spark 、個人的にはまだ触ったことがないのだけれど、久々に Hadoop ソースコードリーディングが開催されるということで、参加してきました。今回は、 Hadoop ソースコードリーディングというより、 Spark ソースコードリーディングだったというのはおいておいて、、飲み食いなし！本当にソースを読んだ！！スピーカーなお三方のプレ

nobusue 2014/05/30

Spark
hadoop

リンク

Hadoopソースコードリーディング第16回に参加してきました | DevelopersIO

Hadoopソースコードリーディング第16回に参加してきました。今回は1.0がリリースされる目前のApache Sparkがテーマでした。 NTTデータ濱野さんの冒頭の挨拶 Spark1.0リリースを記念する予定が、されていないｗ今回はお酒を飲んでグダグダする時間はないｗ Apache Sparkのご紹介（前半） NTTデータ土橋さんまずは土橋さんからSparkの背景やSpark Summit 2013の振り返り、Sparkの基本についての説明がありました。詳細はスライドを見てもらった方がいいですが、さくっと雰囲気を掴みたい方は以下のメモをご参照下さい。土橋さん 6年前からHadoopに関わっている。基本はインフラエンジニア Ansible使っている。アジェンダ Sparkの背景 Spark Summit 2013振り返り Sparkのキホン RDD スケジューラ前提机上調

nobusue 2014/05/30

そろそろ実用フェーズに入ったかSpark

Spark
hadoop

リンク

Tutorials

Kafka Apache Kafka is a distributed streaming platform. I have written the following tutorials related to Kafka: What Every Software Engineer Should Know about Apache Kafka: Events, Streams, Tables, Storage, Processing, And More Of Streams and Tables in Kafka and Stream Processing, Part 1 Integrating Kafka and Storm: Code Examples and State of the Game Integrating Kafka and Spark Streaming: Code E

nobusue 2014/05/13

リンク

Clouderaで作るデータ分析環境 - 科学と非科学の迷宮

wyukawaさんがデータ分析環境について書いていましたが、全部 CDH を使えば実現可能なので便乗して書いておこうと思います。 1. ETL 処理 CDH なら以下のツールがあります。 Sqoop RDBMS / DWH などに対するインポート・エクスポートツール。最近日本語の本も出版されたので皆さん買ってください。 Hue を使えば Web ブラウザ上から設定できます。デモビデオはこちら。 Pig Hive の影に隠れがちなクエリ言語ですが、特に ETL として使う場合は書きやすいです。中身は MapReduce。Java はもちろん、Python、Javascript、Ruby、そしてGroovyでUDFが書けるのが特徴。HCatalog というツールのおかげで Hive 同様スキーマを扱えるようになりました。 Hue を使えば Web ブラウザ上から実行できます。デモビデオはこちら

nobusue 2014/05/07

hadoop
CDH

リンク

TechCrunch | Startup and Technology News

Generative AI improvements are increasingly being made through data curation and collection — not architectural — improvements. Big Tech has an advantage.

nobusue 2014/04/24

リンク

アジャイルデータサイエンス

TOPICS Data Science , Database , Python 発行年月日 2014年04月 PRINT LENGTH 236 ISBN 978-4-87311-671-6 原書 Agile Data Science FORMAT PDF 本書は、データの収集・集約・解析・レポート化をアジャイルに行うアプリケーションを構築するための考え方と方法を解説します。Python、Apache Pig、D3.jsライブラリのような軽量ツールを使い、メール受信ボックスを使ったデータマイニングを行うためのサンプルアプリケーションを作成します。データを解析するためのアジャイルな環境を作る方法やツールの組み合わせ方などを解説し、さらに行いたい解析やデータの特性によって解析の手段を変更できるようにする方法も学びます。日本語版では付録としてクラスメソッドの能登諭氏と佐々木大輔氏による「Fluen

nobusue 2014/04/11

読んでます。まさに今読むべき本でした。

リンク

第1回　halookでHadoop/HBaseを可視化しよう | gihyo.jp

この連載では、HadoopやHBaseのトラブルを解決する手順をご紹介します。第1回目となる今回は、本連載のキーとなるツール「halook」を紹介します。「⁠halook」はオープンソースで開発しているHadoop/HBase用の可視化ツールで、トラブルの発生を可視化して把握し、原因究明するために利用できます。まずは「halook」の概要から紹介します。 Hadoop、HBaseの難しさ Hadoopは大量データの保存と分散処理のために、数十台～数千台のマシンを扱います。そのため、何かトラブルがあったときに、どこに原因があるのか突き止めるのが難しい場合が多く、あるいは、そもそもトラブルが起こっていることに気付くのが遅れてしまうこともあります。たとえば、次のような点が挙げられます。データは正しく分散配置されているか処理は分散して実行されているか設定ミスをしていないか問題の報告の難しさ

nobusue 2014/04/10

リンク

GitHub - sechiro/zbx_hadoop_monitor

You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert

nobusue 2014/04/10

リンク

NTTデータのHadoop報告書がすごかった - 科学と非科学の迷宮

業界トップのエンタープライズ Hadoop 企業 Cloudera に入社しました http://www.cloudera.co.jp/ 今年の6月に、「平成２１年度産学連携ソフトウェア工学実践事業報告書」というドキュメント群が経産省から公表されました。そのうちの一つに、NTTデータに委託されたHadoopに関する実証実験の報告書がありましたので、今更ながら読んでみることにしました。 Hadoop界隈の人はもうみんなとっくに読んでるのかもしれませんけど。 http://www.meti.go.jp/policy/mono_info_service/joho/downloadfiles/2010software_research/clou_dist_software.pdf 「高信頼クラウド実現用ソフトウェア開発（分散制御処理技術等に係るデータセンター高信頼化に向けた実証事業）」という

nobusue 2014/04/10

hadoop

リンク

zabbixでhadoopクラスタのJVMを監視したい - Tech-Sketch

なぜzabbix？ Hadoop監視ツールとしてはAmazon Elastic MapReduceでの利用や、NTTデータが公表した検証資料で採用された Ganglia の方が有名ですが、日本ではユーザ会の活動も活発なzabbix を使って監視したい！という方のためのアプローチです。zabbixに強いTISの某I氏が作成したものを引き取ってJVM監視用に拡張しました。 zabbix-server-1.8.5に含まれているzabbix-templateにはjmxを使った定義も格納されているのですが、portの特定等少々面倒なようなので、新たに定義しなおしています。監視のためにやったこと基本的にはawkでJVMやリソース情報を取るスクリプト書き、zabbix-agentから呼び出しています。こんな感じです。 ps auxww で取れる情報から、指定のプロセスを実行クラス名でgre

nobusue 2014/04/10

リンク

Hadoopの環境にあると便利なツール(parallel-ssh) - Taste of Tech Topics

こんばんは、はじめまして、 Skipperです。今日は、Hadoopに関連して、 Hadoopの環境にあると便利なツールの1つを紹介します。 #他にもKickStart、puppet、WOLなどあるのですが、書ききれないので #1つに絞りました。 parallel-ssh Hadoopで性能出すためには、マシンを最低10台必要だと言われています。ですが、仮に10台のマシンを用意したとして、 1台1台ログインしてログ集めたり、Hadoopのサービスを再起動したり… というのは面倒ですよね。このparallel-sshは、そんな面倒な操作をすべて1回でやってくれます。私もこれで複数台のPCを一度にシャットダウンの画面にしたときは、ちょっと感動しました。使い方使い方はいたって簡単。一度に操作したいマシンのホスト名(IPアドレス)をファイルに書き出し、 [hostlist] ce