[B! Hadoop] mtkysのブックマーク

Cloudera Manager 4 の紹介

2012/07/31に発表した、Cloudera QA セミナーで発表した資料です。 Read less

mtkys 2014/08/16

リンク

http://www.cloudera.com/content/cloudera-content/cloudera-docs/CM5/latest/Cloudera-Manager-Installation-Guide/cm5ig_cm_requirements.html

mtkys 2014/08/16

リンク

Cloudera Standard のご案内 ~ 無償版大幅機能強化のお知らせ | Cloudera Japan

データを信頼し、AI を信頼する信頼できるデータ、信頼できるモデル、信頼できる AI を実現するために、これほど多くのクラウドのさまざまなデータタイプを管理でき、オープンデータのイノベーションと大規模展開に対応できるプラットフォームは他にありません。

mtkys 2014/08/16

リンク

Cloudera ManagerでHadoopやHBaseのクラスタをセットアップする - k4200’s notes and thoughts

目的はCloudera Managerで楽にHadoopのクラスタ構築をするクラスターの実験用に自宅サーバーを購入したので、ぼちぼちセットアップしていく。以前VPSで2台構成のクラスタ（しょぼい）を構築した時は、CDHを手動でインストールしたが（過去記事）、今回はメモリとかも割と潤沢にあるのでCloudera Managerというのを使ってみることにした。 Coudera Managerは、HadoopやHadoop関連のソフトウェア（HBase, ZooKeeper, Hive, Impala, Hue等）のクラスターを構築するためのソフト。Free Editionは50ノードまで（ver. 4.5からノード数の制限が無くなったそうです）無料で使える。ドキュメントはこの辺から。環境今回の環境を簡単に。 CentOS 6.3 Cloudera Manager Free Editio

mtkys 2014/08/16

リンク

Hadoopすらもかなわない!? Amazon Redshiftの破壊力をHapyrus 藤川氏が語る | gihyo.jp

Hadoopすらもかなわない!? Amazon Redshiftの破壊力をHapyrus 藤川氏が語るシリコンバレーで起業し、順調にビッグデータビジネスを展開している日本人ベンチャー企業といえば、Hadoop Conference Japan 2013 Winterでも話題となったTreasure Dataがその筆頭に挙げられます。ですが、Treasure Dataとほぼ同じ時期に西海岸でビジネスをローンチし、現在、国内外の投資家たちから高い注目をあつめるビッグデータベンチャー、それも日本人技術者が創業者である企業が実はもう1社存在します。それが藤川幸一氏率いるHapyrusです。今回、来日中の藤川氏に直接、Hapyrusが現在最も注力するAmazon Redshiftに関するビジネスを中心にお話を伺いました。藤川幸一氏 Redshiftへのデータアップロードを事業の中核に ─⁠─H

mtkys 2013/11/13

リンク

https://docs.cloudera.com/documentation/enterprise/latest.html

mtkys 2013/10/17

CDH3ux → CDH3u6

Hadoop

リンク

md_test

Zabbix Hadoop Monitor 現在工事中です。 What is it? このツールは、ZabbixにてHadoopとHBaseのメトリクスを収集するためのツールです。Zabbixの外部スクリプトとして動作します。以下の環境で動作確認をしています。 CDH3 CDH4 + MRv1 動作に必要な前提条件監視対象となるHadoop、HBaseが正常に動作し、後述する事前設定が済んでいること。 Zabbixサーバがセットアップされ、外部スクリプトによる情報収集が可能になっていること。 ZabbixサーバにPerlのJSONモジュールがインストールされていること。スクリプト内部でPerlのJSONモジュールを使用します。導入されていない場合は、適宜インストールを行ってください。例：CentOSのリポジトリからインストールを行う場合 $ sudo yum install perl

mtkys 2013/08/22

Hadoop

リンク

Hadoopクラスタでメトリックス情報を取得する

Hadoopクラスタの統計情報の取得方法 Hadoopクラスタでメトリックス情報（統計情報）を外部サーバーから取得する方法は幾つかありますが、以下ではmetricsサーブレットを有効化する方法について解説します。 Hadoopクラスタの各ノードの/etc/hadoop/conf/hadoop-metrics.propertiesに以下の情報を追記します（既にパラメータが定義されている場合は置き換えます）。 dfs.class=org.apache.hadoop.metrics.spi.NoEm itMetricsContext dfs.period=10 mapred.class=org.apache.hadoop.metrics.spi.NoEm itMetricsContext mapred.period=10 jvm.class=org.apache.hadoop.metrics.spi

mtkys 2013/08/08

Hadoop

リンク

Hadoop HDFSコマンド実行メモ（0.20.1）

# 全体のhelpを見る $ bin/hadoop dfs -help # コマンド単体のヘルプを見る $ bin/hadoop dfs -help ls -ls <path>: List the contents that match the specified file pattern. If path is not specified, the contents of /user/<currentUser> will be listed. Directory entries are of the form dirName (full path) <dir> and file entries are of the form fileName(full path) <r n> size where n is the number of replicas specified for the

mtkys 2013/05/30

hadoop dfs -????

hadoop

リンク

CDH3 Downloadable Tarballs - Cloudera Support

CDH Version 3 Update 0 Cloudera’s Distribution for Apache Hadoop is comprised of 10 integrated open source projects. This comprehensive platform of software enables organizations to more easily take advantage of core Apache Hadoop. To view the overall CDH3 Update 0 release notes, click here. Looking for the Documentation? You can find it here. CDH3 Component Tarball Downloads

mtkys 2013/03/27

cdh3u5

hadoop
CDH3

リンク

Hadoop本輪読会9章

Loading… Flash Player 9 (or above) is needed to view presentations. We have detected that you do not have it on your computer. To install it, go here. Hadoop本輪読会9章 - Presentation Transcript 第8回 Hadoop本輪読会 9章「Hadoopクラスタの構築」株式会社サイバーエージェント新規開発局安田征弘 Hadoop本輪読会 9章 Agenda 9.1 クラスタの仕様 9.2 クラスタのセットアップとインストール 9.3 SSHの設定 9.4 Hadoopの設定 9.5 インストールの後処理 9.6 Hadoopクラスタのベンチマーク 9.7 クラウドにおけるHadoop 2 Hadoop本輪読

mtkys 2013/03/23

hadoop

リンク

SSSSLIDE

mtkys 2013/02/28

hadoop

リンク

WebHDFS APIメモ(Hishidama's Hadoop WebHDFS REST API Memo)

使い方 REST APIなので、コマンド（URI）をブラウザーのURL欄に入力したり、wgetやcurlコマンドを使うことで実行する。 $ wget "http://ネームノード:50070/webhdfs/v1～" $ curl "http://ネームノード:50070/webhdfs/v1～" 接続先のサーバーはNameNode、ポート番号はHDFSのポート（CDH3のデフォルトなら50070、EMRなら9101）。（ブラウザーから「/webhdfs/v1」を付けずに「http://ネームノード:50070」にアクセスするとHDFSの状態を見られる画面が開くが、そのポート番号と同じ） wgetを使うとファイルが作られる。 URIを元にファイル名が決まるので、ファイル名に「?」や「&」が含まれてしまう。「-O」オプションで出力ファイル名を指定した方が良さそう。 curlだとボディー部の

mtkys 2013/02/24

リンク

WebHDFSの性能評価

Hadoop 1.0.0がリリースされましたが、1.0.0にはWebHDFSの機能が最初から入っています。 WebHDFSとはHTTP REST APIでHDFSにアクセスできる機能ですが、httpfs(Hoop)との違いは以下のブログが分かりやすいです。 Hoop(httpfs)とwebhdfsの違い – tagomorisのメモ置き場 Hoopはスケーラビリティに疑問が残りますが、WebHDFSはDatanodeから直接データを取得するのでスケーラビリティの問題はありません。さっそく使ってみました。使い方設定はconf/hdfs-site.xmlに以下を書くだけ。デフォルトはオフなので、書く必要がある。 <property> <name>dfs.webhdfs.enabled</name> <value>true</value> </property> 詳細は公式ドキュメント

mtkys 2013/02/24

リンク

Fluentdで始めるリアルタイムでのログ有効活用

はじめに Fluentdは、ログを収集し格納するためのログ収集基盤ソフトウェアです。Fluentdにインプットされた、すべてのログをJSONに変換し、アウトプットします。インプットとアウトプットはモジュール化されており、モジュールを追加することでインプット元とアウトプット先を追加できるようになっています。 Fluentdは急速に知名度を高め、多くのWebサービス会社で実際に使用されるようになりました。従来のログが抱えていた問題も、Fluentdが適切な解決策となっていると認知され、かつ簡単に導入・スモールスタートできるミドルウェアであったことが大きかったと思います。本稿では、Fluentdの簡単な仕組みと導入方法、シンプルな動作事例について紹介します。対象読者システム管理者データサイエンティスト必要な環境 UNIX系OS Ruby 1.9 ログを出力する理由システム運用を始める