2012/07/31に発表した、Cloudera QA セミナーで発表した資料です。 Read less
![Cloudera Manager 4 の紹介](https://cdn-ak-scissors.b.st-hatena.com/image/square/52c031a46245d0993b29f843f6fc8ddfbe08c6c6/height=288;version=1;width=512/https%3A%2F%2Fcdn.slidesharecdn.com%2Fss_thumbnails%2Fclouderaqaseminar20120731sho-120802055812-phpapp01-thumbnail.jpg%3Fwidth%3D640%26height%3D640%26fit%3Dbounds)
目的はCloudera Managerで楽にHadoopのクラスタ構築をする クラスターの実験用に自宅サーバーを購入したので、ぼちぼちセットアップしていく。以前VPSで2台構成のクラスタ(しょぼい)を構築した時は、CDHを手動でインストールしたが(過去記事)、今回はメモリとかも割と潤沢にあるのでCloudera Managerというのを使ってみることにした。 Coudera Managerは、HadoopやHadoop関連のソフトウェア(HBase, ZooKeeper, Hive, Impala, Hue等)のクラスターを構築するためのソフト。Free Editionは50ノードまで(ver. 4.5からノード数の制限が無くなったそうです)無料で使える。 ドキュメントはこの辺から。 環境 今回の環境を簡単に。 CentOS 6.3 Cloudera Manager Free Editio
Hadoopすらもかなわない!? Amazon Redshiftの破壊力をHapyrus 藤川氏が語る シリコンバレーで起業し、順調にビッグデータビジネスを展開している日本人ベンチャー企業といえば、Hadoop Conference Japan 2013 Winterでも話題となったTreasure Dataがその筆頭に挙げられます。 ですが、Treasure Dataとほぼ同じ時期に西海岸でビジネスをローンチし、現在、国内外の投資家たちから高い注目をあつめるビッグデータベンチャー、それも日本人技術者が創業者である企業が実はもう1社存在します。それが藤川幸一氏率いるHapyrusです。今回、来日中の藤川氏に直接、Hapyrusが現在最も注力するAmazon Redshiftに関するビジネスを中心にお話を伺いました。 藤川幸一氏 Redshiftへのデータアップロードを事業の中核に ──H
Zabbix Hadoop Monitor 現在工事中です。 What is it? このツールは、ZabbixにてHadoopとHBaseのメトリクスを収集するためのツールです。Zabbixの外部スクリプトとして動作します。以下の環境で動作確認をしています。 CDH3 CDH4 + MRv1 動作に必要な前提条件 監視対象となるHadoop、HBaseが正常に動作し、後述する事前設定が済んでいること。 Zabbixサーバがセットアップされ、外部スクリプトによる情報収集が可能になっていること。 ZabbixサーバにPerlのJSONモジュールがインストールされていること。 スクリプト内部でPerlのJSONモジュールを使用します。導入されていない場合は、適宜インストールを行ってください。 例:CentOSのリポジトリからインストールを行う場合 $ sudo yum install perl
Hadoopクラスタの統計情報の取得方法 Hadoopクラスタでメトリックス情報(統計情報)を外部サーバーから取得する方法は幾つかありますが、以下ではmetricsサーブレットを有効化する方法について解説します。 Hadoopクラスタの各ノードの/etc/hadoop/conf/hadoop-metrics.propertiesに以下の情報を追記します(既にパラメータが定義されている場合は置き換えます)。 dfs.class=org.apache.hadoop.metrics.spi.NoEmitMetricsContext dfs.period=10 mapred.class=org.apache.hadoop.metrics.spi.NoEmitMetricsContext mapred.period=10 jvm.class=org.apache.hadoop.metrics.spi
# 全体のhelpを見る $ bin/hadoop dfs -help # コマンド単体のヘルプを見る $ bin/hadoop dfs -help ls -ls <path>: List the contents that match the specified file pattern. If path is not specified, the contents of /user/<currentUser> will be listed. Directory entries are of the form dirName (full path) <dir> and file entries are of the form fileName(full path) <r n> size where n is the number of replicas specified for the
CDH Version 3 Update 0 Cloudera’s Distribution for Apache Hadoop is comprised of 10 integrated open source projects. This comprehensive platform of software enables organizations to more easily take advantage of core Apache Hadoop. To view the overall CDH3 Update 0 release notes, click here. Looking for the Documentation? You can find it here. CDH3 Component Tarball Downloads
Loading… Flash Player 9 (or above) is needed to view presentations. We have detected that you do not have it on your computer. To install it, go here. Hadoop本輪読会9章 - Presentation Transcript 第8回 Hadoop本 輪読会 9章 「Hadoopクラスタの構築」 株式会社サイバーエージェント 新規開発局 安田 征弘 Hadoop本輪読会 9章 Agenda 9.1 クラスタの仕様 9.2 クラスタのセットアップとインストール 9.3 SSHの設定 9.4 Hadoopの設定 9.5 インストールの後処理 9.6 Hadoopクラスタのベンチマーク 9.7 クラウドにおけるHadoop 2 Hadoop本輪読
使い方 REST APIなので、コマンド(URI)をブラウザーのURL欄に入力したり、wgetやcurlコマンドを使うことで実行する。 $ wget "http://ネームノード:50070/webhdfs/v1~" $ curl "http://ネームノード:50070/webhdfs/v1~" 接続先のサーバーはNameNode、ポート番号はHDFSのポート(CDH3のデフォルトなら50070、EMRなら9101)。 (ブラウザーから「/webhdfs/v1」を付けずに「http://ネームノード:50070」にアクセスするとHDFSの状態を見られる画面が開くが、そのポート番号と同じ) wgetを使うとファイルが作られる。 URIを元にファイル名が決まるので、ファイル名に「?」や「&」が含まれてしまう。「-O」オプションで出力ファイル名を指定した方が良さそう。 curlだとボディー部の
Hadoop 1.0.0がリリースされましたが、1.0.0にはWebHDFSの機能が最初から入っています。 WebHDFSとはHTTP REST APIでHDFSにアクセスできる機能ですが、httpfs(Hoop)との違いは以下のブログが分かりやすいです。 Hoop(httpfs)とwebhdfsの違い – tagomorisのメモ置き場 Hoopはスケーラビリティに疑問が残りますが、WebHDFSはDatanodeから直接データを取得するのでスケーラビリティの問題はありません。さっそく使ってみました。 使い方 設定はconf/hdfs-site.xmlに以下を書くだけ。デフォルトはオフなので、書く必要がある。 <property> <name>dfs.webhdfs.enabled</name> <value>true</value> </property> 詳細は公式ドキュメント
はじめに Fluentdは、ログを収集し格納するためのログ収集基盤ソフトウェアです。Fluentdにインプットされた、すべてのログをJSONに変換し、アウトプットします。インプットとアウトプットはモジュール化されており、モジュールを追加することでインプット元とアウトプット先を追加できるようになっています。 Fluentdは急速に知名度を高め、多くのWebサービス会社で実際に使用されるようになりました。従来のログが抱えていた問題も、Fluentdが適切な解決策となっていると認知され、かつ簡単に導入・スモールスタートできるミドルウェアであったことが大きかったと思います。 本稿では、Fluentdの簡単な仕組みと導入方法、シンプルな動作事例について紹介します。 対象読者 システム管理者 データサイエンティスト 必要な環境 UNIX系OS Ruby 1.9 ログを出力する理由 システム運用を始める
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く