サクサク読めて、アプリ限定の機能も多数!
トップへ戻る
体力トレーニング
kashigeru.hatenablog.com
今回はネットワーク遅延を擬似的に発生させる方法について。 ネットワーク遅延がある環境で色々検証したいこと。。 あると思います。 例えば、データセンターを地理的に離れた場所に借りたいがデータセンター間で 連携するようなアプリケーションがありネットワーク遅延が与える影響を事前に知りたい。 あると思います。 例えば、距離的に離れた場所でVirtual Chassis(Juniper)、VCS(Brocade)、FabricPath(Cisco)を組みたいが事前に検証してみたい。 あると思います。 ということでネットワーク遅延を擬似的に発生させる方法を紹介します。 サーバ構成 OS:CentOS 6.4 サーバをブリッジで動かすのでNICは2つ必要 構成図 サーバをブリッジにする bridge-utilsをインストール yum install bridge-utils Interfaceを設定する
SparkでHDFS上のデータを分析し結果を再度HDFS上に保存するまでの備忘録です。 環境 HDFSはCDH5.3.2 SparkはHDFSクラスタとは別で用意 StandAloneモードでインストールしました。 サンプルデータ Generate Test Data - Amazon Elastic MapReduceから作成 こういうデータ(抜粋) 0|Christopher WOOD|1954-10-15|F|NC|christopher.wood.1954@hotmail.com|412-850-6209 1|Scarlett YOUNG|1998-10-24|M|OK|scarlett.young.1998@live.com|151-447-8098 2|Ian ADAMS|1982-02-12|F|CT|ian.adams.1982@hotmail.com|768-213-49
今回はApache AmbariでHDPをインストールしてみました。 AmbariはHadoopの管理ツールでHortonWorksのHDPクラスタが簡単に構築出来ます。 ClouderaでいうClouderaManager的なものです。 構成 Server(管理コンソール)1台 Agent(HDPクラスタホスト)5台 事前準備 SElinux/iptables/名前解決(DNS/hosts) sshログイン 鍵認証パスワードなし管理者権限 インストール バージョンはAmbari 2.0.0です。 Server1台で実施 # wget http://public-repo-1.hortonworks.com/ambari/centos6/2.x/updates/2.0.0/ambari.repo ambari.repo [Updates-ambari-2.0.0] name=ambari-
Prestoを試してみたのでまとめておきます。 Prestoとは Presto Facebookが開発したSQLクエリエンジンです。 HDFS上のデータに対してSQLで処理が出来ます。 HiveでもSQLライクに処理は出来るのですがHiveはMapReduceで動作する為、処理が遅く PrestoはMapRedcueを使わない為、高速に処理できます(ImpalaもPrestoと同様) Prestoアーキテクチャ こちら にあるとおりCoodinatorとWorkerで動作します。 HiveのMetadataを参照してHDFS上のデータを読み込みます。 検証構成 サンプルデータはこちらを使用しました。 HDFSとHiveの構築はCloudera-managerからサクッと行いました。 今回はCoordinator1台+Worker2台構成です。 Prestoインストール こちらを参考にインス
このエントリはSpark, SQL on Hadoop etc. Advent Calendar 2014 - Qiitaの13日目の記事です。 Apache Drillとは SQL分散クエリエンジンです。 標準SQLサポートや様々なデータソースへの接続などの特徴があります。 今回は特徴の一つである”スキーマレスデータに対するSQLクエリ”を実行してみます。 Drillについて詳しくは こちらを参照ください。 環境準備 MapRのSandBox版を使います。 インストール方法は下記を参考にして下さい。 Drillは下記バージョンがインストールされてました。 mapr-drill.noarch 0.5.0.275270-1 @/mapr-drill-0.5.0.275270-1.noarch JSON形式のサンプルデータは下記を使用します。 Aggregation with the Zip
CDH5にSparkをインストールしました。 Sparkとは Spark 分散処理をメモリで行うため、Hadoop(MapReduce)よりも高速に処理が出来る分散処理基盤です。 検証構成 Master 1台 Worker 2台 ※同一マシン上にCDH5でHDFSとYARNをインストール済み インストール こちら を参考にインストールを行います。 パッケージ確認 $ sudo yum list | grep spark hue-spark.x86_64 3.6.0+cdh5.1.0+86-1.cdh5.1.0.p0.36.el6 python-sparklines.noarch 0.9-2.el6 epel spark-core.noarch 1.0.0+cdh5.1.0+41-1.cdh5.1.0.p0.27.el6 spark-history-server.noarch 1.0.0+c
OpenDaylightプロジェクトからHydrogenがリリースされていました。 ということで早速インストール(セットアップ)です。 ダウンロード こちらからダウンロードできます。 用途によってBase、Virtualization、Service Providerがあります。 今回は軽くBaseにしてみます。 zip形式がもっともシンプルで簡単なインストールって書いてるのでこれをダウンロード。 ダウンロードファイル:distributions-base-0.1.1-osgipackage.zip インストール インストールの前にJavaのバージョンが1.7であることを確認 #java -version java version "1.7.0_51" 問題なさそうなので進めます。 解凍 #unzip distributions-base-0.1.1-osgipackage.zip フォル
今回はHDFSを操作する為のHadoopコマンドリファレンスです。 hadoop fsコマンドを使用します。 ※資料によってはhadoop dfsという書き方もあるのですが、同等みたいです。 mkdir(ディレクトリ作成) [hadoop@localhost ~]$ hadoop fs -mkdir sudati ls/lsr(ファイルやディレクトの一覧表示) [hadoop@localhost ~]$ hadoop fs -ls Found 1 items drwxr-xr-x - hadoop supergroup 0 2014-03-07 02:46 /user/hadoop/sudati chmod(アクセス権限変更) [hadoop@localhost ~]$ hadoop fs -chmod 777 sudati [hadoop@localhost ~]$ hadoop fs
Splunkをインストールして試用してみたので、まとめておきます。 Splunkとは あらゆるデータにインデックスをつけて検索/分析しやすくするためのソフトウェアです。 詳しくは下記を参照ください。 Splunk日本語公式サイト 今回対象のデータはNetwork Deviceのsyslogです。 試用しようと思ったきっかけは下記の2つ。 ・障害時、問題特定への時間短縮。 ・人を選ばず、誰でもログを簡単に閲覧出来るように。 なにはともあれsyslogサーバをGUI化させたかったのでやってみました。 構成図 Network Deviceがsyslogサーバにログを送信し蓄積しています。 syslogサーバからSplunkサーバへUniversalForwarderを使用してログを転送しています。 syslogサーバにSplunkをインストールして1台で完結出来るのですが、 今回は蓄積サーバと閲
このページを最初にブックマークしてみませんか?
『kashigeru.hatenablog.com』の新着エントリーを見る
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く