kaghanのブックマーク / 2013年8月13日

kaghan id:kaghan

2013年8月13日のブックマーク (16件)

ほぼやけくそHive Hacks – OpenGroove
Hive Hacksあれこれ。内容はほぼO’REILLY Hadoop Hacksからの引用そのまんま。ただの個人メモなのだが、ずうずうしく公開させてもらいます。いろんなところに記録しておいてもすぐに「あれ、あのメモどこやったっけ」となるのでここに書くのが一番なんだよね。書いたからって理解できるわけでもないんだが… （初めに書いておくと、この投稿長いです）基本原則的なこと。 ●UPDATEは回避する処理速度が遅延するため、UPDATEを多数含むようなSQLをHiveSQLに変換することは避けるべき ●MapReduceタスクのオーバーヘッド Hiveは「高スループットを目指す処理には向いているが、低レンテンシを目指す処理には向いていない」というMapReduce処理の特徴を引き継いでいる。MapReduceタスクのオーバーヘッドが付きまとうことを念頭におく。 ●並列分散ができない処理
kaghan 2013/08/13
hive

hadoop

*これはイイ資料
リンク
「Hadoop Hacks」読んだ - たごもりすメモ
「Hadoop Hacks」を著者陣のご高配を得てオライリー・ジャパンから献本いただきました。ありがとうございます。 Hadoop Hacks ―プロフェッショナルが使う実践テクニックposted with amazlet at 12.04.26中野猛山下真一猿田浩輔上新卓也小林隆オライリージャパン売り上げランキング: 2139 Amazon.co.jp で詳細を見るで、ざっと読んだ(自分でやってないところは眺めた程度)ので感想をざらっと。なんというか、さすがにちょっと扱う内容が広過ぎる＆プログラミングを避けられない箇所が多過ぎる感はあって、苦労したんだろうなー、という気がする。読んで「ああこれは役に立つよね」というのがだいぶ少なくてちょっと残念。100行単位でコードを書かないといけない内容をこういう本で「hack」といって紹介するのはやっぱりちょっときびしいなー
kaghan 2013/08/13
hadoop

hive
リンク
hiveを使うためのhadoop(HDFS)コマンド【hiveの初期設定】
hiveを使うためのhadoop(HDFS)コマンドの解説です。最低限使うものだけに絞って紹介します。質問や間違い指摘は何でもご連絡ください(^^) @ts_3156 hadoop、hiveのインストール方法は下記の記事に書いています。 hiveの一番シンプルなインストール方法 HDFSを簡単に言うと、単なるディレクトリとファイルです HDFSは、Hadoop Distributed File Systemです。直訳すると、「hadoop(はどぅーぷ)分散ファイルステム」です。名前の通り単なるファイルシステムの1つなので、普通のコマンドと同じようなコマンドが使えます。HDFSで使えるコマンドは以下の通りです。 # 自分のホームディレクトリにls。以下の2つは全く同じです。 hadoop dfs -ls hadoop dfs -ls /user/[user_name] # 特定のディレク
kaghan 2013/08/13
hive

hadoop
リンク
オヤジのサーバ構築に挑戦！ Wiki*
ファイル入手 Webminユーザグループ http://www.webmin.com/index6.html 今回は以下ファイルを入手 usermin-1.440-1.noarch.rpm http://sourceforge.net/projects/webadmin/files/usermin/1.440/usermin-1.440-1.noarch.rpm/download インストール (1)ファイル転送 ftp にて、ユーザエリア「/home/hogehoge」にusermin-1.440-1.noarch.rpmをアップ (2)インストールスーパーユーザでログイン $ su パスワード: # パッケージがあるか確認 # ls -l -rw-r--r-- 1 hogehoge hogehoge 6549092 7月 25 10:19 usermin-1.440-1.noarch
kaghan 2013/08/13
usermin

設定
リンク
Usermin導入(Usermin) - CentOSで自宅サーバー構築
[root@centos ~]# rpm --import http://www.webmin.com/jcameron-key.asc　←　GPGキーインポート [root@centos ~]# rpm -Uvh http://www.webmin.com/download/rpm/usermin-current.rpm　←　Userminインストール Preparing... ########################################### [100%] Operating system is CentOS Linux 1:usermin ########################################### [100%] Usermin install complete. You can now login to https://centos.c
kaghan 2013/08/13
usermin

webmin
リンク
http://www.kakimasse.net/
kaghan 2013/08/13
linux

設定
リンク
ユーザのパスワード変更
kaghan 2013/08/13
linux

web

設定
リンク
【ツール紹介】UNIXログ調査ツール
snort, logwatch,nagios以外にもモニトリングツールがあります。下記の内容は僕の個人で使っているログ調査ツールのリファレンス一覧となります、これを使うと結構色々ログの調査が出来ます、リアルタイム迄に対応が可能です。１．tobi / clarity ウェブUIインターフェース経由UNIXのgrepとtail -fです、リアルタイム対応だが負荷がかかるので気をつけて。splunの関係UI。 https://github.com/tobi/clarity ２．Epylog Log Analyzer ログを嘗めて、キーワードでgrep機能があり、オートプットはactionやメール。Python-2.2以上とlibxml2-pythonが必要。開発が結構進んでいます。 https://fedorahosted.org/epylog/ ３．SEC - simple event c
kaghan 2013/08/13
linux

セキュリティ
リンク
RepoView: "Fedora EPEL 6 - x86_64"
kaghan 2013/08/13
EPEL

sec
リンク
構成管理ツール Ansible について - aptheia.info
Ansible というサーバーの設定を管理するツールの説明。いわゆる構成管理 (CM: Configuration Management) にカテゴライズされるもので、Puppet や Chef の親戚みたいなものと考えてもらえればだいたいあってる。概要リード開発者は Michael DeHaan で、現職の AnsibleWorks の前は Redhat で Cobbler や Func に携わっていたり、Puppet labs でプロダクトマネージャーしたりしているという経歴の持ち主。 Ansible は Python で書かれている。同じジャンルで Python 製というと Salt が有名。Chef の場合、レシピを書くためには Ruby の知識が必要となってくるけど、Ansible はどんな言語でもモジュールが書けるようになっているので、運用にあたって Python の知識は
kaghan 2013/08/13
ansible

構成管理
リンク
EPEL/ja - FedoraProject
エンタープライズ Linux 用の拡張パッケージ(EPEL) は、 Red Hat Enterprise Linux (RHEL) 向けの高品質なアドオンパッケージであり、CentOS や Scientific Linux (SL) のような RHEL からスピンオフしたディストリビューションと互換性のある、Fedora プロジェクトで有志によって作成されたパッケージになります。Fedora は RHEL のアップストリームであり、EPEL のアドオンパッケージは主に RHEL 向けにビルドされた Fedora リポジトリをソースとしています。 EPEL を使ってみよう EPEL とは FAQ EPEL ほしい物リスト利用可能なパッケージ: EPEL 7: x86_64, ppc64, ppc64le, sources EPEL 6: i386, x86_64, ppc64, sourc
kaghan 2013/08/13
redhat

linux

EPEL
リンク
Blog Alpha Networking: Hadoopチューニング
2013年2月28日木曜日 Hadoopチューニング Hadoopを利用できる環境は整えた。規模を大きくしていく場合に考量すべき最低限のチューニング個所をまとめておく。 ◆ HDFS関連 hdfs-site.xml 内で設定 ● ブロックサイズの設定 dfs.block.size ディフォルト：67108864(64MB) 変更：134217728(128MB) ブロック数の削減、またその数を抑えてヒープメモリを抑える ● レプリケーション数の設定 dfs.replication ディフォルト：3 変更：3 (そのままでいいでしょう) 必要なディスク容量は、単純に3倍になるのではなく、 MapReduceの中間データも書き込まれるので4倍程度は必要。 ● DataNodeへの上限接続数 dfs.datanode.max.xcievers(0.2.0系)
kaghan 2013/08/13
MapReduce

hadoop

*これはイイ資料
リンク
Hadoop 最速マスター
Hadoopを利用するうえで必要な知識を密度濃くまとめた。 ◆ 構成マスタスレーブ HDFS NameNode DataNode MapReduce JobTracker TaskTracker mapper(×起動数) reducer(×起動数) 本ブログ内では物理ホスト３台を利用する。 node01 マスタ node02 スレーブ1 node03 スレーブ2 NameNodeのSecondaryNameNodeはどちらかを利用できる。 CheckpointNode 一定の間隔で同期する BackupNode 常に同じ情報を保持し同期するこちらは0.2.1以降でしか利用できない ◆ 事前作業 javaをインストールする。 # su - # yum install java-1.6.0-openjdk hostsへ登録する。 # vi /etc/
kaghan 2013/08/13
hadoop

*これはイイ資料
リンク
Cloudera | ハイブリッドデータカンパニー
データを信頼し、AI を信頼する信頼できるデータ、信頼できるモデル、信頼できる AI を実現するために、これほど多くのクラウドのさまざまなデータタイプを管理でき、オープンデータのイノベーションと大規模展開に対応できるプラットフォームは他にありません。
kaghan 2013/08/13
hadoop
リンク
HadoopでJSONデータを扱う - yustam.jp
JavaでJSONを扱う際に外部ライブラリを必要としますが、 Hadoop1.0.3にはjacksonのライブラリが含まれているみたい Jackson JSON Processor - Home hadoop-core-1.0.3.pomの一部 <dependency> <groupId>org.codehaus.jackson</groupId> <artifactId>jackson-mapper-asl</artifactId> <version>1.0.1</version> </dependency> 注意しなければいけないのはバージョンが1.0.1であるということ (現時点でjacksonの最新は1.9.9) 依存関係に違うバージョンのjacksonのライブラリを含めると競合してしまうので Hadoop1.0.3でjacksonを使用する場合は1.0.1を使います以下コマンド
kaghan 2013/08/13
hadoop

json

java
リンク
第28回　RubyとHadoopで分散処理　Hadoop Streamingの仕組み | gihyo.jp
はじめに Hadoopとは、Googleの基盤技術であるMapReduceをJavaでオープンソース実装したもので、分散処理のフレームワークです。Hadoopを使うと、1台のサーバでは時間の掛かるような処理を、複数のサーバで分散処理させることができます。「⁠処理を割り振ったサーバが壊れた場合どうするか」などの耐障害性の問題もHadoopが管理してくれるため、利用者は処理のアルゴリズムのみに集中することができるのです。素晴らしいですね。最近ではYahoo!やはてななど、様々な企業でも利用されるようになってきています。 Hadoop導入の背景筆者はクックパッド株式会社に勤めています。open('http://cookpad.com'); return false;">クックパッドというサイトが有名だと思いますが、他にも携帯版クックパッドであるopen('http://m.cookpad.co
kaghan 2013/08/13
hadoop

streaming

ruby
リンク
- 2013年8月14日
- 2013年8月13日
- 2013年8月10日