タグ

2013年8月13日のブックマーク (16件)

  • ほぼやけくそHive Hacks – OpenGroove

    Hive Hacksあれこれ。内容はほぼO’REILLY Hadoop Hacksからの引用そのまんま。ただの個人メモなのだが、ずうずうしく公開させてもらいます。いろんなところに記録しておいてもすぐに「あれ、あのメモどこやったっけ」となるのでここに書くのが一番なんだよね。書いたからって理解できるわけでもないんだが… (初めに書いておくと、この投稿長いです) 基原則的なこと。 ●UPDATEは回避する 処理速度が遅延するため、UPDATEを多数含むようなSQLをHiveSQLに変換することは避けるべき ●MapReduceタスクのオーバーヘッド Hiveは「高スループットを目指す処理には向いているが、低レンテンシを目指す処理には向いていない」というMapReduce処理の特徴を引き継いでいる。MapReduceタスクのオーバーヘッドが付きまとうことを念頭におく。 ●並列分散ができない処理

  • 「Hadoop Hacks」読んだ - たごもりすメモ

    「Hadoop Hacks」を著者陣のご高配を得てオライリー・ジャパンから献いただきました。ありがとうございます。 Hadoop Hacks ―プロフェッショナルが使う実践テクニックposted with amazlet at 12.04.26中野 猛 山下 真一 猿田 浩輔 上新 卓也 小林 隆 オライリージャパン 売り上げランキング: 2139 Amazon.co.jp で詳細を見る で、ざっと読んだ(自分でやってないところは眺めた程度)ので感想をざらっと。 なんというか、さすがにちょっと扱う内容が広過ぎる&プログラミングを避けられない箇所が多過ぎる感はあって、苦労したんだろうなー、という気がする。読んで「ああこれは役に立つよね」というのがだいぶ少なくてちょっと残念。100行単位でコードを書かないといけない内容をこういうで「hack」といって紹介するのはやっぱりちょっときびしいなー

    「Hadoop Hacks」読んだ - たごもりすメモ
  • hiveを使うためのhadoop(HDFS)コマンド【hiveの初期設定】

    hiveを使うためのhadoop(HDFS)コマンドの解説です。 最低限使うものだけに絞って紹介します。 質問や間違い指摘は何でもご連絡ください(^^) @ts_3156 hadoop、hiveのインストール方法は下記の記事に書いています。 hiveの一番シンプルなインストール方法 HDFSを簡単に言うと、単なるディレクトリとファイルです HDFSは、Hadoop Distributed File Systemです。直訳すると、「hadoop(はどぅーぷ)分散ファイルステム」です。名前の通り単なるファイルシステムの1つなので、普通のコマンドと同じようなコマンドが使えます。HDFSで使えるコマンドは以下の通りです。 # 自分のホームディレクトリにls。以下の2つは全く同じです。 hadoop dfs -ls hadoop dfs -ls /user/[user_name] # 特定のディレク

  • オヤジのサーバ構築に挑戦! Wiki*

    ファイル入手 Webminユーザグループ http://www.webmin.com/index6.html 今回は以下ファイルを入手 usermin-1.440-1.noarch.rpm http://sourceforge.net/projects/webadmin/files/usermin/1.440/usermin-1.440-1.noarch.rpm/download インストール (1)ファイル転送 ftp にて、ユーザエリア「/home/hogehoge」にusermin-1.440-1.noarch.rpmをアップ (2)インストール スーパーユーザでログイン $ su パスワード: # パッケージがあるか確認 # ls -l -rw-r--r-- 1 hogehoge hogehoge 6549092 7月 25 10:19 usermin-1.440-1.noarch

    オヤジのサーバ構築に挑戦! Wiki*
  • Usermin導入(Usermin) - CentOSで自宅サーバー構築

    [root@centos ~]# rpm --import http://www.webmin.com/jcameron-key.asc ← GPGキーインポート [root@centos ~]# rpm -Uvh http://www.webmin.com/download/rpm/usermin-current.rpm ← Userminインストール Preparing... ########################################### [100%] Operating system is CentOS Linux 1:usermin ########################################### [100%] Usermin install complete. You can now login to https://centos.c

  • http://www.kakimasse.net/

  • ユーザのパスワード変更

  • 【ツール紹介】UNIXログ調査ツール

    snort, logwatch,nagios以外にもモニトリングツールがあります。下記の内容は僕の個人で使っているログ調査ツールのリファレンス一覧となります、これを使うと結構色々ログの調査が出来ます、リアルタイム迄に対応が可能です。 1.tobi / clarity ウェブUIインターフェース経由UNIXのgrepとtail -fです、リアルタイム対応だが負荷がかかるので気をつけて。splunの関係UI。 https://github.com/tobi/clarity 2.Epylog Log Analyzer ログを嘗めて、キーワードでgrep機能があり、オートプットはactionやメール。Python-2.2以上とlibxml2-pythonが必要。 開発が結構進んでいます。 https://fedorahosted.org/epylog/ 3.SEC - simple event c

    【ツール紹介】UNIXログ調査ツール
  • RepoView: "Fedora EPEL 6 - x86_64"

  • 構成管理ツール Ansible について - aptheia.info

    Ansible というサーバーの設定を管理するツールの説明。いわゆる構成管理 (CM: Configuration Management) にカテゴライズされるもので、Puppet や Chef の親戚みたいなものと考えてもらえればだいたいあってる。 概要 リード開発者は Michael DeHaan で、現職の AnsibleWorks の前は Redhat で Cobbler や Func に携わっていたり、Puppet labs でプロダクトマネージャーしたりしているという経歴の持ち主。 Ansible は Python で書かれている。同じジャンルで Python 製というと Salt が有名。Chef の場合、レシピを書くためには Ruby の知識が必要となってくるけど、Ansible はどんな言語でもモジュールが書けるようになっているので、運用にあたって Python の知識は

  • EPEL/ja - FedoraProject

    エンタープライズ Linux 用の拡張パッケージ(EPEL) は、 Red Hat Enterprise Linux (RHEL) 向けの高品質なアドオンパッケージであり、CentOS や Scientific Linux (SL) のような RHEL からスピンオフしたディストリビューションと互換性のある、Fedora プロジェクトで有志によって作成されたパッケージになります。Fedora は RHEL のアップストリームであり、EPEL のアドオンパッケージは主に RHEL 向けにビルドされた Fedora リポジトリをソースとしています。 EPEL を使ってみよう EPEL とは FAQ EPEL ほしい物リスト 利用可能なパッケージ: EPEL 7: x86_64, ppc64, ppc64le, sources EPEL 6: i386, x86_64, ppc64, sourc

  • Blog Alpha Networking: Hadoopチューニング

    2013年2月28日木曜日 Hadoopチューニング Hadoopを利用できる環境は整えた。 規模を大きくしていく場合に考量すべき最低限の チューニング個所をまとめておく。 ◆ HDFS関連 hdfs-site.xml 内で設定 ● ブロックサイズの設定 dfs.block.size ディフォルト:67108864(64MB) 変更:134217728(128MB) ブロック数の削減、またその数を抑えてヒープメモリを抑える ● レプリケーション数の設定 dfs.replication ディフォルト:3 変更:3 (そのままでいいでしょう) 必要なディスク容量は、単純に3倍になるのではなく、 MapReduceの中間データも書き込まれるので4倍程度は必要。 ● DataNodeへの上限接続数 dfs.datanode.max.xcievers(0.2.0系)

  • Hadoop 最速マスター

    Hadoopを利用するうえで必要な知識を密度濃くまとめた。 ◆ 構成 マスタ       スレーブ HDFS       NameNode     DataNode MapReduce  JobTracker   TaskTracker mapper(×起動数) reducer(×起動数) ブログ内では物理ホスト3台を利用する。 node01 マスタ node02 スレーブ1 node03 スレーブ2 NameNodeのSecondaryNameNodeはどちらかを利用できる。 CheckpointNode 一定の間隔で同期する BackupNode 常に同じ情報を保持し同期する こちらは0.2.1以降でしか利用できない ◆ 事前作業 javaをインストールする。 # su - # yum install java-1.6.0-openjdk hostsへ登録する。 # vi /etc/

  • Cloudera | ハイブリッドデータカンパニー

    データを信頼し、AI を信頼する 信頼できるデータ、信頼できるモデル、信頼できる AI を実現するために、これほど多くのクラウドのさまざまなデータタイプを管理でき、オープンデータのイノベーションと大規模展開に対応できるプラットフォームは他にありません。

    Cloudera | ハイブリッドデータカンパニー
  • HadoopでJSONデータを扱う - yustam.jp

    JavaでJSONを扱う際に外部ライブラリを必要としますが、 Hadoop1.0.3にはjacksonのライブラリが含まれているみたい Jackson JSON Processor - Home hadoop-core-1.0.3.pomの一部 <dependency> <groupId>org.codehaus.jackson</groupId> <artifactId>jackson-mapper-asl</artifactId> <version>1.0.1</version> </dependency> 注意しなければいけないのはバージョンが1.0.1であるということ (現時点でjacksonの最新は1.9.9) 依存関係に違うバージョンのjacksonのライブラリを含めると競合してしまうので Hadoop1.0.3でjacksonを使用する場合は1.0.1を使います 以下コマンド

    HadoopでJSONデータを扱う - yustam.jp
  • 第28回 RubyとHadoopで分散処理 Hadoop Streamingの仕組み | gihyo.jp

    はじめに Hadoopとは、Googleの基盤技術であるMapReduceをJavaでオープンソース実装したもので、分散処理のフレームワークです。Hadoopを使うと、1台のサーバでは時間の掛かるような処理を、複数のサーバで分散処理させることができます。「⁠処理を割り振ったサーバが壊れた場合どうするか」などの耐障害性の問題もHadoopが管理してくれるため、利用者は処理のアルゴリズムのみに集中することができるのです。素晴らしいですね。最近ではYahoo!はてななど、様々な企業でも利用されるようになってきています。 Hadoop導入の背景 筆者はクックパッド株式会社に勤めています。open('http://cookpad.com'); return false;">クックパッドというサイトが有名だと思いますが、他にも携帯版クックパッドであるopen('http://m.cookpad.co

    第28回 RubyとHadoopで分散処理 Hadoop Streamingの仕組み | gihyo.jp