@特勉(@IT 特集連動勉強会) で発表させていただきました、CDH5についての資料です。 http://atnd.org/events/46924
Error message : Directory is not found or not writable (DATA_DIR) Directory is not found or not writable (DIFF_DIR) Directory is not found or not writable (BACKUP_DIR) Directory is not found or not writable (CACHE_DIR) Site admin: whitestar Copyright © 2006-2023 whitestar. All Rights Reserved. Icons powered by famfamfam. PukiWiki 1.5.0 Copyright © 2001-2006 PukiWiki Developers Team. License is GPL
先日リリースされたばかりのCDH5 beta1 (Hadoop2.2)を、Ansibleを使ってセットアップしてみた。 当初 「Vagrant + AnsibleでCDH5をプロビジョニングしちゃおうかな!?」と妄想したのだが、AWSのm1.largeを使うので失敗してやり直したときの経済的打撃が大きいのと、ストライクゾーンが狭すぎて参考にする人まずいないよね…と現実に引き戻され、やめました。 Ansibleでさえ認知度低いので参考にする人がいるかは相当疑問なのだが、ただ構築するだけじゃつまらないので意地でもAnsible使うもんね、みたいなノリである。未来だけを見つめていたいので。Ansibleを使わない場合は、playbookに記載の処理内容をそのままコマンドに当てはめてもらえばいいかと。 実行環境として、以下2台のマシンを利用。OSはCentOS 6.4。 Ansible:AWS t
米インテルとHadoopのディストリビューションベンダーとして知られる米クラウデラは、インテルがクラウデラへ出資、インテルがクラウデラの戦略的な筆頭株主となることを発表しました。 Cloudera, Intel Commit to Accelerate and Transform How Enterprises Use Big Data; Intel Makes Significant Equity Investment in Cloudera これはインテルにとってデータセンター関連で過去最大の投資。 プレスリリースでクラウデラは次のように記し、同社のHadoopディストリビューションをインテルアーキテクチャへ最適化していくと説明しています。インテルは技術やマーケティングの面でこれを支援していくとのこと。 Cloudera will develop and optimize Cloude
Hadoopアドベントカレンダー2013、3日目を担当する @shiumachi です。 今回は HBase 0.96 の新機能を一つ紹介します。 要約 HBase 0.96 は賢くなったのでみんな使おう。 コンパクションのおさらい HBase では、Log Structured-Merge tree (LSM-tree) というデータ構造を使っています。 LSM-tree を簡単に説明すると、入力されたデータをログとメモリ上のデータストア(Memstore、メモリストア) に書き込みます。 メモリストアがいっぱいになると、まとめてディスクにフラッシュし、新しいストアファイルを生成します。 このストアファイルがたまってきたときに、少しづつ一まとめにしてなるべくファイル数を少なくするようにします。これがコンパクションです。 コンパクションを実行することにより、ファイルは一つにまとまります。こ
2012-12-16 HBaseを止めるな! ~OKWaveの挑戦~ HBase Hadoop いまだにHBaseには怖くて手が出せてないんですが、12/10のHadoopソリューションセミナー@東京カンファレンスセンター品川でのOKWaveさんの事例紹介が素晴らしかったのでご紹介します。この発表を聴いていたら「何とかなるんじゃないか?」という気がしてきました。まず気を付けるポイントは以下の4点 1. リージョン自動分割はしない デフォルトではリージョンが一定サイズを超えると自動分割が走ってしまい、分割中はリージョンにアクセスできなくなる。リージョンは事前に分割しておいて、自動分割閾値を極端に大きい値にしてリージョン自動分割を走らせない方が良い。 2. メジャーコンパクションを走らせない デフォルトでは24h±20%毎に走るけれどもこれだと影響が大きくなってしまうので、そうなる前にこまめに
(この記事は、Hadoop Advent Calender 2013 の12日目の記事です) こんにちは、Amebaのログ解析基盤Patriotの運用をしている、鈴木(@brfrn169)と柿島大貴です。 Patriotについては以下をご覧ください。 http://ameblo.jp/principia-ca/entry-10635727790.html http://www.slideshare.net/cyberagent/cloudera-world-tokyo-2013 今回、Amebaのログ解析基盤PatriotにCloudera ImpalaとPrestoを導入しました。 Cloudera ImpalaとPrestoのインストール方法や詳細ついては、下記URLをご覧ください。 Cloudera Impala http://www.cloudera.com/content/clo
日本OSS推進フォーラムより,第9回日本 OSS 奨励賞を頂きました.ありがとうございます.受賞理由は以下の通りです: Hadoop開発コミュニティにおいて、リソース制御機構YARNの高信頼性を実現する新機能の開発等に貢献するとともに、品質強化に向けた取り組みにも貢献している。若手研究者として論文をまとめる一方で、その知見をもとに、積極的にOSS開発に参画・継続している。 受賞者の中には見慣れた名前の方もおり,大変恐縮です.特に @tagomoris 先生,おめでとうございます!同時受賞できるとはびっくりしました. ここ1年の活動内容 良い機会なので,ここ1年の活動内容について振り返っておきたいと思います. Apache Hadoop プロジェクトに合計で100件以上のパッチを投稿. マージ件数は14件. 恐らく日本人としての投稿・マージ LOC 数はトップ. 筑波大学川島先生のお誘いで
Hadoopの現実解「バッチ処理」の常識をAsakusaで体得:ビッグデータ処理の常識をJavaで身につける(7)(1/4 ページ) Hadoopをはじめ、Java言語を使って構築されることが多い「ビッグデータ」処理のためのフレームワーク/ライブラリを紹介しながら、大量データを活用するための技術の常識を身に付けていく連載 “ビッグデータ”時代の「バッチ処理」 アプリケーション開発というと、システム利用者に一番近い画面系の開発が花形ですね。一方「バッチ処理」というと、何となく地味な感じがしますが、「バッチ処理」は縁の下の力持ち、これがないと、大概のシステムは稼働できません。 絶対に必要だけど、影の薄い「バッチ処理」でしたが、“ビッグデータ”への注目度が高まり、大量データを短時間に処理する「並列分散処理バッチ」が活躍する場面も増えてきました。 本稿では、並列分散で「バッチ処理」を行う方法につい
お知らせ connpassではさらなる価値のあるデータを提供するため、イベントサーチAPIの提供方法の見直しを決定しました。2024年5月23日(木)より 「企業・法人」「コミュニティ及び個人」向けの2プランを提供開始いたします。ご利用にあたっては利用申請及び審査がございます。詳細はヘルプページをご確認ください。
halookとは 大量のサーバで構成されるHadoopクラスタの状態把握にお困りではないでしょうか? halookとは、当社が開発しているWGP、ENdoSnipeを用いて、Hadoop・HBaseの内部を直観的に見える化するツールです。 halookを利用することで、今まで多くの人手と時間が必要だった、問題個所の発見・解決が容易に行えます。 halookでは、HDFSのサーバごとの使用サイズ・空きサイズ、各タスクの状況、HBaseのRegion数などを見える化することができます。 (2012/11/08現在の機能です。) ニュース ■2013/02/05(火) 日経コンピュータにHadoopのシステム開発・運用を容易にする国産OSSツールとして、当社のhalookが紹介されました。 ■2013/01/22(火) 当社の落合が、Hadoop Conference Japan 2013 Wi
Integration of Hadoop and MongoDB, Big Data’s Two Most Popular Technologies, Gets Significant Upgrade | 10gen, the MongoDB company MongoDB Connector for Hadoopは、Hadoopへの入出力データとしてMongoDBを使えるようにするソフトウェアで、新バージョンでは主に以下の機能が追加されています。 Apache HiveからMongoDBのデータへSQLライクな問い合わせ インクリメンタルなMapReduceジョブのサポートによる、アドホックな分析を容易に実現 MongoDB BSONファイルをHadoop Distributed File System(HDFS)上に保存することで、データの移動を削減 これにより以下のようなメリットが
基幹システムをクラウドへあげるのは簡単ではなかった。ノーチラス・テクノロジーズがクラウドの現実を語る(前編) 基幹システムをクラウドで実現する。その過程でどのような技術を用い、どのような苦労があったのか。小売り流通業である西鉄ストアの基幹システムをAmazonクラウド(以下、AWS:Amazon Web Services)の上で実現したノーチラス・テクノロジーズが、その詳細について紹介したセミナーを5月15日、アマゾンジャパン本社のセミナールームで開催しました。 大規模システム開発の現状、Hadoopの可能性、クラウドのメリットとデメリットなど、参考にすべき多くの内容が語られたセミナーでした。この記事ではその概要を紹介します。 止まってはいけない基幹システムをクラウドへ ノーチラス・テクノロジーズ 代表取締役社長 神林飛志氏(写真中央)。 西鉄ストア様の本部基幹システムをクラウドへ移行する
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く