Datanami社によるデータベース専門家とのインタビューの結果によると、Hadoopを採用したい企業の多くは、失敗プロジェクトに終わっている、と指摘している。 Snowflake Computing社CEO, Bob Muglia氏によると、今までHadoopを採用してい幸せになった企業はみた事が無いし、今後も出てくるような気配が無い、と言い切っている。 すでに、Hadoopは多くの企業で使われ...
Distributed computing (Apache Hadoop, Spark, ...) Advent Calendar 2016 の24日目です。この記事では、Hadoop クラスタを手軽に手元に構築したいときに便利な、Apache Bigtop の機能について紹介したいと思います。 Apache Bigtop とは Apache Bigtop は、Hadoop とその周辺ソフトウェアをビルドし、 deb や rpm といった形式でパッケージ化することで、各種 Linux ディストリビューションへの導入を容易にするためのプロジェクトです。それ以外にも、以下のような機能を持っています。 作成したパッケージをクラスタ内の各ノードにデプロイし、適切に設定するためのプロビジョニング機能 デプロイ結果の確認や、ソフトウェアバージョン間の相互運用性の担保に使われる、統合テスト・スモークテス
Apache Hadoop環境で利用できる高度なデータウェアハウスシステム「Apache Tajo」開発チームは10月27日、最新版となる「Apache Tajo 0.11.0」をリリースした。 Apache TajoはApache Hadoop環境で動作するリレーショナル・分散データウェアハウス(DWH)ソフトウェア。分散SQLクエリ処理エンジン、低遅延、拡張性のあるアドホッククエリ、オンラインアグリゲーションなどの機能を備え、Hadoop Distributed File System(HDFS)やその他のデータソース上にある大規模なデータセットにアクセスして分散実行を直接制御できる。ETL、ANSI/ISO SQL標準、Hive MetaStoreアクセス、CSV/JSON/RCFile/Paquetなどのファイル/データフォーマットをサポートするのも特徴。同プロジェクトは2014年
CDH 5.4 から導入された、Sensitive Data Redaction (機密データのマスキング) 機能を紹介します。 できること Hadoopクラスタのログファイル、Hive/Impalaクエリに含まれる任意の機密データのマスキングが可能です。 必要なもの CDH 5.4 / Cloudera Manager 5.4 手順 Cloudera Managerにログインし、HDFSサービスを選択します。 2. HDFSの設定画面で、「redaction」で検索します。 3. デフォルトでは「クレジットカード情報」、「社会保障番号」、「ホスト名」、「メールアドレス」のマスキングテンプレートが用意されています。カスタムのマスキングを定義することも可能です。ここではクレジットカード情報をマスキングします。 4. 設定画面内で、マスキングがどのように動作するのか、テストすることができます。
1. © Hortonworks Inc. 2011 – 2015. All Rights Reserved Apache Hiveの今とこれから Yifeng Jiang Solutions Engineer, Hortonworks, inc. June 11, 2015 2. © Hortonworks Inc. 2011 – 2015. All Rights Reserved 自己紹介 蒋 逸峰 (Yifeng Jiang) • Solutions Engineer @ Hortonworks Japan • HBase book author • ⽇日本に来て10年年経ちました… • 趣味は⼭山登り • Twitter: @uprush 4. © Hortonworks Inc. 2011 – 2015. All Rights Rese
僕はHive, Pythonでバッチ処理を書いてAzkabanでジョブ管理するシステムを構築、運用した経験が2年ほどあるので今日はバッチ処理、ジョブ管理について書いてみようと思います。 僕の経験上Hadoop特有の部分、例えばテスト環境が作りづらいとかバッチサーバーはジョブをsubmitするだけなので負荷はそんなにかからないとか、はあるけれど割と汎用的なのではないかと思います。そもそもバッチ処理、ジョブ管理について書かれたものはほとんど見た事がないので参考になれば嬉しいし、こういう良い方法もあるよ!とかあれば是非ブログ等に書いてほしいと思っております。 最初に言っておくとバッチ処理、ジョブ管理において重要なのは障害時のリカバリのしやすさです。正常時はまあいいでしょ。 なので例えば引数に日付を持てないようなバッチ書いたら辛いですし、LL言語で書く方がコンパイル、パッケージングとか楽です。CP
2. 自己紹介 濱野 賢一朗 (はまの けんいちろう) – 日本Hadoopユーザー会のメンバとして、 イベント Hadoop Conference Japan や 勉強会 Hadoopソースコードリーディング の企画・実施を担当 – 翔泳社 『Hadoop徹底入門』 監修者 – NTT DATA 基盤システム事業本部 OSSプロフェッショナルサービス に所属 – Hadoop 関係者で話題になった 「経産省の報告書」 の実証事業のPM 平成21年度 産学連携ソフトウェア工学実践事業報告書 高信頼クラウド実現用ソフトウェア開発(分散制御処理技術等に係るデータセンター高信頼化に向けた実証事業) http: //www.meti.go.jp/policy/mono_info_service/joho/downloadfiles/2010software_research/clou_dist
1. Cloudera Impalaをサービスに 組み込む時に苦労した話 2014年年10⽉月31⽇日 株式会社セラン RD戦略略室 須⽥田幸憲 @sudabon Copyright © CELL▲NT Corp. All right Reserved. h t t p : / / w w w . x d a t a . j p / 2. ⾃自⼰己紹介 須⽥田幸憲(@sudabon) 株式会社セラン RD戦略略室 室⻑⾧長 経歴 l 1997〜~2004 NEC 中央研究所 / ネットワークの研究 l 2005〜~2006 BIGLOBE / BtoBサービスの開発 SNIP l 2012/8〜~ 現職 Hadoop歴:約2年年半 好きなHadoopエコシステム:Hive 2 Copyright © CELL▲NT Corp. All right Reserved. h t t p
Riak CS 1.5.0 が米国時間で昨日、リリースされた。OSSになってから1年余りになる。このリリースは、1.4系に残っていた多くのバグをなおしつつ、いくつかのAPI追加を行ったものだ。相変わらず運用まわりの地味な機能追加が多い。また、コレは Riak 1.4系の上で動作する最後のRiak CSになるだろう。1系の集大成だと個人的には思う。思えば一年半、遠くにきたもんだ。いろいろ怒られたり、ちょっとだけ売れたり、ちょっと前には Riak CS上で今をときめくトレジャーデータのシステムが動き始めたりと… なんでこんなことを書いているかというと、このリリースのために割といろいろ頑張ったからですね。こういう風にあちこちで使われている製品のソースコードに、技術的な難しさはほとんどないとはいえかなりの量をコミットしたのは私の人生では初めてのことなので、これはまたちょっと感慨深いのであった。1.
7. 開発コアチーム Join us at team.gethue.com Romain Rigaux Enrico Ber5 Chang Abraham Elmahrek Amstel 8. トーク ミートアップとイベント: NYC, Paris, LA, Tokyo, SF, Stockholm, Vienna, San Jose, Singapore, Budapest… 近日予定: London, West coast AROUND THE WORLD 避暑 Nov 13 Koh Chang, Thailand May 14 Curaçao, Netherlands An5lles Nov 14 Goa, India
Private content!This content has been marked as private by the uploader.
今度新規にHadoopクラスタを構築する予定なのですが、HortonworksのHDPおよびAmbariをちょっと試しています。 僕は今までApacheのコミュニティ版Hadoop 1系を1年ほど運用していたので、今どきのHadoop事情にうとかったんですがいろいろ変わってるんですね。 NameNode HAとか名前だけは知っていたのですが、実態がどんなもんだかよくわかってなかったし。 今の時点でHadoopのディストリビューションを選択するとしたら、Apacheのコミュニティ版, CDH, HDPのいづれか3択で、どれを選ぶにしてもYARNに突入せざるをえないでしょう。 例えばHiveしか使わないにしても。 で、まあ、とりあえずHDPは新しいし触ったことある人も少なそうなのでちょっと試しています。 yumでひとつづつインストールしていってもいいのですが、AmbariというCloudera
Hadoopソースコードリーディング 第16回に参加してきました。今回は1.0がリリースされる目前のApache Sparkがテーマでした。 NTTデータ濱野さんの冒頭の挨拶 Spark1.0リリースを記念する予定が、されていないw 今回はお酒を飲んでグダグダする時間はないw Apache Sparkのご紹介(前半) NTTデータ土橋さん まずは土橋さんからSparkの背景やSpark Summit 2013の振り返り、Sparkの基本についての説明がありました。詳細はスライドを見てもらった方がいいですが、さくっと雰囲気を掴みたい方は以下のメモをご参照下さい。 土橋さん 6年前からHadoopに関わっている。 基本はインフラエンジニア Ansible使っている。 アジェンダ Sparkの背景 Spark Summit 2013振り返り Sparkのキホン RDD スケジューラ 前提 机上調
EC2安くなる 気がついたら、EC2がだいぶ値下げしていて、我が家の ニコニコデータセットの分析環境のHive利用料も安くなっていた。 参考 【AWS発表】42回目の値下げ!EC2、S3、RDS、ElastiCache、そしてElastic MapReduceも! http://aws.typepad.com/aws_japan/2014/03/aws-price-reduction-42-ec2-s3-rds-elasticache-and-elastic-mapreduce.html 値段の問題もあり、ニコニコデータセット分析環境は、hadoopのバージョン1系でm1.mediumを3台利用して、分析を行っていた。しかし、Elastic Map Reduceがhadoop2系からimpalaをサポートしたこともあり、hadoopのバージョンを上げて、impalaで分析出来ないか検証する
halookとは 大量のサーバで構成されるHadoopクラスタの状態把握にお困りではないでしょうか? halookとは、当社が開発しているWGP、ENdoSnipeを用いて、Hadoop・HBaseの内部を直観的に見える化するツールです。 halookを利用することで、今まで多くの人手と時間が必要だった、問題個所の発見・解決が容易に行えます。 halookでは、HDFSのサーバごとの使用サイズ・空きサイズ、各タスクの状況、HBaseのRegion数などを見える化することができます。 (2012/11/08現在の機能です。) ニュース ■2013/02/05(火) 日経コンピュータにHadoopのシステム開発・運用を容易にする国産OSSツールとして、当社のhalookが紹介されました。 ■2013/01/22(火) 当社の落合が、Hadoop Conference Japan 2013 Wi
大規模並列処理(MPP)エンジンであり、Hadoopのデータに対してSQLを用いてクエリを実行できるソフトウェアImpalaについて紹介する書籍です。ビッグデータのワークフロー全体から、またRDBMS、OS、そしてHadoopといった読者の背景知識を元にして、Impalaが実現する機能や役割を紹介します。なお本書はEbook版のみのリリースとなります。 イントロダクション 1章 ビッグデータのエコシステムにおけるImpalaの立ち位置 2章 ビッグデータのワークフローにおけるImpalaの場所 柔軟性 パフォーマンス 3章 RDBMSの背景知識から見たImpala 標準的なSQL ストレージ、ストレージ、ストレージ 数十億行に及ぶデータ Impalaとデータウェアハウスの相似点 Impalaでの初めてのクエリ Impalaのテーブルへのデータの取り込み 4章 UnixあるいはLinuxの背
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く