1. © 2018 NTT DATA Corporation 2018/7/20 技術革新統括本部 システム技術本部 鯵坂 明 HDFS router based federation 2. © 2018 NTT DATA Corporation 2 本日紹介するセッション • HDFS router based federation • Microsoft, Uberの共同発表 • 資料: https://www.slideshare.net/Hadoop_Summit/hdfs-router-based-federation • HDFS BoF 3. © 2018 NTT DATA Corporation 3 従来のNameNode Federation • HDFSクラスタを複数束ねて、1つのHDFSクラスタに見せるための仕組み • NameNodeの限界を緩和するために、開発され
業界トップ のエンタープライズ Hadoop 企業 Cloudera に入社しました http://www.cloudera.co.jp/ 今年の6月に、「平成21年度 産学連携ソフトウェア工学実践事業報告書」というドキュメント群が経産省から公表されました。 そのうちの一つに、NTTデータに委託されたHadoopに関する実証実験の報告書がありましたので、今更ながら読んでみることにしました。 Hadoop界隈の人はもうみんなとっくに読んでるのかもしれませんけど。 http://www.meti.go.jp/policy/mono_info_service/joho/downloadfiles/2010software_research/clou_dist_software.pdf 「高信頼クラウド実現用ソフトウェア開発(分散制御処理技術等に係るデータセンター高信頼化に向けた実証事業)」という
S3上に大量に存在するログファイルをgrepコマンドで検索したいと思ったことがある方は結構いらっしゃるのではないでしょうか。今回はHadoop Streamingを利用してS3上のファイル群に対してgrepコマンドを実行したいと思います。 Hadoop Streamingの概要については以下をご参照下さい。 EMRでHadoop Streamingジョブを実行する 実行環境 emr-5.5.0 でアプリケーションは Hadoop のみ ハードウェア構成は m1.medium を 1 台(検証用なのでマスターノードのみ) 東京リージョン EMRクラスタの作成 まずはEMRクラスタを作成します。AWS CLIを利用する場合は以下のようなコマンドになります。SubnetId, log-uriを自身の環境に合わせて書き換えて下さい。 aws emr create-cluster --auto-sc
【レポート】Deep Dive: ビッグデータワークロードをAWSに移行する #reinvent #ABD312 原題 ABD312 - Deep Dive: Migrating Big Data Workloads to AWS 概要 Customers are migrating their analytics, data processing (ETL), and data science workloads running on Apache Hadoop, Spark, and data warehouse appliances from on-premise deployments to AWS in order to save costs, increase availability, and improve performance. AWS offers a br
With the recent merger of Hadoop companies Cloudera and Hortonworks, some are asking: Is the Hadoop file system officially dead? The news around this merger has reiterated the impact of the economics of cloud. Reports are now going as far as saying that using cloud storage can easily “crush Hadoop storage costs.” Object stores such as Google Cloud Storage are overtaking on-premise Hadoop Distribut
Kazuaki Ishizaki presented on improvements to Spark from versions 2.x to 3.0. Some key problems in Spark 2.x included slow performance due to excessive data conversion and element-wise copying when working with arrays. Spark 3.0 aims to address these issues by improving the internal data representation for arrays and eliminating unnecessary serialization. Ishizaki was appointed as an Apache Spark
2. ⾃⼰紹介 鈴⽊ 俊裕(すずき としひろ) • Apache HBase Committer • Hortonworks • Sr. Software Engineer, Breakfix • サポートチームで働いています • エスカレーションされたサポートチケットのトラブルシュー ティング • プロダクトのバグフィックス(主にHBase/Phoenix) • 著書「HBase徹底⼊⾨」 • Twitter: @brfrn169 5. HBase 2.0 • 2018年4⽉末にリリース • 4年前に2.0のブランチが作られた • 安定させるのに1年以上かかった • hbase-2.0.0 released, April 29th, 2018 • hbase-2.0.0-beta2 released, March 22nd, 2018 • hbase-2.0.0-beta1 releas
こんにちは。マイクロアドでサーバーサイドエンジニアをしている大澤です。 今回はApache HiveでComplex型(ARRAY, STRUCT, MAP, UNION)を使用している際に発生した問題と解決方法について紹介します。 問題の内容 Hive上に下記の様なテーブルが存在する場合を想定します。 CREATE TABLE example_table ( column1 INT, column2 STRUCT<field:INT>, column3 ARRAY<INT> ); Primitive型は暗黙にNULLが変換されるので下記の様なクエリでは特に問題は起きません。 INSERT INTO example_table SELECT NULL, NAMED_STRUCT("field", 1), ARRAY(1); ただ、Complex型は各カラムの定義がテーブル定義と完全に一致す
2. Hive Evolution • Original • Let users express their queries in a high-level language without having to write MapReduce programs. • Mainly target to ad-hoc queries. • As a data tool, usually work in CLI mode. • Now more … • A parallel SQL DBMS that happens to use Hadoop for its storage and execution layers. • Ad-hoc + regular • As a service … 3. Introduction • Limitations of HiveServer1 • • • •
概要 JDK9では、JDK-8148117などによって、sun.misc.Cleanerがjdf.internal.ref.Cleanerに移動してしまった。JDK9だけで動かす前提なら単純にimport文を書き換えれば良いが、JDK9とJDK8の両方でビルドを通したい場合は黒魔術的な対処が必要になる。以下、この黒魔術について解説する。 目的 [HADOOP-12760]sun.misc.Cleaner has moved to a new location in OpenJDK 9をなんとかしたい 詳細 問題となっているコード /** * Unmaps the block from memory. See munmap(2). * * There isn't any portable way to unmap a memory region in Java. * So we use th
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く