並列分散処理基盤のいま ~45分で学ぶHadoop/Spark/Kafka/ストレージレイヤSW入門~ (Open Source Conference 2021 Online/Hokkaido 発表資料) 2021年6月26日 NTTデータ 技術革新統括本部 システム技術本部 デジタル技術部 インテグレーション技術担当 吉田 貴哉Read less
![並列分散処理基盤のいま ~45分で学ぶHadoop/Spark/Kafka/ストレージレイヤSW入門~(Open Source Conference 2021 Online/Hokkaido 発表資料)](https://cdn-ak-scissors.b.st-hatena.com/image/square/5a39c6e570e6206d3831bbde2416ea573c1cd6a3/height=288;version=1;width=512/https%3A%2F%2Fcdn.slidesharecdn.com%2Fss_thumbnails%2Fdistributeddataprocessingsystemhadoopsparkkafkastoragelayersoftwareosc2021onlinehokkaidonttdata-210709110433-thumbnail-4.jpg%3Fcb%3D1625829010)
この記事は Apache Drill Advent Calendar 2015 の3日目の記事です。 少し前の記事で、一つのカラムにデータ型が混在したデータを読むときの注意点を説明しました。 その後リリースされた Drill 1.3 で、[DRILL-3229] Create a new EmbeddedVector にて改良が進行中のコードが取り込まれたことにより、データ型が混在するカラムの取り扱いができるようになりました。具体的には、UNION 型というデータ型が新たに追加され、個々のフィールドごとに異なるデータ型を内部で保持できるようになっています。 以前の記事同様、次のようなデータを用意します(以前の記事の時のデータとはほんの少し異なりますが、その理由は後述)。 $ cat /tmp/sensor.json [ {"sensor_id":15, "timestamp":"2015-
進化するDWHソリューション 第1回では、近年のビジネス環境の変化から企業が最適な戦略を実践するために、より大量のデータを扱うことができるDWHシステムが求められている一方で、これを実現する際の課題として、データ増加によって発生するDWHのチューニング作業や、データマート等の外部システムが点在することで発生する管理コストから悪化する「コストパフォーマンス」および、爆発的に増え続けるデータに対応するためDWHで実現しなければいけない「拡張性」という課題が持ち上がっている背景が紹介されました。 では、現在世に出ているDWHソリューションにはいったいどのようなものがあるのでしょうか。また、それらは「コストパフォーマンス」や「拡張性」といった課題に対してどのように応えてきているのでしょうか。 今回は、主要なDWHを紹介し、それぞれのDWHソリューションとしての特徴を考察していきます。 図1に90年
いろいろ縁があって、データウェアハウスについてちょっと勉強したので、まだまだ未熟者ではあるがここまでやったことをまとめておく。 キーワードを知る データウェアハウスを設計・構築するにあたって知らなきゃお話にならないキーワード。 これはたまたま身近にスーパーなエンジニアがいて、「これは抑えてから設計に入らないとダメだよ」とのアドバイスをもらったのがきっかけ。 スタースキーマ ファクト ディメンション インモンモデル キンボールモデル データボルトモデル この辺のキーワードをググっていくと、結局派生して色々知識が入ってくるので、なんとなくDWHのイメージが具現化していく。 話は逸れるけど、自分より優れた人が身近にいるというのは自分の成長にとってとても大切なことだね。 本を読む 文系エンジニアの僕は新しい技術に対する応用力が乏しい。 エンジニアとしてそもそもの前提知識が欠如していることが多いから
こんにちは。Mirai Translator 開発チームEMのchika (@chika-mirai) です。 今日はデータレイクについて投稿しようと思います。(初歩的な話題です) はじめに Mirai Translator開発チームでは、「5分だけ勉強会」というエンジニアメンバーの勉強会を毎朝開催しています。(以下のWantedlyの記事参照) 毎日開催に感謝!「5分だけ勉強会」を振り返りました | カルチャーを知る 登壇者は参加者全員の持ち回りなので、定期的なアウトプットの習慣づけとして良い刺激となっていますが、公開OKな一般的な話題を扱うことも多いので、できるだけこの「5分だけ勉強会」で話した内容をもとに技術ブログにも投稿していきたいと思います。 今回は、データ分析基盤(データ基盤)と呼ばれるものは何なのかということと、その中心的存在になるデータレイクについて、データ分析基盤の中での
2017年に技術評論社から出版された「ビッグデータを支える技術」を増補改定し、2021年版として新たに出版されることになりました。 WEB+DB PRESS plusシリーズ [増補改訂]ビッグデータを支える技術 ——ラップトップ1台で学ぶデータ基盤のしくみ https://gihyo.jp/book/2021/978-4-297-11952-2 改訂の背景 本書では、筆者がトレジャーデータ株式会社に在籍していたときの経験をもとに、「ビッグデータを扱うシステムがどのように構築されているか」という基礎的な概念を解説しています。今回の改訂版では、記述が古くなってしまった部分を手直ししたのに加えて、機械学習やコンテナ技術などの話題をいくつか盛り込みました。 本書の概要については次のページにまとめられています。 本書について ―改訂にあたって もともとは旧第6章のサンプルコードを書き直すくらいのつ
このブログではスーパーデータエンジニアへの道と称してデータベース、データウェアハウス、ビジネスインテリジェンス、データ分析などデータに関することについて学習したこと、考えたこと、経験したことなどを掲載します。 データウェアハウスといえば、いわゆるオペレーションで使用される基幹システムとは 別に情報系のシステムとして情報をためるデータベースのことです。 データウェアハウスは基幹システムとは違って大量にデータを保存する必要が あります。また、そこからデータを引っこ抜いて分析するのでパフォーマンスも 大事ですし、企業全体の数字をすべてみる必要があれば、やっぱりマスターなどは きれいに整理しまとめる必要があります。 そのようなシステムだけにやはり作りなども基幹システムとは非常に異なってきます。 それには基幹システムでは学ばないテクニックとスキルが必要とされるのです。 そこで、早速スキルの学習となる
この記事は Hadoop アドベントカレンダー 2013の16日目の記事です。 Apache Drill 概要 Apache Drill は Google Dremel に触発されて開発されたオープンソースプロジェクトで、2012年8月に Apache Incubator として提案されました。大規模データに対し、バッチ処理ではなく、インタラクティブなクエリの実行を可能にするという意味では、ImpalaやStinger、Presto といったプロジェクトと同様の大きな目的を持っていますが、SQL 2003 完全準拠、パーサや処理実行部分を Pluggable にして幅広いクエリ言語やデータソースに対応、JSON/Avro のようなネストデータに対応、スキーマはオプショナルでスキーマレスなデータに対応、といったところなど、より柔軟で拡張性の高いフレームワークを目指しているのが他のプロジェクト
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く