タグ

*historyとdatalakeに関するsh19910711のブックマーク (8)

  • 並列分散処理基盤のいま ~45分で学ぶHadoop/Spark/Kafka/ストレージレイヤSW入門~(Open Source Conference 2021 Online/Hokkaido 発表資料)

    並列分散処理基盤のいま ~45分で学ぶHadoop/Spark/Kafka/ストレージレイヤSW入門~ (Open Source Conference 2021 Online/Hokkaido 発表資料) 2021年6月26日 NTTデータ 技術革新統括部 システム技術部 デジタル技術部 インテグレーション技術担当 吉田 貴哉Read less

    並列分散処理基盤のいま ~45分で学ぶHadoop/Spark/Kafka/ストレージレイヤSW入門~(Open Source Conference 2021 Online/Hokkaido 発表資料)
    sh19910711
    sh19910711 2024/05/11
    "従来のデータレイク: 高度化する要件に対してデータの整合性を保つのが難しい・更新の重複への対応が難しいなどの課題 / データレイクを進化させるOSSのストレージレイヤソフトウェアが登場" 2021
  • UNION 型: データ型が混在するカラムのサポート - nagix

    この記事は Apache Drill Advent Calendar 2015 の3日目の記事です。 少し前の記事で、一つのカラムにデータ型が混在したデータを読むときの注意点を説明しました。 その後リリースされた Drill 1.3 で、[DRILL-3229] Create a new EmbeddedVector にて改良が進行中のコードが取り込まれたことにより、データ型が混在するカラムの取り扱いができるようになりました。具体的には、UNION 型というデータ型が新たに追加され、個々のフィールドごとに異なるデータ型を内部で保持できるようになっています。 以前の記事同様、次のようなデータを用意します(以前の記事の時のデータとはほんの少し異なりますが、その理由は後述)。 $ cat /tmp/sensor.json [ {"sensor_id":15, "timestamp":"2015-

    sh19910711
    sh19910711 2024/03/24
    "Drill 1.3: データ型が混在するカラムの取り扱いができるように / UNION 型というデータ型が新たに追加され、個々のフィールドごとに異なるデータ型を内部で保持できる" DRILL-3229 2015
  • DWHの大規模化における解決策

    進化するDWHソリューション 第1回では、近年のビジネス環境の変化から企業が最適な戦略を実践するために、より大量のデータを扱うことができるDWHシステムが求められている一方で、これを実現する際の課題として、データ増加によって発生するDWHのチューニング作業や、データマート等の外部システムが点在することで発生する管理コストから悪化する「コストパフォーマンス」および、爆発的に増え続けるデータに対応するためDWHで実現しなければいけない「拡張性」という課題が持ち上がっている背景が紹介されました。 では、現在世に出ているDWHソリューションにはいったいどのようなものがあるのでしょうか。また、それらは「コストパフォーマンス」や「拡張性」といった課題に対してどのように応えてきているのでしょうか。 今回は、主要なDWHを紹介し、それぞれのDWHソリューションとしての特徴を考察していきます。 図1に90年

    sh19910711
    sh19910711 2022/10/07
    2010 / "黎明期から業務系のシステムで活躍を続けてきたDBは、90年代に入りDWHにも用いられるように / SybaseIQはカラムストア型DBというアプローチでこの性能問題を解決 / 2008年を過ぎると世界ではペタバイトクラスのDWHも"
  • DWHについて僕が最初に勉強してみたこと - ジムには乗りたい

    いろいろ縁があって、データウェアハウスについてちょっと勉強したので、まだまだ未熟者ではあるがここまでやったことをまとめておく。 キーワードを知る データウェアハウスを設計・構築するにあたって知らなきゃお話にならないキーワード。 これはたまたま身近にスーパーなエンジニアがいて、「これは抑えてから設計に入らないとダメだよ」とのアドバイスをもらったのがきっかけ。 スタースキーマ ファクト ディメンション インモンモデル キンボールモデル データボルトモデル この辺のキーワードをググっていくと、結局派生して色々知識が入ってくるので、なんとなくDWHのイメージが具現化していく。 話は逸れるけど、自分より優れた人が身近にいるというのは自分の成長にとってとても大切なことだね。 を読む 文系エンジニアの僕は新しい技術に対する応用力が乏しい。 エンジニアとしてそもそもの前提知識が欠如していることが多いから

    DWHについて僕が最初に勉強してみたこと - ジムには乗りたい
    sh19910711
    sh19910711 2022/09/10
    2015 / "『データウェアハウスがわかる本』 (2000): スタースキーマやデータクレンジング、多次元データベースなど要点を / 『BIシステム構築実践入門』 (2005) : OpenOLAPという古いオープンソースプロジェクト?に言及"
  • データレイクとデータ分析基盤 - Mirai Translate TECH BLOG

    こんにちは。Mirai Translator 開発チームEMのchika (@chika-mirai) です。 今日はデータレイクについて投稿しようと思います。(初歩的な話題です) はじめに Mirai Translator開発チームでは、「5分だけ勉強会」というエンジニアメンバーの勉強会を毎朝開催しています。(以下のWantedlyの記事参照) 毎日開催に感謝!「5分だけ勉強会」を振り返りました | カルチャーを知る 登壇者は参加者全員の持ち回りなので、定期的なアウトプットの習慣づけとして良い刺激となっていますが、公開OKな一般的な話題を扱うことも多いので、できるだけこの「5分だけ勉強会」で話した内容をもとに技術ブログにも投稿していきたいと思います。 今回は、データ分析基盤(データ基盤)と呼ばれるものは何なのかということと、その中心的存在になるデータレイクについて、データ分析基盤の中での

    データレイクとデータ分析基盤 - Mirai Translate TECH BLOG
    sh19910711
    sh19910711 2022/07/04
    "2000年代後半〜2010年代前半を中心に Oracle Exadata, IBM PureData (Netezza), Cloudera, Teradata などのアプライアンス製品がしのぎを削っており、ビッグデータの盛り上がりとともに存在感を増した印象"
  • 「[増補改訂]ビッグデータを支える技術」を書きました - Qiita

    2017年に技術評論社から出版された「ビッグデータを支える技術」を増補改定し、2021年版として新たに出版されることになりました。 WEB+DB PRESS plusシリーズ [増補改訂]ビッグデータを支える技術 ——ラップトップ1台で学ぶデータ基盤のしくみ https://gihyo.jp/book/2021/978-4-297-11952-2 改訂の背景 書では、筆者がトレジャーデータ株式会社に在籍していたときの経験をもとに、「ビッグデータを扱うシステムがどのように構築されているか」という基礎的な概念を解説しています。今回の改訂版では、記述が古くなってしまった部分を手直ししたのに加えて、機械学習やコンテナ技術などの話題をいくつか盛り込みました。 書の概要については次のページにまとめられています。 書について ―改訂にあたって もともとは旧第6章のサンプルコードを書き直すくらいのつ

    「[増補改訂]ビッグデータを支える技術」を書きました - Qiita
    sh19910711
    sh19910711 2022/06/15
    2021 / "ビッグデータの基盤技術そのものは2016年くらいには完成していたのでは / ワークフロー管理ツールは、ここ数年で本当にいろいろなものが登場 / 今回の改訂でも迷った末にPrefectをメインに取り上げることに"
  • ビル・インモンかラルフ・キンボールかそれが問題だ!

    このブログではスーパーデータエンジニアへの道と称してデータベース、データウェアハウス、ビジネスインテリジェンス、データ分析などデータに関することについて学習したこと、考えたこと、経験したことなどを掲載します。 データウェアハウスといえば、いわゆるオペレーションで使用される基幹システムとは 別に情報系のシステムとして情報をためるデータベースのことです。 データウェアハウスは基幹システムとは違って大量にデータを保存する必要が あります。また、そこからデータを引っこ抜いて分析するのでパフォーマンスも 大事ですし、企業全体の数字をすべてみる必要があれば、やっぱりマスターなどは きれいに整理しまとめる必要があります。 そのようなシステムだけにやはり作りなども基幹システムとは非常に異なってきます。 それには基幹システムでは学ばないテクニックとスキルが必要とされるのです。 そこで、早速スキルの学習となる

    sh19910711
    sh19910711 2021/06/14
    "ビル・インモン > 1つの大きなデータウェアハウスがあってそこから必要なデータをもとにそれぞれ必要なデータマートを作成 / ラルフ・キンボール > データウェアハウスをデータマートの寄せ集めと考えています"
  • Apache Drill ではクエリ処理はこんな風に行われる(Hadoop アドベントカレンダー 2013 16日目) - nagix

    この記事は Hadoop アドベントカレンダー 2013の16日目の記事です。 Apache Drill 概要 Apache Drill は Google Dremel に触発されて開発されたオープンソースプロジェクトで、2012年8月に Apache Incubator として提案されました。大規模データに対し、バッチ処理ではなく、インタラクティブなクエリの実行を可能にするという意味では、ImpalaやStinger、Presto といったプロジェクトと同様の大きな目的を持っていますが、SQL 2003 完全準拠、パーサや処理実行部分を Pluggable にして幅広いクエリ言語やデータソースに対応、JSON/Avro のようなネストデータに対応、スキーマはオプショナルでスキーマレスなデータに対応、といったところなど、より柔軟で拡張性の高いフレームワークを目指しているのが他のプロジェクト

  • 1