並び順

ブックマーク数

期間指定

  • から
  • まで

81 - 120 件 / 215件

新着順 人気順

dataLakeの検索結果81 - 120 件 / 215件

  • カケハシがDatabricksを導入した背景と技術選定のポイント - KAKEHASHI Tech Blog

    初めまして、カケハシのデータ基盤チームでデータエンジニアしている大木と申します。 この度カケハシでは、全社的なデータ活用基盤のプラットフォームとしてDatabricksを採用し、2022/07より本格導入することとなりました。 当記事では、カケハシがDatabricksを採用するに至った技術選定の背景について紹介させていただきます。 ※カケハシのデータ基盤の組成のお話はこちらの記事で詳しく紹介されておりますので良ければご覧ください。 カケハシのデータ基盤アーキテクチャと課題 まずカケハシのデータ基盤のアーキテクチャと抱えている課題について紹介します。 Databricks導入に伴い現在は一部変更が入りつつあるのですが、導入前のアーキテクチャとしては以下のような構成になっていました。 様々なデータソースから収集した生データをAWSのS3に集約 Glue、Athena等のETLサービス、分散処

      カケハシがDatabricksを導入した背景と技術選定のポイント - KAKEHASHI Tech Blog
    • データレイクとは

      データレイクは、規模にかかわらず、すべての構造化データと非構造化データを保存できる一元化されたリポジトリです。データをそのままの形で保存できるため、データを構造化しておく必要がありません。また、ダッシュボードや可視化、ビッグデータ処理、リアルタイム分析、機械学習など、さまざまなタイプの分析を実行し、的確な意思決定に役立てることができます。 データからビジネス価値を生み出すことができる企業は、同業他社よりも優れた業績を上げることができます。Aberdeen 社の調査によると、データレイクを実装した企業は、同業他社と比べて本業の収益成長が 9% 上回っています。このようなトップ企業は、ログファイルのほか、クリックストリーム、ソーシャルメディア、インターネットに接続したデバイスからのデータなど、データレイクに保存されている新しい情報源に対して、機械学習などの新しいタイプの分析を実行していました。

        データレイクとは
      • Data Lake ハンズオン

        The document appears to be a presentation on Amazon EMR and related AWS services. It discusses using EMR for big data and analytics workloads, how to set up EMR clusters on AWS, encryption options for data at rest and in transit, and integration of EMR with other AWS services like S3 and Spark. The presentation contains many bullet points and diagrams but provides little surrounding context or nar

          Data Lake ハンズオン
        • とあるデータ分析/データエンジニアリングの現場からの雑感 - データエンジニアの酩酊日記

          ※基本、酩酊状態でクソみたいな与太話を思いついたまま書き捨ててるだけなのであまり真に受けないようにどうぞよろしく。 僕がここ最近ナリワイとしているのは、大企業でデータ利活用を推進している or しようとしている現場に潜り込んで、データ分析周りの諸々の課題を主に技術面で解決する、という役回り。 といっても、自分が主戦場としているのは技術志向の強い人達が好みそうなGoogleとかメルカリとかリクルートとかヤフーといった自社サービスのテック企業ではなく、普通のユーザー企業に対するIT支援、いわゆるシステムインテグレーションです。 ユーザー企業向けのIT支援の領域では、みなさんが嫌悪している大手SIerが今なお幅を利かせており、ユーザーサイドの生え抜きのエンジニアが技術面含めてプロジェクトを主導したり、メンバーの中に有名なOSSのコントリビューターがいたり、みたいなシチュエーションにはそうお目にか

            とあるデータ分析/データエンジニアリングの現場からの雑感 - データエンジニアの酩酊日記
          • 社内勉強会「Modern Data Stack入門」の内容をブログ化しました - PLAID engineer blog

            プレイドの社内向けに行ったModern Data Stack勉強会の内容が好評だったので、データ基盤に携わる方に向けてModern Data Stackの概要、主要サービス、重要だと思うトレンドをまとめました。

              社内勉強会「Modern Data Stack入門」の内容をブログ化しました - PLAID engineer blog
            • How to Move Beyond a Monolithic Data Lake to a Distributed Data Mesh

              How to Move Beyond a Monolithic Data Lake to a Distributed Data Mesh Many enterprises are investing in their next generation data lake, with the hope of democratizing data at scale to provide business insights and ultimately make automated intelligent decisions. Data platforms based on the data lake architecture have common failure modes that lead to unfulfilled promises at scale. To address these

                How to Move Beyond a Monolithic Data Lake to a Distributed Data Mesh
              • チーム開発のためのデータウェアハウスアーキテクチャ - Retty Tech Blog

                昨日は、西村さんよりAurora移行大全#2 でした。ドキドキの移行が無事成功して嬉しいですね。 engineer.retty.me Retty Advent Calendar も終わりが近づいてきました。 24日目の本日はデータ基盤について紹介します data-platform-meetup.connpass.com 今回の記事は、先日登壇した以下のイベントで発表を行いました。 コミュニティの盛り上がりを感じる良いミートアップだったと思います。 この記事では発表ではお話しできなかったことの補足も含め、 我々のデータ基盤を取り巻く構成と その背景となる考え方について紹介したいと思います。 誰のためのデザイン? データの民主化と基盤開発 Rettyにおけるデータウェアハウジング データ基盤開発の標準化 効果的なプラクティスの導入 データウェアハウシングのための実践的なレイヤ構成 データ置き場

                  チーム開発のためのデータウェアハウスアーキテクチャ - Retty Tech Blog
                • noteの機械学習フローを共通化してレコメンデーションで成果をあげた話|やすけん / yskn67

                  こんにちは.noteの基盤開発グループ機械学習チームに所属している安井です.普段は機械学習を活用したシステムの開発から運用までトータルでおこなっています. noteでは記事の分類やレコメンデーションに機械学習を用いて作成されたモデルが使われています.いくつか例を挙げますと,noteに投稿された記事をカテゴリごとにまとめて見るために,記事をカテゴリごとに機械学習で分類しています.また,”あなたへのおすすめ”としてユーザごとにパーソナライズされたおすすめ記事をとどけるためにも機械学習が活用されています. (図1)noteにおける機械学習の活用箇所それらサービスで活用されている複数の機械学習モデルには記事の内容から分散表現を獲得する似たような仕組みが存在しました.今回はそれらを共通コンポーネントとして切り出し,分散表現を推論・保存まで行う仕組みを構築しました.また,その分散表現を活用したレコメン

                    noteの機械学習フローを共通化してレコメンデーションで成果をあげた話|やすけん / yskn67
                  • 今こそ注目!DWHにおけるデータモデリングとその歴史

                    近年、最新技術を用いた華々しいデータ活用が注目される一方で、データ活用のための基本的かつ重要な技術である「データモデリング」について、その重要性が再認識されつつある。 本稿では、DWHをとりまく歴史を踏まえ、様々なデータモデリング技法を紹介する。 目次なぜ今、データモデリングに注目すべきなのかDWHの誕生と発展に貢献した二人の偉大なアーキテクトクラウドDWH時代の最新データモデリングDX時代にデータを使いこなすためになぜ今、データモデリングに注目すべきなのかAIやBI、データドリブン、データ民主化、DX、デジタルサクセス。データ活用業界には様々なトレンドが渦巻いています。しかし、これらの根本を支える技術として、不変のものもあります。リレーショナルモデルとSQLです。 NoSQLやデータレイクの流行によって隅に追いやられていた時代もありましたが、データを分かりやすく扱う上で未だにリレーショナ

                      今こそ注目!DWHにおけるデータモデリングとその歴史
                    • Python: Apache Parquet フォーマットを扱ってみる - CUBE SUGAR CONTAINER

                      今回は、最近知った Apache Parquet フォーマットというものを Python で扱ってみる。 これは、データエンジニアリングなどの領域でデータを永続化するのに使うフォーマットになっている。 具体的には、データセットの配布や異なるコンポーネント間でのデータ交換がユースケースとして考えられる。 これまで、同様のユースケースには CSV や Python の Pickle フォーマットが用いられていた。 ただ、CSV は行志向のフォーマットなので不要なカラムであっても必ず読まなければいけないという問題点がある。 また Pickle の場合は、それに加えて扱えるのが Python のコンポーネントに限られてしまう。 そこで登場するのが今回紹介する Apache Parquet フォーマットということらしい。 Apache Parquet フォーマットは Apache Hadoop エコ

                        Python: Apache Parquet フォーマットを扱ってみる - CUBE SUGAR CONTAINER
                      • Home Page | Pachyderm

                        import cv2 import numpy as np from matplotlib import pyplot as plt import os # edges.py reads an image and outputs transformed image def make_edges(image): img = cv2.imread(image) tail = os.path.split(image)[1] edges = cv2.Canny(img,100,200) plt.imsave(os.path.join("/pfs/out", os.path.splitext(tail)[0]+'.png?as=webp'), edges, cmap = 'gray') # walk images directory and call make_edges on every file

                          Home Page | Pachyderm
                        • AWS上でのデータレイク構築の概要を紹介している『Building a Data Lake on AWS』を読んでみた | DevelopersIO

                          先日、『データレイク』で情報を調べてみたら『Building a Data Lake on AWS』というeBookの資料(PDF)がある事を知りました。比較的ボリューム短めで読み易かったので、当エントリではその読んでみた内容をご紹介してみたいと思います。 Data Lake on AWS 『データレイク』とは何か 今日、組織では様々なソースからなる複数種別のデータを管理する業務が行われています。大規模なデータボリューム、様々なデータの種類に直面し、組織はタイムリーに洞察力を組織内に提供する為に、従来のデータ管理システム以上の敏捷性と柔軟性を備えるデータストレージと分析ソリューションを必要としています。 "データレイク"は、最近注目されるようになってきた新しい方法です。これら課題の多くに対応するデータを格納し、分析する事が出来ます。データレイクを構築する事で、組織は構造化されたもの、非構造

                            AWS上でのデータレイク構築の概要を紹介している『Building a Data Lake on AWS』を読んでみた | DevelopersIO
                          • [AWS Black Belt Online Seminar] AWS で構築するデータレイク基盤のアーキテクチャ 資料及び QA 公開 | Amazon Web Services

                            Amazon Web Services ブログ [AWS Black Belt Online Seminar] AWS で構築するデータレイク基盤のアーキテクチャ 資料及び QA 公開 こんにちは、マーケティングの鬼形です。 先日(2018/4/24)開催しました AWS Black Belt Online Seminar「AWS で構築するデータレイク基盤のアーキテクチャ」の資料を公開致しました。当日、参加者の皆様から頂いた QA の一部についても共有しております。 20180424 AWS Black Belt Online Seminar AWSで構築するデータレイク基盤のアーキテクチャ PDF 録画(オンデマンドセミナー) Q1. データスチュワードは、DataLake の TIer 1,2,3 および DWH 全てを定義・管理するイメージでしょうか? A1. 企業ごとに運用事情は

                              [AWS Black Belt Online Seminar] AWS で構築するデータレイク基盤のアーキテクチャ 資料及び QA 公開 | Amazon Web Services
                            • データサイエンティストが力を発揮できるアジャイルデータ活用基盤

                              2019年4月16日(火)開催「PyData.Tokyo Meetup #19 SysML」の発表資料。 データ活用施策を実サービスに組み込むには、データサイエンス・機械学習のスキルだけでなく、エンジニアリングスキルも必要です。そのため、毎回データサイエンティスト・エンジニアの工数が発生して施策がスローダウンしたり、そもそも実施を諦めることてしまうことも少なくありません。私たちリクルートライフスタイルの CET チームは、この問題を解消するため、データ活用のための統一基盤を開発・運用しデータサイエンティストだけで施策を実施できる環境を整えています。本セッションでは、その基盤がどのように構築されているのか、また実際にどのような施策が実施されているのかを具体的にご紹介します。 https://pydatatokyo.connpass.com/event/123479/Read less

                                データサイエンティストが力を発揮できるアジャイルデータ活用基盤
                              • LambdaのLayer機能活用してpandas,pyarrow,s3fs使ってParquet変換する簡易ETL処理を実装する - YOMON8.NET

                                小さなファイルのETLにGlueを使うのがもったいなかったので、Pandasやpyarrowで実装しました。 Lambda Layerにpandasとpyarrowを追加 Layerに登録するパッケージを作成 パッケージをアップロード Lambdaのコード エラー対応 参考 Lambda Layerにpandasとpyarrowを追加 Layerに登録するパッケージを作成 今回利用するのはpandasとpyarrow、s3fsなのですが少し工夫が必要でした。 3つを全てを一つのZIPに纏めるとLambda Layerの50MBの制限にかかってしまいます。 3つにZIPを分割するとLambdaにレイヤー追加する時の制限にかかってしまいます。 Layers consume more than the available size of 262144000 bytes 大きなnumpyなどを共有

                                  LambdaのLayer機能活用してpandas,pyarrow,s3fs使ってParquet変換する簡易ETL処理を実装する - YOMON8.NET
                                • [AWS Black Belt Online Seminar] データレイク入門: AWSで様々な規模のデータレイクを分析する効率的な方法 資料及び QA 公開 | Amazon Web Services

                                  Amazon Web Services ブログ [AWS Black Belt Online Seminar] データレイク入門: AWSで様々な規模のデータレイクを分析する効率的な方法 資料及び QA 公開 こんにちは、マーケティングの鬼形です。 先日 (2018/6/19) 開催しました AWS Black Belt Online Seminar「データレイク入門: AWSで様々な規模のデータレイクを分析する効率的な方法」の資料を公開しました。当日、参加者の皆様から頂いた QA の一部についても共有しております。 20180619 AWS Black Belt Online Seminar データレイク入門: AWSで様々な規模のデータレイクを分析する効率的な方法 PDF Q. RDSからGlueでData Catalogを作成する際、負荷などかかるのでしょうか?分析用にユーザ操作から

                                    [AWS Black Belt Online Seminar] データレイク入門: AWSで様々な規模のデータレイクを分析する効率的な方法 資料及び QA 公開 | Amazon Web Services
                                  • Data Meshとは何か?

                                    Aboutこの記事は、「Data Mesh」について書かれたものです。参考文献に記載された内容をベースとして、個人的な感想や意見を加えたものです。 事例ではありません。 TL;DRData Mesh はデータ基盤の新しいアーキテクチャ原則であり、現在主流である中央集中型のデータ基盤と、そこから起こる問題への解決策です。Data Mesh はマイクロサービスと DDD から着想を得ており、データの生成・管理・提供を中央ではなくドメインごとに管理します。管理が分散することでスケーラビリティ・自律性を確保しつつ、統一的なガバナンスを保持できるアイデアです。主な想定読者Data Mesh が気になる方データ基盤を開発・保守するデータエンジニアデータマネジメントをより洗練させたいと感じている方Data Mesh の登場した背景 (WHY)詳細に入る前に、Data Mesh が前提に置く現代のデータ基

                                      Data Meshとは何か?
                                    • DevelopersIO 2022 Snowflakeトーク&ディスカッション~Snowflake Summit’22の最新情報を現地参戦できなかった二人のData Superheroと一緒に学ぼう!#devio2022 | DevelopersIO

                                      さがらです。 DevelopersIO 2022 〜技術で心を揺さぶる3日間〜の2日目、2022年7月27日にSnowflakeトーク&ディスカッション~Snowflake Summit'22の最新情報を現地参戦できなかった二人のData Superheroと一緒に学ぼう!というタイトルで、Snowflake社のKTさん、弊社クラスメソッドの甲木、さがら、の3人で登壇しました。 本ブログではこの登壇内容について、紹介のあったSnowflakeの新機能を中心にまとめたいと思います。 登壇概要 概要 Snowflake社の最大のユーザーカンファレンスイベントである「Snowflake Summit」がラスベガスにて2022年6月13~16日の日程で開催されました。本セッションではSnowflake社のKT氏をお招きし、イベントに現地参戦できなかったData Supeheroesであるクラスメソ

                                        DevelopersIO 2022 Snowflakeトーク&ディスカッション~Snowflake Summit’22の最新情報を現地参戦できなかった二人のData Superheroと一緒に学ぼう!#devio2022 | DevelopersIO
                                      • Cloud Composerでデータ基盤のワークフローを作る – Eureka Engineering – Medium

                                        この記事は eureka Advent Calendar 2018 11日目の記事です。 どうも、みなさん、おはこんばんにちは。 エウレカBIチームで、データ基盤をコソコソ作っているsotaroです。 今年一番みて良かったアニメは『ヴァイオレット・エヴァーガーデン』と『ゆるキャン△』です。一番といったのに二つ選んですみません。キャンプしたいです。 私は、主にPairsのデータを分析したり、分析するためのデータを作ったり整えたりするお仕事をしています。 特に最近では、Pairsのデータ基盤を刷新するプロジェクトに注力しており、今日はそのプロジェクトの中で最近導入&試験運用を始めたGCPのマネージドAirflow、Cloud Composerについてご紹介します。 なぜCloud Composerを使うことにしたのか?本題に入る前に、まずは「なぜ?何を?」などの外堀を埋めていきたいと思います。

                                          Cloud Composerでデータ基盤のワークフローを作る – Eureka Engineering – Medium
                                        • Dataplex: data governance

                                          Centrally discover, manage, monitor, and govern data and AI artifacts across your data platform, providing access to trusted data and powering analytics and AI at scale.

                                            Dataplex: data governance
                                          • BigQuery のデータセットとテーブルを整理整頓する - キカガク プラットフォームブログ

                                            前提 状況 整理整頓 Step0: 前提知識 Step1: 整理の軸を決める Step2: 仕様を整理する Step3: 手段の整理 結論 おわりに こんにちは、開発事業部で PM をしている丸山です。 キカガクでは昨年夏に GCP を中心としたデータ基盤へ移行しました。 データ基盤では現在次のように複数ソースのデータを BigQuery へ集約し、加工していくような構成を取っています。 infra 半年程度運用してデータパイプラインの管理のつらさが表面に浮かんでくる中で、上図にも記載があるワークフロー管理ツールの導入に踏み切ったのですが、その際に無秩序となっていた BigQuery のデータセット/テーブル構成に関してもテコ入れをしましたので、そちらの内容を書いていこうと思います。 前提 本題に入る前に、前提として今回扱っているデータ基盤は下記の規模感のものとなります。 扱うデータソース

                                              BigQuery のデータセットとテーブルを整理整頓する - キカガク プラットフォームブログ
                                            • 「db analytics showcase Sapporo 2018」で玉川竜司さんのParquetの話を聞いてきました #dbts2018 #dbasSPR | DevelopersIO

                                              「db analytics showcase Sapporo 2018」で玉川竜司さんのParquetの話を聞いてきました #dbts2018 #dbasSPR はじめに 2018年6月23日、札幌で開催されている「db analytics showcase Sapporo 2018」の玉川竜司さんのセッション「Parquet あるいは - まだCSVで消耗しているの? -」へ参加してきましたのでそのレポートとなります。 玉川さんのセッションは、単なるParquetの技術解説で終わらず、Apache ArrowによってHadoopエコシステムとPythonエコシステムの連携や、分散処理ではなくむしろ分散せずにローカルでうまくやるというパラダイムシフトを予感させる内容です。 スピーカー あの玉川竜司さんです。「あの」って、、、そうです、下記の技術翻訳書をはじめ、他にも多数発刊している方です。

                                                「db analytics showcase Sapporo 2018」で玉川竜司さんのParquetの話を聞いてきました #dbts2018 #dbasSPR | DevelopersIO
                                              • プロダクト中心のデータ駆動を推進していくために必要なこと

                                                プロダクト開発メンバー主導の民主的なデータ活用を目指すとどの企業でも直面することになるであろういくつかの課題と、それらに対するピクシブ株式会社データ駆動推進室の取り組みをご紹介します。 Data Platform Meetup 【vol.2】の発表資料です。 https://data-platform-meetup.connpass.com/event/155073/ ピクシブ株式会社について: https://www.pixiv.co.jp/

                                                  プロダクト中心のデータ駆動を推進していくために必要なこと
                                                • データ品質を重視したデータ基盤プロダクト開発

                                                  データ基盤アーキテクチャトレンド 2023 LTとパネルで学ぶ (https://findy.connpass.com/event/278140/) の登壇資料になります。

                                                    データ品質を重視したデータ基盤プロダクト開発
                                                  • (翻訳)PythonからHadoop file system (HDFS)へのネイティブ接続 - Qiita

                                                    始めに:pandasの作者であるWes McKinneyさんがPythonのデータツール関連でとても興味深いblogを書かれているので、翻訳して日本のPyDataコミュニティに公開してもいいでしょうか、とお聞きしたところ、快諾をいただきましたので少しずつ訳して公開していこうと思っています。 翻訳元: Native Hadoop file system (HDFS) connectivity in Python 2017/1/3 これまで、Hadoop File SystemことHDFSとのやりとりするためのPythonライブラリが数多く開発されてきました。HDFSのWebHDFSゲートウェイ経由のものもあれば、ネイティブのProtocol BufferベースのRPCインターフェースもあります。このポストでは、既存のライブラリの概要をお伝えし、Arrowのエコシステム開発の中で高パフォーマン

                                                      (翻訳)PythonからHadoop file system (HDFS)へのネイティブ接続 - Qiita
                                                    • Eurekaの DataPlatform開発状況と再現性の実現

                                                      使われないものを作るな!出口から作るデータ分析基盤 / Data Platform Development Starting from the User Needs

                                                        Eurekaの DataPlatform開発状況と再現性の実現
                                                      • 最新版Hadoopクラスタを運用して得られたもの

                                                        2017/9/22(金) 開催 サイバーエージェントのデータ分析基盤とデータ活用およびそれらの技術についての勉強会「Data Engineering and Data Analysis Workshop #2」Read less

                                                          最新版Hadoopクラスタを運用して得られたもの
                                                        • 更新できるデータレイクを作る 〜Apache Hudiを用いたユーザデータ基盤の刷新〜 - Gunosy Tech Blog

                                                          広告技術部のUT@mocyutoです。 こちらの記事はGunosy Advent Calendar 2021の4日目の記事です。 昨日は内田さんの その設定、pyproject.tomlに全部書けます - Gunosyデータ分析ブログ でした 今回はApache Hudiを用いたユーザデータ基盤の刷新を紹介します。 背景 仕組み 課題 対応策 データの持ち方を変える Apache Hudiとは 構成 Glue + PySpark Athenaによる抽出 移行し終えて 背景 Gunosyの広告システムではユーザに対して最適な広告を届けるために、接触済みのユーザに対して何度も同じ広告を出さないようにする仕組みを提供しています。 例えば、すでにある広告Aをクリックしたユーザには広告Aは再度配信しないのような設定です。 仕組み この仕組みを実現するためには以下のようなアーキテクチャになっていました

                                                            更新できるデータレイクを作る 〜Apache Hudiを用いたユーザデータ基盤の刷新〜 - Gunosy Tech Blog
                                                          • FPGAによる大規模データ処理の高速化

                                                            ビヨンド の社内勉強会で発表した「AlmaLinux と Rocky Linux の誕生経緯&比較」のスライドです。 ーーー ● AlmaLinuxとRocky Linuxの誕生経緯&比較 https://beyondjapan.com/blog/2022/08/almalinux%ef%bc%86rockylinux/ ーーー ビヨンドの業務で触れることのある「AlmaLinux」「Rocky Linux」について、誕生の発端である CentOS の説明と、CentOS 後継問題を絡めつつ、本スライドを作成しました。 *** ■ 株式会社ビヨンド ・コーポレートサイト:https://beyondjapan.com​​​ ・採用サイト:https://recruit.beyondjapan.com ・Youtube(びよまるチャンネル):https://www.youtube.com/@

                                                              FPGAによる大規模データ処理の高速化
                                                            • データレイクを基盤としたAWS上での機械学習サービス構築

                                                              2016/12/17開催「今年もやるよ!ビッグデータオールスターズ -日本を代表するビッグデータエンジニア・マーケターが大集結!- 」での発表資料「データレイクを基盤としたAWS上での機械学習サービス構築」です

                                                                データレイクを基盤としたAWS上での機械学習サービス構築
                                                              • Tonamelのデータ基盤 ~データモデリング編~

                                                                #nakanoshima_dev 9/22 18:30~ https://nakanoshima-dev.connpass.com/event/221243/ nakanoshima.dev #21 LED!! (Let's enjoy データ分析!!)の発表資料です。

                                                                  Tonamelのデータ基盤 ~データモデリング編~
                                                                • 2年間のデータ基盤アーキテクチャ改善活動 | 株式会社ヌーラボ(Nulab inc.)

                                                                  はじめに どうもこんにちは。鶴田です。 ヌーラボではいわゆる縦割りの組織ではなくフラットな組織という考え方で組織活動が行われています。 フラットというと勘違いしそうですが、誰でも役員やプロダクトマネージャに好き勝手に物事を言えたり、やりたいことを強行できたりということではありません。フラットだからこそしっかりと他者へ説明する義務が発生し、同時に自分の発言や行動に責任を持つことが必要です。 こうして他者にフォロワーとなってもらい後押しを受けるということが前提で、誰にでも自分の考えを発信したり、やりたいことを実現する道が開けているということです。 そのための仮説検証を行うため、誰でも必要な情報にアクセスできるという環境はフラットな組織の前提となります。 この記事は、必要な情報に誰でもアクセスできるという環境を整えるために、2年ほど前から行ったAWS上でのデータ基盤の構築とその改善活動について段

                                                                    2年間のデータ基盤アーキテクチャ改善活動 | 株式会社ヌーラボ(Nulab inc.)
                                                                  • データマネジメントにおけるメタデータ管理についてまとめてみた | DevelopersIO

                                                                    どーも、データアナリティクス事業本部コンサルティングチームのsutoです。 データマネジメントに関する知識を体系立ててまとめた「DMBOK」(ここでは第2版であるDMBOK2)には、広範なデータマネジメントの概念として11個の知識領域が定義されています。 その中に「メタデータ」の管理に関する記述があります。増え続けるデータの種類と量の全体像を把握しやすくする目的として、 業務用語とその利用法に関する組織の理解を提供する 様々なソースのメタデータを収集し統合する メタデータにアクセスするための標準的な方法を提供する メタデータの品質とセキュリティを確保する ことをゴールとしてメタデータの管理を考えることの必要性を謳っています。 じゃあ具体的に、『自分たちの組織の組織と照らし合わせてどんな方針で考えて整備していけばよいのだろう』という疑問に対して、「とりあえずメタデータ管理できるツールを入れれ

                                                                      データマネジメントにおけるメタデータ管理についてまとめてみた | DevelopersIO
                                                                    • データ分析基盤を支えるエンジニアリング

                                                                      ・リクルートライフスタイルのデータ分析基盤の紹介 ・データ分析基盤に必要なエンジニアリング リクルートライフスタイル 白鳥昇治Read less

                                                                        データ分析基盤を支えるエンジニアリング
                                                                      • ジモティーのデータ活用フローのご紹介 - ジモティー Tech Blog

                                                                        ジモティーiOSチーム所属のエンジニアの橋本です。 普段はiOSアプリの開発に従事していますが、 Webやネイティブアプリ(iOS/Android)の各種計測データの収集や社内への展開などの業務にも従事しています。 今回は、自分が担当しているデーター活用周りでの取り組みのご紹介をしたいと思います。 組織のコンディション判断と意思決定に利用されるデータ Webアプリやネイティブアプリ(iOS/Android)が生み出す様々なデータは 収集・蓄積・加工 ▶ 分析・活用 という過程を経るわけですが、その利用目的は大きくは2つです。 ジモティーというサービスの現状がどうなのか、 サービスのコンディションの善し悪しを判断するための利用 ユーザーの利用状況の傾向を把握し、次の打ち手を決める判断材料としての利用 この利用目的を達成するためにデータをどのように利用者に届けるかが重要となります。 エンジニア

                                                                          ジモティーのデータ活用フローのご紹介 - ジモティー Tech Blog
                                                                        • ゆるやかにBigQuery(データ基盤)を安定活用するプラクティス集 #bq_sushi / 20180424

                                                                          #bq_sushi tokyo #7 の登壇資料となります。 Shunketsu Oh 氏との共同発表です。 https://bq-sushi.connpass.com/event/82711/ refs. https://yuzutas0.hatenablog.com/entry/2018/05/30/090000

                                                                            ゆるやかにBigQuery(データ基盤)を安定活用するプラクティス集 #bq_sushi / 20180424
                                                                          • グロービスにおけるデータ基盤のアーキテクチャについて|グロービス・デジタル・プラットフォーム

                                                                            はじめにはじめまして!! 株式会社グロービスのデジタル・プラットフォーム部門、データサイエンスチーム、データエンジニアリングユニットにてソフトウェアエンジニアをしております、爲岡 (ためおか) と申します。 (肩書きが長くてすみません。) グロービスには当初、機械学習エンジニアとして入社しましたが、現在は機械学習や分析に利用するためのデータ基盤の開発・運用をメインで担当しています。 この記事では、グロービスのデータエンジニアリングユニットが運用しているデータ基盤のアーキテクチャについてご紹介できればと思います。 グロービスについて突然ですが、皆様はグロービスに対してどのようなイメージをお持ちですか? 特にテクノロジーの領域で働く方々にとって、そもそもグロービスという企業を知らない、という方が大半なのではないか、と思っています。 また、もしご存じだとしても、経営大学院や研修事業など、テクノロ

                                                                              グロービスにおけるデータ基盤のアーキテクチャについて|グロービス・デジタル・プラットフォーム
                                                                            • Apache Drillに感動した(2つのJSONファイルをSQLでJOINしてみた) - Qiita

                                                                              0: jdbc:drill:zk=local> SELECT test1.*, test2.point FROM . . . . . . . . . . . > dfs.`/opt/drill/test1.json` test1 . . . . . . . . . . . > JOIN dfs.`/opt/drill/test2.json` test2 ON (test1.id = test2.id); +------------+------------+------------+ | id | name | point | +------------+------------+------------+ | 1 | foo | 100 | | 2 | bar | 200 | +------------+------------+------------+ 2 rows selected

                                                                                Apache Drillに感動した(2つのJSONファイルをSQLでJOINしてみた) - Qiita
                                                                              • Nature のデータ基盤のご紹介 - Nature Engineering Blog

                                                                                Nature でデータエンジニアをしている原( @toohsk )です。 データ分析を行う一方で、Nature に所属しているメンバーが幅広くデータの参照、分析ができるようになるためにデータ分析基盤の構築も行っています。 今回は、Nature で構築しているデータ分析基盤を紹介したいと思います。 どのようなデータ基盤にしたいのか Nature の重要なカルチャーでもありますが、Nature においてProduct Driven で事業が進みます。 speakerdeck.com Nature におけるプロダクトは、スマートフォンのアプリのみならず、ハードウェアやファームウェアなどの開発が含まれます。したがって、一重にエンジニアといえど、得意な技術領域は幅広くなります。また、エンジニア以外のメンバーも含めてサービスのデータにアクセスし、ファクトベースに意思決定できる環境を用意したいと考えてい

                                                                                  Nature のデータ基盤のご紹介 - Nature Engineering Blog
                                                                                • AWS Lake Formation(安全なデータレイクを数日で構築)| AWS

                                                                                  データアクセスの管理とスケーリングは複雑で時間がかかります。Lake Formation が、きめ細かいデータアクセス権限を一元的に管理およびスケールし、組織内外で自信を持ってデータを共有するのにどのように役立つかをご覧ください。

                                                                                    AWS Lake Formation(安全なデータレイクを数日で構築)| AWS