並び順

ブックマーク数

期間指定

  • から
  • まで

1 - 40 件 / 180件

新着順 人気順

DataLakeの検索結果1 - 40 件 / 180件

  • データ収集の基本と「JapanTaxi」アプリにおける実践例

    1. Mobility Technologies Co., Ltd. Data Engineering Study #2 データ収集の基本と 「JapanTaxi」アプリにおける実践例 株式会社 Mobility Technologies 渡部 徹太郎 2020/8/19 2. Mobility Technologies Co., Ltd. 自己紹介 2 ID :fetaro 名前:渡部 徹太郎 学生:東京工業大学でデータベースと情報検索の研究 (@日本データベース学会) 職歴: * 野村総合研究所(NRI) - オンライントレードシステム基盤 - オープンソース技術部隊 * リクルートテクノロジーズ - ビッグデータ分析基盤 * MobilityTechnologies - データエンジニア エディタ:emacs派→ InteliJ派 日本AWSユーザ会(JAWS) ビッグデータ支部長

      データ収集の基本と「JapanTaxi」アプリにおける実践例
    • Jupyter(Python)とBigQueryによるデータ分析基盤のDevOps #pyconjp // Speaker Deck

      PyCon JP 2017 の発表資料です。ジャンルは「業務利用事例」となります。 追記1. PyCon JP 2017 ベストトークアワード優秀賞を受賞しました! 追記2. http://yuzutas0.hatenablog.com/entry/2017/09/12/203000 に補足を掲載しています!

        Jupyter(Python)とBigQueryによるデータ分析基盤のDevOps #pyconjp // Speaker Deck
      • 新しいデータ基盤アーキテクチャである「データレイクハウス」について調べてみた - Taste of Tech Topics

        最近ソーダストリームを買い、炭酸水を飲むのにはまってます。機械学習エンジニアの@yktm31です。 以前に「AWS Lake Formationでデータレイク体験!」という記事を書いてみて、データ基盤アーキテクチャに興味が湧いてきました。 データレイクハウスは、「データウェアハウス」と「データレイク」を統合したようなアーキテクチャで、 2020年にDatabricks社により提唱され、新しいデータ基盤アーキテクチャとして注目されているようです。 www.databricks.com そこで今回、「データレイクハウス」について調べてみたことをまとめてみたいと思います。 なぜデータレイクハウスが注目されているのか? データウェアハウスの特徴・課題 データレイクの特徴・課題 データレイクハウスの特徴 データレイクハウスのアーキテクチャ Azure Azure Synapse Analyticsを

          新しいデータ基盤アーキテクチャである「データレイクハウス」について調べてみた - Taste of Tech Topics
        • Data Platform Guide - 事業を成長させるデータ基盤を作るには #DataEngineeringStudy / 20200715

          Data Engineering Study #1 の発表資料です。 https://forkwell.connpass.com/event/179786/ 当日の動画はYoutubeで閲覧可能です。 https://www.youtube.com/watch?v=hFYNuuAaiTg …

            Data Platform Guide - 事業を成長させるデータ基盤を作るには #DataEngineeringStudy / 20200715
          • 「AWSではじめるデータレイク」出版記念データレイク解説セミナーの資料公開 | Amazon Web Services

            Amazon Web Services ブログ 「AWSではじめるデータレイク」出版記念データレイク解説セミナーの資料公開 去年よりAWSのメンバー4名(志村、上原、関山、下佐粉)でデータレイクの基礎からアーキテクチャ、構築、運用管理までをカバーした書籍「AWSではじめるデータレイク」を執筆してきたのですが、7月出版の目処がたったことを記念して、5月末から毎週木曜にデータレイクに関するWebセミナーを開催してきました。 幸いにも大変多くの方にご参加いただくことができました。ご参加いただいた方にはあらためてお礼申し上げます。 一方で、以前の回に出られなかったので資料だけでも公開して欲しい、というご要望をたくさん頂いていました。そこで今回第1回から第3回の資料を公開させていただく事になりました。 ※ 2020/06/25更新:第4回の資料を追加公開しました 以下よりご覧いただけます。(PDFフ

              「AWSではじめるデータレイク」出版記念データレイク解説セミナーの資料公開 | Amazon Web Services
            • 事業に貢献するデータ基盤を作ろう・考え方編 / data_engineering_study_2

              Data Engineering Study #2「データ収集基盤とデータ整備のこれまでとこれから」https://forkwell.connpass.com/event/182769/ 作成者 :しんゆう@データ分析とインテリジェンス Twitter:https://twitter.com/d…

                事業に貢献するデータ基盤を作ろう・考え方編 / data_engineering_study_2
              • デブサミ2017「DeNAの機械学習基盤と分析基盤」講演メモ #devsumi - 元RX-7乗りの適当な日々

                sonots先生の話を聞きに行ってきたので、そのメモを残しておきます。 瀬尾 直利 氏 DeNA Co., Ltd. AIシステム部 リードエンジニア DeNAの機械学習基盤 ディープラーニングの基盤 => GPU基盤 という認識 GPUすごくて、CPU使って30日のところ、GPUを使うと4日くらいのオーダー GPUの特徴 並列処理が得意 CPUだと24coreとかのオーダー GPUでは3000〜4000core 分岐処理は苦手 行列演算に向いている GPU製品 NVIDIA Tesla HPC向けにGPUシリーズ NVIDIA GeForce GRID クラウドゲーミング向け AMD FirePro NVIDIA Tesla API CUDA OpenCL DirectCompute CUDAのアーキテクチャ CPU(ホスト)からGPU(デバイス)にデータを転送 GPUで処理 GPUから

                  デブサミ2017「DeNAの機械学習基盤と分析基盤」講演メモ #devsumi - 元RX-7乗りの適当な日々
                • カラムナフォーマットのきほん 〜データウェアハウスを支える技術〜 - Retty Tech Blog

                  こんにちは、Retty.Inc ソフトウェアエンジニア兼データサイエンティストのchie(@chie8842)です。 好きなたべものは焼肉とみかんです。 現在Rettyでは、次世代分析基盤を構築しています。Rettyでは、サービス拡大に伴いログの急増や分析需要の拡大が見込まれるため、高いスループットとコストパフォーマンスを両立する、スケールするアーキテクチャ設計が求められています。 今回は、こうしたスケールするアーキテクチャ設計の実現のために理解しておくべきDWHのコア技術の一つである、カラムナフォーマットに焦点を当てて紹介します。 はじめに - カラムナフォーマットとは カラムナフォーマットとは、データベースの分析用途に利用されるファイルフォーマットの種類の一つです。大量のデータを扱う際に効率的に圧縮してストレージコストを下げたり、計算時に必要なデータだけを取り出して計算コストを小さくで

                    カラムナフォーマットのきほん 〜データウェアハウスを支える技術〜 - Retty Tech Blog
                  • データ基盤の3分類と進化的データモデリング - 下町柚子黄昏記 by @yuzutas0

                    この記事は、下書き供養 Advent Calendar 2018 - Adventarの2日目の記事です。 めっちゃ専門的な内容になってしまいました。ごめんなさい。 某Slackでの議論内容をブログに書こうとしたのですが、下書きのまま放置していました。 Wednesday, August 15th と書いてあるので、約半年前の内容となります。 もくじ もくじ はじめに 「データ基盤の3分類」と「(一般的な)技術要素」 1.データレイク(Data Lake) 2.データウェアハウス(Data Warehouse) 3.データマート(Data Mart) 私が考えるデータ基盤の定義 私が考える「あるべき構成」 技術要素を分けるのはアンチパターン 進化的データモデリングを容易にしよう チームとアーキテクチャを選ぶ まとめ 参考 余談 追記 はじめに データ基盤と世間一般で言われるシステムには分類

                      データ基盤の3分類と進化的データモデリング - 下町柚子黄昏記 by @yuzutas0
                    • データを一箇所に集めることでデータ活用の民主化が進んだ話 - once upon a time,

                      先日、この記事を読んで分析のハードルを下げること大事だよね、というのを思い出したのでつらつらと書いてみようと思います。 qiita.com 内容としては正直タイトル詐欺で、SlackからRDSにクエリ発行できるようにして、各種権限を持っているエンジニアでなくても分析できるようになったよ、という話です。 ここでいう「データ活用の民主化」というのはかっこ良く言ってみたかっただけで、「データ分析を生業にしている人以外もデータを活用してビジネスを進められるようになる」というくらいのニュアンスだと思って下さい。 「データ分析」というとアナリストの人がやること、みたいな職務が分かれている環境もあるとは思いますが、そうではない会社(前職)の一例です。 データ活用が広まった流れ 数秒〜数十秒で対話的にクエリが返ってくると、トライアンドエラーが100倍くらいできる 今まで実行計画を気にして避けていたことにガ

                        データを一箇所に集めることでデータ活用の民主化が進んだ話 - once upon a time,
                      • データ活用基盤の今 〜DWH外観図〜 - クックパッド開発者ブログ

                        こんにちは、今年の1月に会員事業部から技術部データ基盤グループへ異動した佐藤です。先日、京まふ2019前夜祭イベントに参加するために人生で初めてピカピカ光る棒を買いました。 新卒で入社してから2年ほど分析作業をしていた身から、データ活用基盤を作る側へ立場を変えました。今回は新たに身を移したデータ活用基盤の外観を説明したいと思います。 2017年にも同内容の記事が投稿されていますので、当時との違いを中心に説明していきます。 外観図 以下が2019年10月現在におけるクックパッドのデータ活用基盤の全体像です。 クックパッドのDWH外観図 masterデータのインポートがMySQL以外にも複数種対応し始めたことと、PrismとSpectrum(S3+Glue)周りと、Tableau Serverが大きな変更点となっています。2017年の図にDmemoはありませんでしたが、記事本文にある通り当時か

                          データ活用基盤の今 〜DWH外観図〜 - クックパッド開発者ブログ
                        • Gunosyのデータ分析基盤、ログ基盤の全容

                          Templates, Plugins, & Blocks: Oh My! Creating the theme that thinks of everything

                            Gunosyのデータ分析基盤、ログ基盤の全容
                          • ビッグデータの成熟期に改めて見直したいETL - About connecting the dots.

                            Hadoopが出てきてから10年,ビッグデータという言葉が流行り始めてからでも5年以上が経ち,2016年現在では,Hadoopエコシステムを使ったデータ活用が当たり前のものとしてあります.とはいえ巷に出回っているビッグデータ活用事例というのは,綺麗な上澄みだけをすくい取っていたり,リリースしたてのピカピカのときに発表されていたり,というのが大半で,それが結構個人的に気に食わなかったりします. ビッグデータが当たり前のものになっている現在においては,単に作っただけで価値があるというフェーズは過ぎ去っていて,継続的に運用しながら価値を生み出し続けることが,非常に重要な問題だと思います.特にビッグデータ界隈はミドルウェアやツールの陳腐化が激しく,またビジネス自体の変化速度も過去と比べてどんどん速くなっているわけで,そういった変化に対応していくためには,また別のスキルが必要とされるのではないでしょ

                              ビッグデータの成熟期に改めて見直したいETL - About connecting the dots.
                            • (翻訳)Apache Arrowと「pandasの10項目の課題」 - Qiita

                              始めに:pandasの作者であるWes McKinneyさんがPythonのデータツール関連でとても興味深いblogを書かれているので、翻訳して日本のPyDataコミュニティに公開してもいいでしょうか、とお聞きしたところ、快諾をいただきましたので少しずつ訳して公開していこうと思っています。 2017/9/21(木) Apache Arrow、pandas、pandas2、そして最近の私の作業の大まかな方向性と視界が開けてきている未来に関して、これから一連のポストを書いていきます。このポストはその第一弾です。少々量があり、全体に技術的な色合いが濃くなっていますが、興味を持たれたなら読み進めていってください。 このポストでは、pandasの内部構造に関する主要な問題のいくつかと、それらに対して私が着実に進めてきた現実的な解決策の計画と構築について、できる限り簡潔に説明しようと思います。外から見

                                (翻訳)Apache Arrowと「pandasの10項目の課題」 - Qiita
                              • データ分析基盤構築の肝は、データレイクとDWHの分離 - NRIネットコムBlog

                                こんにちは佐々木です。 いろいろなところで口を酸っぱくして言っているのは、データレイクとDWHを分離しろと。とりあえずDWHに放り込むという考えはあるけど、DWHに入れる時点でデータの整形が行われて、情報の欠損がでてくる。だから、その前にデータレイクに生のままに入れること— Takuro SASAKI (@dkfj) 2021年5月1日 データレイクとDWHの分離について呟いたら、それなりの反響を頂きました。せっかくの機会なので、もう少ししっかりと解説してみます。何故、データレイクとDWHを分離する必要があるのか、格納するデータの構造と、データレイク・DWHの役割の観点から考えてみましょう。まずは、データの種類として、構造化データや非構造化データの説明をします。その次に、データレイクとDWHなどの用語・役割の説明をし、最後にアーキテクチャを考えてみます。 構造化データと半構造化データ、非構

                                  データ分析基盤構築の肝は、データレイクとDWHの分離 - NRIネットコムBlog
                                • スタディサプリを支えるデータ分析基盤 ~設計の勘所と利活用事例~

                                  The document is comprised of technical documentation copyrighted by Recruit Marketing Partners Co., Ltd. It includes code snippets and configuration examples for tools like AWS Lambda, Kinesis, Presto, Hive, Embulk and Treasure Data. The documentation provides guidance on building data pipelines, ETL processes, and reporting solutions using these technologies.Read less

                                    スタディサプリを支えるデータ分析基盤 ~設計の勘所と利活用事例~
                                  • 【k8s合宿】 Kubernetesのログ分析環境を作る - Uzabase for Engineers

                                    こんにちは、SPEEDAのSREチームでエンジニアをしている阿南です。SPEEDAのSREチームでは、昨年末kubernetesについて理解を深めるために合宿を行いました。やり方はA〜Cの3チームに分けて、それぞれのチームでkubernetesに関することを調査、構築するという形式で、今回はAチームが実際にやってみた内容についてブログを書きたいと思います。(それぞれのチームでかなりボリュームがあるので、複数回に渡って連載的な形でお届けしたいと思います。) Aチームでは、kubernetesを本番環境に投入するにあたり、ログ収集周りをあまり調査できてないなと感じ、GCP上に環境を作ってみることにしました。 構築する環境 構築手順 クラスター構築 wordpress + MySQL構築 Fluentdイメージの作成 ConfigMap設定 DaemonSet設定 まとめ お知らせ 構築する環境

                                      【k8s合宿】 Kubernetesのログ分析環境を作る - Uzabase for Engineers
                                    • データレイク構築後の四方山話 #DPM / 20190905

                                      Data Platform Meetup の登壇資料です。 https://data-platform-meetup.connpass.com/event/142822/

                                        データレイク構築後の四方山話 #DPM / 20190905
                                      • N予備校のデータ分析基盤構築に向けた取り組み - ドワンゴ教育サービス開発者ブログ

                                        はじめに 昨今Webに限らずあらゆる事業領域において、蓄積されたデータの活用は必要不可欠、やっていて当たり前なものになってきているかと思います。これまでこのブログではあまりそういう話題に触れてこなかったこともあり、本稿では改めてドワンゴ教育サービスにおけるデータの活用に関する取り組みについて、概要レベルにはなりますがご紹介したいと思います。 はじめに N予備校における従来のデータの取り扱い 現在の取り組み 本番環境のデータのBigQueryへの蓄積 データ活用のプロトタイピング そのほかのデータ活用に関連する取り組みや展望 N予備校のアーキテクチャ・パイプラインの検討 分析対象のデータ拡充 データの管理体制 機械学習技術等の活用 おわりに We are hiring! N予備校における従来のデータの取り扱い まず従来から行われているN予備校におけるデータ活用の取り組みについて紹介します。現

                                          N予備校のデータ分析基盤構築に向けた取り組み - ドワンゴ教育サービス開発者ブログ
                                        • 民間企業におけるデータ整備の課題と工夫 / 20220305

                                          第16回日本統計学会春季集会での発表資料です。 https://confit.atlas.jp/guide/event/tjss2022spring/top https://ies.keio.ac.jp/events/17173/ 講義や共同研究のご相談はブログのお問い合わせ欄にご連絡ください…

                                            民間企業におけるデータ整備の課題と工夫 / 20220305
                                          • AWS データレイク事例祭り 登壇資料

                                            AWS データレイク事例祭り 登壇資料です。

                                              AWS データレイク事例祭り 登壇資料
                                            • S3データレイクをAWSの分析サービスを使って有効活用する #AWS-06 #AWSSummit | DevelopersIO

                                              本記事は、AWS Summit Japan 2021のセッション動画、「AWS-06: 貯めるだけじゃもったいない!AWS 分析サービスを使ったデータレイクの有効活用」のレポート記事です。 「データはとりあえずS3に溜めておけ!」とデータレイクっぽいものは作れたけど上手く使いこなせていない方、それなりにいらっしゃるのではないでしょうか?本セッションでぜひAWSの分析サービスの活用術をおさらいしてみてください。 概要 データの持つ力を活かす方法としてデータレイクがありますが、データレイク上にデータは貯まってきたものの、どう有効活用すればいいか悩んだ経験はないでしょうか?データレイクに存在するデータと分析ツールと組合せ、活用する方法として、“レイクハウスアプローチ”があります。本セッションでは"レイクハウスアプローチ"の考え方を紹介すると共に、どのようなAWSサービスを用いて"レイクハウスアプ

                                                S3データレイクをAWSの分析サービスを使って有効活用する #AWS-06 #AWSSummit | DevelopersIO
                                              • Apache Arrowの最新情報(2019年9月版) - 2019-09-30 - ククログ

                                                Apache ArrowのPMC(Project Management Commitee、プロジェクト管理チームみたいな感じ)のメンバーの須藤です。 みなさんはApache Arrowを知っていますか?Apache Arrowは数年後にはデータ処理界隈で重要なコンポーネントになっているだろうプロジェクトです。データ処理界隈に興味がある人は知っておくと役に立つはずなので1年ほど前にApache Arrowの最新情報(2018年9月版)をまとめました。この1年ですごくよくなったので2019年9月現在の最新情報を紹介します。 私は、PMCの中では唯一の日本人1で、コミット数は2番目に多い2ので、日本ではApache Arrowのことをだいぶ知っている方なはずです。Apache Arrowの情報は日本語ではあまりないので日本語で紹介します。 ちなみに、英語ではいろいろ情報があります。有用な情報源は

                                                  Apache Arrowの最新情報(2019年9月版) - 2019-09-30 - ククログ
                                                • Amazon Athena: カラムナフォーマット『Parquet』でクエリを試してみた #reinvent | DevelopersIO

                                                  先日『AWS re:Invent 2016』にて発表された新サービス『Amazon Athena』は、マニュアルにもある通りAWSが提供するフルマネージドHiveサービスと言えるでしょう。DWH用途で考えるとレコードをフルスキャンするよりも特定のカラムを集計・フィルタするというユースケースが多くなりそうですので、カラムナフォーマット『Parquet』を試したみたいと思いました。Parquetファイルの変換や、一般的なCSVとの簡単な比較をしてみました。(意外な結果が...) カラムナフォーマット『Parquet』とは データ分析では大福帳フォーマットのテーブルデータに対して、特定の列の値を集計したり、フィルタリングすることが多いため、カラム毎にデータが連続して格納されていると必要なデータのみをピンポイントで読み込むことができるからです。また、列方向には同じ種類のデータが並んでいるため、圧縮

                                                    Amazon Athena: カラムナフォーマット『Parquet』でクエリを試してみた #reinvent | DevelopersIO
                                                  • リブセンスのデータ分析基盤の全貌

                                                    データ分析基盤Night #1 yusaku omasa

                                                      リブセンスのデータ分析基盤の全貌
                                                    • 分析者から見た使いにくいデータ基盤の話 | リクルートテクノロジーズ メンバーズブログ

                                                      リクルートテクノロジーズのアドベントカレンダーの 12/25 の分です。 要するにデータが潤沢なデータレイクと、秩序だったデータウェアハウスがほしいという話をします。データマートは分析者も必要に応じて作ればいいので、なくても問題ないです。データレイク、データウェアハウス、データマートについては本記事で解説します。 とはいえ、「データあるから分析してくれ」を最初に取りかかる場合は、秩序だったデータウェアハウスが無いはずなので、データレイクに大量のデータがあれば贅沢は言いません。実はデータがない状態は本記事では想定していません。 本アドベントカレンダーでは似た内容を先に書かれましたが、本ブログでは使う側の視点なのでちょっと違います。とはいえ、目指す姿はだいたい似るはずです。 http://yuzutas0.hatenablog.com/entry/2018/12/08/235900 なんのため

                                                        分析者から見た使いにくいデータ基盤の話 | リクルートテクノロジーズ メンバーズブログ
                                                      • 分析基盤へのデータ連携処理をEmbulkからAmazon Aurora S3 Export機能に切り替えた話 - BASEプロダクトチームブログ

                                                        はじめに こんにちは!Data Platformチームでデータエンジニアとして働いている @shota.imazeki です。 分析基盤の構築・運用などの側面から社内のデータ活用の促進を行っています。 BASEではAurora MySQLにあるデータをEmbulkを用いてBigQueryに連携しています。BigQueryへ連携されたデータは分析基盤としてLookerなどを通して社内利用されています。 このデータ連携処理にはいくつかの課題があり、それを解決するためにEmbulkからAurora S3 Export機能を用いた連携処理に切り替えることにしましたので、それについて紹介していきたいと思います。 ※この切り替えについては現状、試験的に一部のDBのみの切り替えとなっていますが、運用上の大きな課題が出てこなければ徐々に切り替えていく予定です。 切替前のデータ連携処理 先述した通り、BAS

                                                          分析基盤へのデータ連携処理をEmbulkからAmazon Aurora S3 Export機能に切り替えた話 - BASEプロダクトチームブログ
                                                        • データ分析基盤Crois

                                                          Machine Learning Casual Talks #10 での発表資料です。 リクルートの横断組織であるリクルートコミュニケーションズで開発しているデータ分析基盤のCroisについて紹介させていただきました。

                                                            データ分析基盤Crois
                                                          • Dataformでデータ分析基盤を整備した話 - Adwaysエンジニアブログ

                                                            こんにちは佐藤です。 今回はサービスのデータ分析基盤を作成する際に使用したDataformについて紹介させていただきます。 背景 Dataformについて 導入して良かったこと 依存関係がわかりやすい クエリのテスト 工夫した点 フォルダの構成について データセット名、テーブル名について シャーディングテーブルの定義について 最後に 背景 現在、広告部署に所属する私たちのチームは自社のサービスデータと外部データを分析してユーザーの利用率向上につながる仮説検証をおこなうプロジェクトを進めています。 その中で様々なデータをTableauを用いて分析しており、データソースとして主にBigQueryを使用しているのですが、現状、分析データの加工、集計処理についてBigQueryのスケジュールされたクエリで作成したりtableau側のカスタムクエリで作成したりと対応方法がバラバラで管理自体ができてい

                                                              Dataformでデータ分析基盤を整備した話 - Adwaysエンジニアブログ
                                                            • データ基盤の品質向上への取り組み - Classi開発者ブログ

                                                              こんにちは、データエンジニアの石井です。 先日公開した記事「社内向けのデータ基盤から集計結果をReverse ETLしてサービスに組み込んだ話」で、ダッシュボード機能のリリースにより、Classiのデータ基盤が「社内用データ基盤」から「ユーザー影響あるシステムの一部」へ進化した話をしました。「ユーザー影響あるシステムの一部」への進化に伴い、データ基盤の品質担保は必要不可欠です。今回は、データ基盤の品質向上に取り組んだKANTプロジェクトについてご紹介します。 KANTプロジェクト 背景・課題 Classiのデータ基盤がユーザー影響あるシステムの一部になる前、つまり社内用データ基盤だった頃には以下のような課題がありました。 データ基盤の状態把握 マルチクラウドにおけるデータ基盤全体の状態把握ができていなかった データ基盤の実行状態(SUCCESS, FAIL, RUNNINGなど)の把握が、

                                                                データ基盤の品質向上への取り組み - Classi開発者ブログ
                                                              • Amazon DataZone でデータカタログを実現する - Taste of Tech Topics

                                                                はじめに こんにちは一史です。最近自動給水器を買い、ベランダで育てているバジルの水やりを自動化しました。テクノロジーは素晴らしいですね。 さて、AWSにはAmazon DataZoneという組織が蓄積した膨大なデータに対して、データの発見、アクセス制御、管理を簡素化するデータ管理サービスがあります。 データドリブンが重要視される昨今、今回はDataZone上にデータカタログの作成を行ってみます。 はじめに 概要 データレイクとは データカタログとは なぜAmazon DataZoneが必要か(AWS Guleとの違い) Amazon DataZoneとは サービス概要 DataZoneのデータカタログの完成像 Amazon DataZoneでデータカタログを作成してみる 構成概要 データ準備 ドメインとデータポータルの作成 プロジェクトの作成 環境の作成 データカタログの作成 データアセッ

                                                                  Amazon DataZone でデータカタログを実現する - Taste of Tech Topics
                                                                • AWS Outpostsで実現するオンプレデータレイク - NTT Communications Engineers' Blog

                                                                  はじめに こんにちは、イノベーションセンターの鈴ヶ嶺です。普段はクラウドサービスをオンプレ環境でも同様のUI/UXで使用を可能とするハイブリッドクラウド製品の技術検証をしています。 NTT Comでは以下の過去の記事のように、AWSのハイブリッドクラウドソリューションAWS Outposts ラックの導入や技術検証を進めています。 engineers.ntt.com engineers.ntt.com engineers.ntt.com 本記事では、AWS Outpostsで実現するオンプレ環境におけるデータレイクのユースケースについて紹介します。 データレイクとは構造化データ、非構造化データに関わらず全てのデータを一元的に保存可能なストレージを意味しています。 このユースケースにより、低遅延性が求められる、もしくは秘匿性の高い大規模なデータをオンプレ環境で一元的に取り扱うことが可能となり

                                                                    AWS Outpostsで実現するオンプレデータレイク - NTT Communications Engineers' Blog
                                                                  • [レポート] モダンデータウェアハウスにおける「キンボール」〜残す価値のあるもの、ないもの #dbtcoalesce | DevelopersIO

                                                                    [レポート] モダンデータウェアハウスにおける「キンボール」〜残す価値のあるもの、ないもの #dbtcoalesce 大阪オフィスの玉井です。 2020年12月7日〜11日の間、Fishtown Analytics社がcoalesceというオンラインイベントを開催していました(SQLを触っている方はピンとくるイベント名ではないでしょうか)。 「Fishtown Analytics社って何やってる会社?」という感じですが、dbtというツールを開発しているベンダーです。dbtについては、下記をご覧ください。 今回は、その中からKimball in the context of the modern data warehouse: what's worth keeping, and what's notというセッションを受講したので、レポートを記します。 イベント概要 公式 Kimball in

                                                                      [レポート] モダンデータウェアハウスにおける「キンボール」〜残す価値のあるもの、ないもの #dbtcoalesce | DevelopersIO
                                                                    • 私流・データ分析基盤の技術調査のコツを整理してみた | DevelopersIO

                                                                      データアナリティクス事業本部の鈴木です。 自分がデータ分析基盤の技術調査をする際、こういうことに気をつけるとうまく行きやすいなというポイントがまとまってきたので、ブログにしてみました。 あくまで1例として参考になればと考えています。 課題意識 ほかのメンバーで、技術調査に慣れていない方に調査をお願いするとき、初めはある程度やり方を説明したり、レビューを手厚くしたりすると思います。私が初めて技術調査をしたときは、やり方が分からず、先輩にかなりお世話になったことを覚えています。 最近では、私からほかのメンバーに調査をお願いをする側になる場面が少しづつ出てきたので、「お願いしたいことはある程度ブログにしておいた方が、聞く方が言われたことを全部覚えてなくていいし、絶対ええやろな〜」と思い、記事にしてみました。 場面としてはデータ分析基盤を構築する上で必要になる技術調査を想定しています。 技術調査の

                                                                        私流・データ分析基盤の技術調査のコツを整理してみた | DevelopersIO
                                                                      • AWS Glue と Amazon S3 を使用してデータレイクの基礎を構築する | Amazon Web Services

                                                                        Amazon Web Services ブログ AWS Glue と Amazon S3 を使用してデータレイクの基礎を構築する データレイクは、大量の様々なデータを扱うという課題に対処するため、データを分析および保存するための方法としてますます一般的になっています。データレイクを使うと、組織は全ての構造化データおよび非構造化データを1つの中央リポジトリに格納できます。データはそのまま保存できるため、あらかじめ定義されたスキーマに変換する必要はありません。 多くの組織は AWS をデータレイクとして使う価値を理解しています。例えば Amazon S3 は高い耐久性があり、コンピューティングとストレージの分離をしながら、オープンデータフォーマットをサポートする費用対効果の高いオブジェクトの開始ができ、全てのAWS 分析サービスと連携します。Amazon S3 はデータレイクの基礎を提供します

                                                                          AWS Glue と Amazon S3 を使用してデータレイクの基礎を構築する | Amazon Web Services
                                                                        • Apache Hadoopエコシステムにおける、異なるファイル形式とストレージエンジンのパフォーマンス比較

                                                                          著者/Author: Zbigniew Branowski (Cern) 原文/Original:http://blog.cloudera.com/blog/2017/02/performance-comparing-of-different-file-formats-and-storage-engines-in-hadoop-file-system/ Zbigniew Baranowskiはデータベースシステムの専門家であり、CERNでセントラルデータベースとHadoopベースのサービスを提供、サポートしているグループのメンバーです。 このブログはもともとCERNの「Databases at CERN」ブログで公開されており、CERNの許可を得てここで公開されています。 トピックこの記事では、Apache Hadoopエコシステムで利用可能ないくつかの一般的なデータフォーマットとストレー

                                                                            Apache Hadoopエコシステムにおける、異なるファイル形式とストレージエンジンのパフォーマンス比較
                                                                          • (翻訳) データエンジニアリングの未来 - satoshihirose.log

                                                                            訳者まえがき 原著者の Chris Riccomini の許可を得て以下の記事を翻訳・公開しました。 riccomini.name 下記より記事翻訳本文です。 データエンジニアリングの未来 私は最近、近頃のデータエンジニアリングがこれまで来た道について、また、この分野の仕事の将来について考えてきました。考えのほとんどは、私たちのチームが WePay で実践していることを背景にしています。その一方、以下に述べる考えは普遍的で、共有する価値があるものと思っています。 データエンジニアリングの仕事は、組織におけるデータの移動と処理を支援することです。これには、一般的に、データパイプラインとデータウェアハウスという2つの異なるシステムが必要です。データパイプラインはデータの移動を担当し、データウェアハウスはデータの処理を担当します。これは、やや過度に単純化しています。バッチ処理とストリーム処理では

                                                                              (翻訳) データエンジニアリングの未来 - satoshihirose.log
                                                                            • スタディサプリでのBigQuery移管と実践的活用術 / meetup_kittaka

                                                                              2022/01/27_スタディサプリのデータ基盤を支える技術 2022 -RECRUIT TECH MEET UP #3-での、橘高の講演資料になります

                                                                                スタディサプリでのBigQuery移管と実践的活用術 / meetup_kittaka
                                                                              • Apache Arrowの最新情報(2020年7月版) - 2020-07-31 - ククログ

                                                                                Apache ArrowのPMC(Project Management Commitee、プロジェクト管理チームみたいな感じ)のメンバーの須藤です。 みなさんはApache Arrowを知っていますか?最近、ついに1.0.0がリリースされたんですよ。私がApache Arrowの最新情報をまとめた2018年9月から毎年「今年中に1.0.0がでるぞ!」と言っていた1.0.0がついにリリースされたんです! 1.0.0を機に安心して使えるようになります。(どう安心なのかは後で説明します。) Apache Arrowはすでにデータ処理界隈で重要なコンポーネントになりつつありますが、数年後にはもっと重要になっているだろうプロジェクトです。データ処理界隈に興味がある人は知っておくと役に立つはずなので毎年Apache Arrowの最新情報をまとめています。1.0.0がリリースされたので2020年7月現在

                                                                                  Apache Arrowの最新情報(2020年7月版) - 2020-07-31 - ククログ
                                                                                • 料理きろくと機械学習

                                                                                  【京都開催 feat.はてな】Cookpad Tech Kitchen #11 https://cookpad.connpass.com/event/64837/ 【福岡開催 feat.ペパボ】Cookpad Tech Kitchen #12 https://cookpad.connpass.com/event/64844/ で発表したものです

                                                                                    料理きろくと機械学習