並び順

ブックマーク数

期間指定

  • から
  • まで

41 - 80 件 / 181件

新着順 人気順

dataLakeの検索結果41 - 80 件 / 181件

  • Gunosy のデータ活用を支える統合データ基盤 Baikal の話 - Gunosy Tech Blog

    はじめに Baikal について Baikal を支える技術と工夫 AWS アカウント Terraform ワークフロー基盤 Athena Lake Formation アーキテクチャ Extract & Load データ生成元 AWS アカウントにある RDS からデータ抽出 データ生成元 AWS アカウントにある DynamoDB からデータ抽出 社外の API からデータ抽出 Transform workspace に配置されたデータの変換 データ生成元 AWS アカウント内の生ログ変換 ウェアハウス内での加工 Share 今後の課題 開発の一部を他チームへの委譲 データ異常検知 BI ツールの導入 はじめに DRE チームの hyamamoto です。 新卒の方々が入社されて 4 ヶ月ということで、時の流れの速さを感じています*1。なお、現在、新卒の方々でリレー方式でブログを書いて

      Gunosy のデータ活用を支える統合データ基盤 Baikal の話 - Gunosy Tech Blog
    • データ分析基盤Crois

      Machine Learning Casual Talks #10 での発表資料です。 リクルートの横断組織であるリクルートコミュニケーションズで開発しているデータ分析基盤のCroisについて紹介させていただきました。

        データ分析基盤Crois
      • Dataformでデータ分析基盤を整備した話 - Adwaysエンジニアブログ

        こんにちは佐藤です。 今回はサービスのデータ分析基盤を作成する際に使用したDataformについて紹介させていただきます。 背景 Dataformについて 導入して良かったこと 依存関係がわかりやすい クエリのテスト 工夫した点 フォルダの構成について データセット名、テーブル名について シャーディングテーブルの定義について 最後に 背景 現在、広告部署に所属する私たちのチームは自社のサービスデータと外部データを分析してユーザーの利用率向上につながる仮説検証をおこなうプロジェクトを進めています。 その中で様々なデータをTableauを用いて分析しており、データソースとして主にBigQueryを使用しているのですが、現状、分析データの加工、集計処理についてBigQueryのスケジュールされたクエリで作成したりtableau側のカスタムクエリで作成したりと対応方法がバラバラで管理自体ができてい

          Dataformでデータ分析基盤を整備した話 - Adwaysエンジニアブログ
        • データ基盤の品質向上への取り組み - Classi開発者ブログ

          こんにちは、データエンジニアの石井です。 先日公開した記事「社内向けのデータ基盤から集計結果をReverse ETLしてサービスに組み込んだ話」で、ダッシュボード機能のリリースにより、Classiのデータ基盤が「社内用データ基盤」から「ユーザー影響あるシステムの一部」へ進化した話をしました。「ユーザー影響あるシステムの一部」への進化に伴い、データ基盤の品質担保は必要不可欠です。今回は、データ基盤の品質向上に取り組んだKANTプロジェクトについてご紹介します。 KANTプロジェクト 背景・課題 Classiのデータ基盤がユーザー影響あるシステムの一部になる前、つまり社内用データ基盤だった頃には以下のような課題がありました。 データ基盤の状態把握 マルチクラウドにおけるデータ基盤全体の状態把握ができていなかった データ基盤の実行状態(SUCCESS, FAIL, RUNNINGなど)の把握が、

            データ基盤の品質向上への取り組み - Classi開発者ブログ
          • AWS Outpostsで実現するオンプレデータレイク - NTT Communications Engineers' Blog

            はじめに こんにちは、イノベーションセンターの鈴ヶ嶺です。普段はクラウドサービスをオンプレ環境でも同様のUI/UXで使用を可能とするハイブリッドクラウド製品の技術検証をしています。 NTT Comでは以下の過去の記事のように、AWSのハイブリッドクラウドソリューションAWS Outposts ラックの導入や技術検証を進めています。 engineers.ntt.com engineers.ntt.com engineers.ntt.com 本記事では、AWS Outpostsで実現するオンプレ環境におけるデータレイクのユースケースについて紹介します。 データレイクとは構造化データ、非構造化データに関わらず全てのデータを一元的に保存可能なストレージを意味しています。 このユースケースにより、低遅延性が求められる、もしくは秘匿性の高い大規模なデータをオンプレ環境で一元的に取り扱うことが可能となり

              AWS Outpostsで実現するオンプレデータレイク - NTT Communications Engineers' Blog
            • [レポート] モダンデータウェアハウスにおける「キンボール」〜残す価値のあるもの、ないもの #dbtcoalesce | DevelopersIO

              [レポート] モダンデータウェアハウスにおける「キンボール」〜残す価値のあるもの、ないもの #dbtcoalesce 大阪オフィスの玉井です。 2020年12月7日〜11日の間、Fishtown Analytics社がcoalesceというオンラインイベントを開催していました(SQLを触っている方はピンとくるイベント名ではないでしょうか)。 「Fishtown Analytics社って何やってる会社?」という感じですが、dbtというツールを開発しているベンダーです。dbtについては、下記をご覧ください。 今回は、その中からKimball in the context of the modern data warehouse: what's worth keeping, and what's notというセッションを受講したので、レポートを記します。 イベント概要 公式 Kimball in

                [レポート] モダンデータウェアハウスにおける「キンボール」〜残す価値のあるもの、ないもの #dbtcoalesce | DevelopersIO
              • Amazon DataZone でデータカタログを実現する - Taste of Tech Topics

                はじめに こんにちは一史です。最近自動給水器を買い、ベランダで育てているバジルの水やりを自動化しました。テクノロジーは素晴らしいですね。 さて、AWSにはAmazon DataZoneという組織が蓄積した膨大なデータに対して、データの発見、アクセス制御、管理を簡素化するデータ管理サービスがあります。 データドリブンが重要視される昨今、今回はDataZone上にデータカタログの作成を行ってみます。 はじめに 概要 データレイクとは データカタログとは なぜAmazon DataZoneが必要か(AWS Guleとの違い) Amazon DataZoneとは サービス概要 DataZoneのデータカタログの完成像 Amazon DataZoneでデータカタログを作成してみる 構成概要 データ準備 ドメインとデータポータルの作成 プロジェクトの作成 環境の作成 データカタログの作成 データアセッ

                  Amazon DataZone でデータカタログを実現する - Taste of Tech Topics
                • 私流・データ分析基盤の技術調査のコツを整理してみた | DevelopersIO

                  データアナリティクス事業本部の鈴木です。 自分がデータ分析基盤の技術調査をする際、こういうことに気をつけるとうまく行きやすいなというポイントがまとまってきたので、ブログにしてみました。 あくまで1例として参考になればと考えています。 課題意識 ほかのメンバーで、技術調査に慣れていない方に調査をお願いするとき、初めはある程度やり方を説明したり、レビューを手厚くしたりすると思います。私が初めて技術調査をしたときは、やり方が分からず、先輩にかなりお世話になったことを覚えています。 最近では、私からほかのメンバーに調査をお願いをする側になる場面が少しづつ出てきたので、「お願いしたいことはある程度ブログにしておいた方が、聞く方が言われたことを全部覚えてなくていいし、絶対ええやろな〜」と思い、記事にしてみました。 場面としてはデータ分析基盤を構築する上で必要になる技術調査を想定しています。 技術調査の

                    私流・データ分析基盤の技術調査のコツを整理してみた | DevelopersIO
                  • AWS Glue と Amazon S3 を使用してデータレイクの基礎を構築する | Amazon Web Services

                    Amazon Web Services ブログ AWS Glue と Amazon S3 を使用してデータレイクの基礎を構築する データレイクは、大量の様々なデータを扱うという課題に対処するため、データを分析および保存するための方法としてますます一般的になっています。データレイクを使うと、組織は全ての構造化データおよび非構造化データを1つの中央リポジトリに格納できます。データはそのまま保存できるため、あらかじめ定義されたスキーマに変換する必要はありません。 多くの組織は AWS をデータレイクとして使う価値を理解しています。例えば Amazon S3 は高い耐久性があり、コンピューティングとストレージの分離をしながら、オープンデータフォーマットをサポートする費用対効果の高いオブジェクトの開始ができ、全てのAWS 分析サービスと連携します。Amazon S3 はデータレイクの基礎を提供します

                      AWS Glue と Amazon S3 を使用してデータレイクの基礎を構築する | Amazon Web Services
                    • Apache Hadoopエコシステムにおける、異なるファイル形式とストレージエンジンのパフォーマンス比較

                      著者/Author: Zbigniew Branowski (Cern) 原文/Original:http://blog.cloudera.com/blog/2017/02/performance-comparing-of-different-file-formats-and-storage-engines-in-hadoop-file-system/ Zbigniew Baranowskiはデータベースシステムの専門家であり、CERNでセントラルデータベースとHadoopベースのサービスを提供、サポートしているグループのメンバーです。 このブログはもともとCERNの「Databases at CERN」ブログで公開されており、CERNの許可を得てここで公開されています。 トピックこの記事では、Apache Hadoopエコシステムで利用可能ないくつかの一般的なデータフォーマットとストレー

                        Apache Hadoopエコシステムにおける、異なるファイル形式とストレージエンジンのパフォーマンス比較
                      • (翻訳) データエンジニアリングの未来 - satoshihirose.log

                        訳者まえがき 原著者の Chris Riccomini の許可を得て以下の記事を翻訳・公開しました。 riccomini.name 下記より記事翻訳本文です。 データエンジニアリングの未来 私は最近、近頃のデータエンジニアリングがこれまで来た道について、また、この分野の仕事の将来について考えてきました。考えのほとんどは、私たちのチームが WePay で実践していることを背景にしています。その一方、以下に述べる考えは普遍的で、共有する価値があるものと思っています。 データエンジニアリングの仕事は、組織におけるデータの移動と処理を支援することです。これには、一般的に、データパイプラインとデータウェアハウスという2つの異なるシステムが必要です。データパイプラインはデータの移動を担当し、データウェアハウスはデータの処理を担当します。これは、やや過度に単純化しています。バッチ処理とストリーム処理では

                          (翻訳) データエンジニアリングの未来 - satoshihirose.log
                        • スタディサプリでのBigQuery移管と実践的活用術 / meetup_kittaka

                          2022/01/27_スタディサプリのデータ基盤を支える技術 2022 -RECRUIT TECH MEET UP #3-での、橘高の講演資料になります

                            スタディサプリでのBigQuery移管と実践的活用術 / meetup_kittaka
                          • データ組織のトポロジー|Jun Ernesto Okumura

                            この記事について最近発売された『チームトポロジー』(以後、本書)を読んだのですが、チーム体制やコミュニケーションの設計について汎用的にまとめられていてとても良い読書体験でした。私自身、データ組織をどのように設計していくか日頃考えており、本書を読み進めながら、考えが構造化され、課題の解像度が高まった気がします。 現在、私は株式会社エウレカで、BIチーム(分析チーム)、AIチーム、Data Managementチーム(データ基盤チーム)、の3チームのマネジメントをしています。日々生まれるデータを価値に転換し、同時にプライバシーやセキュリティなどのガバナンスを徹底するために、全社的なデータ戦略を推進していく立場です。大雑把に「データ活用」と括ってしまいましたが、意思決定をサポートするのための活動(BI)、ユーザー向けの機能開発を伴う活動(AI)、それらの活動を効率よく進めるための活動(Data

                              データ組織のトポロジー|Jun Ernesto Okumura
                            • Apache Arrowの最新情報(2020年7月版) - 2020-07-31 - ククログ

                              Apache ArrowのPMC(Project Management Commitee、プロジェクト管理チームみたいな感じ)のメンバーの須藤です。 みなさんはApache Arrowを知っていますか?最近、ついに1.0.0がリリースされたんですよ。私がApache Arrowの最新情報をまとめた2018年9月から毎年「今年中に1.0.0がでるぞ!」と言っていた1.0.0がついにリリースされたんです! 1.0.0を機に安心して使えるようになります。(どう安心なのかは後で説明します。) Apache Arrowはすでにデータ処理界隈で重要なコンポーネントになりつつありますが、数年後にはもっと重要になっているだろうプロジェクトです。データ処理界隈に興味がある人は知っておくと役に立つはずなので毎年Apache Arrowの最新情報をまとめています。1.0.0がリリースされたので2020年7月現在

                                Apache Arrowの最新情報(2020年7月版) - 2020-07-31 - ククログ
                              • 料理きろくと機械学習

                                【京都開催 feat.はてな】Cookpad Tech Kitchen #11 https://cookpad.connpass.com/event/64837/ 【福岡開催 feat.ペパボ】Cookpad Tech Kitchen #12 https://cookpad.connpass.com/event/64844/ で発表したものです

                                  料理きろくと機械学習
                                • 分析基盤へのデータ同期を約40倍早くしてみた | MoT Lab (GO Inc. Engineering Blog)

                                  タクシーアプリ「GO」、法人向けサービス「GO BUSINESS」、タクシーデリバリーアプリ「GO Dine」の分析基盤を開発運用している伊田です。本番DBから分析基盤への連携処理を改善した事例を紹介します。※ 本記事の対象読者はETLツールを利用している方を対象にしています はじめに本記事では、タクシーアプリ「GO」の DB から分析基盤への同期処理を約7時間から約10分に改善した事例を紹介します。まず、既存の処理および改善前の状況を説明し、次に改善にあたり実施した分析、その分析をもとにチーム内で実施した議論を経て、最終的にどのような実装を行ったのか紹介させて頂きます。 同期処理についてGO の DB は Cloud SQL 上で構築されており、分析基盤への同期処理は GKE 上で Embulk を起動し、リードレプリカに対してクエリを投げて一度 GCS に結果を格納します。その後、GC

                                    分析基盤へのデータ同期を約40倍早くしてみた | MoT Lab (GO Inc. Engineering Blog)
                                  • AWS Lake Formationでのデータレイク登録からデータアクセスまで - NTT Communications Engineers' Blog

                                    AWS Lake Formationでのデータレイク登録からデータアクセスまで この記事は NTTコミュニケーションズ Advent Calendar 2021 の16日目の記事です。 はじめに はじめまして!BS本部SS部の荒井です。データマネジメントに関するプリセールスを担当しています。 今回はアドベントカレンダー企画ということで、AWS Lake Formationに関する記事を投稿をさせていただきます。 データレイクとAWS Lake Formation 近年データ分析の盛り上がりなどから、散逸している様々な形式のデータを一元管理できるレポジトリ、いわゆるデータレイクを導入するケースが増えてきています(参考:データレイクとは)。 例えばシステムごとに保存されていた「会員データ」「購入履歴」「問合せ履歴」などのデータをデータレイクに集約することでシステム横断の顧客分析を手軽に行うこと

                                      AWS Lake Formationでのデータレイク登録からデータアクセスまで - NTT Communications Engineers' Blog
                                    • Developers.IO 2019 Tokyoで「Effective Datalake 〜基礎からわかるデータレイクの定義と実践〜」というタイトルで発表してきました #cmdevio | DevelopersIO

                                      クラスメソッドの石川です。 先日開催いたしましたDevelopers.IO 2019 in TOKYOにお越し頂きましてありがとうございました。 表題の通り、データレイクについてお話をさせて頂きました。 スライド こちらがスライドになります。 こんな事を話してた はじめに データレイクとは AWS Glue Aamzon Athena / Redshift Spectrum データ設計のベストプラクティス Redshiftからデータレイクの移行 AWS Lake Formation まとめ まとめ Glue/Athena/Redshift Spectrumで始まったAWSのデータレイクは、Lake Formationによって統合され大きな進化を遂げました。その過程を私なりの解釈と定義に基づいて、現在に至る基礎的なサービスとその動作原理、データ設計のベストプラクティスについ

                                        Developers.IO 2019 Tokyoで「Effective Datalake 〜基礎からわかるデータレイクの定義と実践〜」というタイトルで発表してきました #cmdevio | DevelopersIO
                                      • Quick Start decommissioned—Amazon Web Services (AWS)

                                        Links you may find helpful: AWS Quick Start home page: A catalog of Quick Start reference deployments AWS Quick Start Contributor's Guide:  Instructions for building a new Quick Start or contributing to an existing Quick Start AWS Quick Start GitHub repository: Source files for documentation and AWS CloudFormation templates Quick Start resources: Technical and how-to information Frequently asked q

                                          Quick Start decommissioned—Amazon Web Services (AWS)
                                        • カラムナフォーマットのきほん

                                          2017/05/18 BigData-JAWS 勉強会での発表資料です。 Explanation of Columnar format such as Parquet and ORC in japanese.

                                            カラムナフォーマットのきほん
                                          • dbtを活用したデータ基盤の 論理・物理設計の現在地と振り返り / data warehouse logic design by using dbt

                                            dbtを活用したデータ基盤の 論理・物理設計の現在地と振り返り / data warehouse logic design by using dbt

                                              dbtを活用したデータ基盤の 論理・物理設計の現在地と振り返り / data warehouse logic design by using dbt
                                            • データレイクの新しいカタチ:Open Table Formatの紹介 - 流沙河鎮

                                              はじめに Open Table Formatは次世代のデータレイクの基盤となり得る技術で、徐々に導入事例(末尾に列挙)が増えてきているものの、日本での認知度は発展途上な印象がある。本記事ではOpen Table Format登場の背景を紹介する。執筆にあたって、Apache Iceberg: An Architectural Look Under the CoversとAWSにおける Hudi/Iceberg/Delta Lake の 使いどころと違いについてを特に参考にした。 Open Table Formatとは? Open Table Formatとは、従来のデータレイクの技術的な課題&ユースケースの要請に応える形で登場した、データレイクに最適化されたテーブルフォーマットを指す概念で、上手く活用することでクエリプランニング、実行性能の最適化、効率的なUpdateやDelete、タイム

                                                データレイクの新しいカタチ:Open Table Formatの紹介 - 流沙河鎮
                                              • Data-Driven A/B Testing を高速に回すための DevOps 基盤

                                                Data-Driven A/B Testing を高速に回すための DevOps 基盤 Low Load, High Return! はじめに みなさん、こんにちは。 データエンジニアリングG CET チームの菅沼です。 普段は、分析基盤の開発や機械学習モデリングなどを担当しています。 弊チームは、「RLSMeetup#7 プランナー・サイエンティスト・エンジニア三位一体!年間十数億稼ぐチームの舞台裏」のレポートにあるように、 一つのチームに複数人のプランナー・データサイエンティスト・エンジニアが在籍しており、 弊社におけるビッグデータを活用して利益創出することを目指したチーム体制となっています。 じゃらんなどの大規模なサービスでは、データ分析によるコンテンツ出し分けやレコメンドシステムの性能評価に A/B テストを用いており、 本稿では、そのようなデータドリブンな A/B テストを高速に

                                                  Data-Driven A/B Testing を高速に回すための DevOps 基盤
                                                • Home

                                                  Build Lakehouses with Delta Lake Delta Lake is an open-source storage framework that enables building a Lakehouse architecture with compute engines including Spark, PrestoDB, Flink, Trino, and Hive and APIs for Scala, Java, Rust, and Python. Get Started

                                                    Home
                                                  • Gunosyでのデータ分析 新卒編 - Gunosyデータ分析ブログ

                                                    はじめに こんにちは、今年の4月に新卒として入社しグノシー事業部に配属されました齊藤です。 自分は現在グノシー事業部でグノシー(アプリ)の分析を専任しています。データ分析部の方はニュースパスやオトクル等複数のアプリを横断的に分析、ロジック開発を担当しています。 今回は各アプリの分析担当がどんなことをやっているのか、2ヶ月間どのような事を学んだかを新卒エンジニアの立場から紹介していこうと思います。もう働き始めてから2ヶ月経ったのか・・・ 分析 分析とだけ書くとやたら広い意味になりますが、主にプロモ指標などを作成、集計し部署の人が見やすい形に整えたり、キャンペーンや特集タブに関する集計、UI変更時のA/Bテスト*1などを行っています。RedashでSQLクエリを書いて可視化したり、以下の記事のようにGASでSlackへの通知を作ったりすることもあります。 data.gunosy.io 分析業務

                                                      Gunosyでのデータ分析 新卒編 - Gunosyデータ分析ブログ
                                                    • データレイクとは

                                                      データレイクは、規模にかかわらず、すべての構造化データと非構造化データを保存できる一元化されたリポジトリです。データをそのままの形で保存できるため、データを構造化しておく必要がありません。また、ダッシュボードや可視化、ビッグデータ処理、リアルタイム分析、機械学習など、さまざまなタイプの分析を実行し、的確な意思決定に役立てることができます。 データからビジネス価値を生み出すことができる企業は、同業他社よりも優れた業績を上げることができます。Aberdeen 社の調査によると、データレイクを実装した企業は、同業他社と比べて本業の収益成長が 9% 上回っています。このようなトップ企業は、ログファイルのほか、クリックストリーム、ソーシャルメディア、インターネットに接続したデバイスからのデータなど、データレイクに保存されている新しい情報源に対して、機械学習などの新しいタイプの分析を実行していました。

                                                        データレイクとは
                                                      • Data Lake ハンズオン

                                                        AWS の Data Lake に関するサービス群を使って、ラムダアーキテクチャの分析パイプラインを作成するハンズオンですRead less

                                                          Data Lake ハンズオン
                                                        • とあるデータ分析/データエンジニアリングの現場からの雑感 - データエンジニアの酩酊日記

                                                          ※基本、酩酊状態でクソみたいな与太話を思いついたまま書き捨ててるだけなのであまり真に受けないようにどうぞよろしく。 僕がここ最近ナリワイとしているのは、大企業でデータ利活用を推進している or しようとしている現場に潜り込んで、データ分析周りの諸々の課題を主に技術面で解決する、という役回り。 といっても、自分が主戦場としているのは技術志向の強い人達が好みそうなGoogleとかメルカリとかリクルートとかヤフーといった自社サービスのテック企業ではなく、普通のユーザー企業に対するIT支援、いわゆるシステムインテグレーションです。 ユーザー企業向けのIT支援の領域では、みなさんが嫌悪している大手SIerが今なお幅を利かせており、ユーザーサイドの生え抜きのエンジニアが技術面含めてプロジェクトを主導したり、メンバーの中に有名なOSSのコントリビューターがいたり、みたいなシチュエーションにはそうお目にか

                                                            とあるデータ分析/データエンジニアリングの現場からの雑感 - データエンジニアの酩酊日記
                                                          • 社内勉強会「Modern Data Stack入門」の内容をブログ化しました - PLAID engineer blog

                                                            プレイドの社内向けに行ったModern Data Stack勉強会の内容が好評だったので、データ基盤に携わる方に向けてModern Data Stackの概要、主要サービス、重要だと思うトレンドをまとめました。

                                                              社内勉強会「Modern Data Stack入門」の内容をブログ化しました - PLAID engineer blog
                                                            • How to Move Beyond a Monolithic Data Lake to a Distributed Data Mesh

                                                              How to Move Beyond a Monolithic Data Lake to a Distributed Data Mesh Many enterprises are investing in their next generation data lake, with the hope of democratizing data at scale to provide business insights and ultimately make automated intelligent decisions. Data platforms based on the data lake architecture have common failure modes that lead to unfulfilled promises at scale. To address these

                                                                How to Move Beyond a Monolithic Data Lake to a Distributed Data Mesh
                                                              • チーム開発のためのデータウェアハウスアーキテクチャ - Retty Tech Blog

                                                                昨日は、西村さんよりAurora移行大全#2 でした。ドキドキの移行が無事成功して嬉しいですね。 engineer.retty.me Retty Advent Calendar も終わりが近づいてきました。 24日目の本日はデータ基盤について紹介します data-platform-meetup.connpass.com 今回の記事は、先日登壇した以下のイベントで発表を行いました。 コミュニティの盛り上がりを感じる良いミートアップだったと思います。 この記事では発表ではお話しできなかったことの補足も含め、 我々のデータ基盤を取り巻く構成と その背景となる考え方について紹介したいと思います。 誰のためのデザイン? データの民主化と基盤開発 Rettyにおけるデータウェアハウジング データ基盤開発の標準化 効果的なプラクティスの導入 データウェアハウシングのための実践的なレイヤ構成 データ置き場

                                                                  チーム開発のためのデータウェアハウスアーキテクチャ - Retty Tech Blog
                                                                • noteの機械学習フローを共通化してレコメンデーションで成果をあげた話|やすけん / yskn67

                                                                  こんにちは.noteの基盤開発グループ機械学習チームに所属している安井です.普段は機械学習を活用したシステムの開発から運用までトータルでおこなっています. noteでは記事の分類やレコメンデーションに機械学習を用いて作成されたモデルが使われています.いくつか例を挙げますと,noteに投稿された記事をカテゴリごとにまとめて見るために,記事をカテゴリごとに機械学習で分類しています.また,”あなたへのおすすめ”としてユーザごとにパーソナライズされたおすすめ記事をとどけるためにも機械学習が活用されています. (図1)noteにおける機械学習の活用箇所それらサービスで活用されている複数の機械学習モデルには記事の内容から分散表現を獲得する似たような仕組みが存在しました.今回はそれらを共通コンポーネントとして切り出し,分散表現を推論・保存まで行う仕組みを構築しました.また,その分散表現を活用したレコメン

                                                                    noteの機械学習フローを共通化してレコメンデーションで成果をあげた話|やすけん / yskn67
                                                                  • Python: Apache Parquet フォーマットを扱ってみる - CUBE SUGAR CONTAINER

                                                                    今回は、最近知った Apache Parquet フォーマットというものを Python で扱ってみる。 これは、データエンジニアリングなどの領域でデータを永続化するのに使うフォーマットになっている。 具体的には、データセットの配布や異なるコンポーネント間でのデータ交換がユースケースとして考えられる。 これまで、同様のユースケースには CSV や Python の Pickle フォーマットが用いられていた。 ただ、CSV は行志向のフォーマットなので不要なカラムであっても必ず読まなければいけないという問題点がある。 また Pickle の場合は、それに加えて扱えるのが Python のコンポーネントに限られてしまう。 そこで登場するのが今回紹介する Apache Parquet フォーマットということらしい。 Apache Parquet フォーマットは Apache Hadoop エコ

                                                                      Python: Apache Parquet フォーマットを扱ってみる - CUBE SUGAR CONTAINER
                                                                    • Home Page | Pachyderm

                                                                      import cv2 import numpy as np from matplotlib import pyplot as plt import os # edges.py reads an image and outputs transformed image def make_edges(image): img = cv2.imread(image) tail = os.path.split(image)[1] edges = cv2.Canny(img,100,200) plt.imsave(os.path.join("/pfs/out", os.path.splitext(tail)[0]+'.png?as=webp'), edges, cmap = 'gray') # walk images directory and call make_edges on every file

                                                                        Home Page | Pachyderm
                                                                      • AWS上でのデータレイク構築の概要を紹介している『Building a Data Lake on AWS』を読んでみた | DevelopersIO

                                                                        先日、『データレイク』で情報を調べてみたら『Building a Data Lake on AWS』というeBookの資料(PDF)がある事を知りました。比較的ボリューム短めで読み易かったので、当エントリではその読んでみた内容をご紹介してみたいと思います。 Data Lake on AWS 『データレイク』とは何か 今日、組織では様々なソースからなる複数種別のデータを管理する業務が行われています。大規模なデータボリューム、様々なデータの種類に直面し、組織はタイムリーに洞察力を組織内に提供する為に、従来のデータ管理システム以上の敏捷性と柔軟性を備えるデータストレージと分析ソリューションを必要としています。 "データレイク"は、最近注目されるようになってきた新しい方法です。これら課題の多くに対応するデータを格納し、分析する事が出来ます。データレイクを構築する事で、組織は構造化されたもの、非構造

                                                                          AWS上でのデータレイク構築の概要を紹介している『Building a Data Lake on AWS』を読んでみた | DevelopersIO
                                                                        • [AWS Black Belt Online Seminar] AWS で構築するデータレイク基盤のアーキテクチャ 資料及び QA 公開 | Amazon Web Services

                                                                          Amazon Web Services ブログ [AWS Black Belt Online Seminar] AWS で構築するデータレイク基盤のアーキテクチャ 資料及び QA 公開 こんにちは、マーケティングの鬼形です。 先日(2018/4/24)開催しました AWS Black Belt Online Seminar「AWS で構築するデータレイク基盤のアーキテクチャ」の資料を公開致しました。当日、参加者の皆様から頂いた QA の一部についても共有しております。 20180424 AWS Black Belt Online Seminar AWSで構築するデータレイク基盤のアーキテクチャ PDF 録画(オンデマンドセミナー) Q1. データスチュワードは、DataLake の TIer 1,2,3 および DWH 全てを定義・管理するイメージでしょうか? A1. 企業ごとに運用事情は

                                                                            [AWS Black Belt Online Seminar] AWS で構築するデータレイク基盤のアーキテクチャ 資料及び QA 公開 | Amazon Web Services
                                                                          • LambdaのLayer機能活用してpandas,pyarrow,s3fs使ってParquet変換する簡易ETL処理を実装する - YOMON8.NET

                                                                            小さなファイルのETLにGlueを使うのがもったいなかったので、Pandasやpyarrowで実装しました。 Lambda Layerにpandasとpyarrowを追加 Layerに登録するパッケージを作成 パッケージをアップロード Lambdaのコード エラー対応 参考 Lambda Layerにpandasとpyarrowを追加 Layerに登録するパッケージを作成 今回利用するのはpandasとpyarrow、s3fsなのですが少し工夫が必要でした。 3つを全てを一つのZIPに纏めるとLambda Layerの50MBの制限にかかってしまいます。 3つにZIPを分割するとLambdaにレイヤー追加する時の制限にかかってしまいます。 Layers consume more than the available size of 262144000 bytes 大きなnumpyなどを共有

                                                                              LambdaのLayer機能活用してpandas,pyarrow,s3fs使ってParquet変換する簡易ETL処理を実装する - YOMON8.NET
                                                                            • [AWS Black Belt Online Seminar] データレイク入門: AWSで様々な規模のデータレイクを分析する効率的な方法 資料及び QA 公開 | Amazon Web Services

                                                                              Amazon Web Services ブログ [AWS Black Belt Online Seminar] データレイク入門: AWSで様々な規模のデータレイクを分析する効率的な方法 資料及び QA 公開 こんにちは、マーケティングの鬼形です。 先日 (2018/6/19) 開催しました AWS Black Belt Online Seminar「データレイク入門: AWSで様々な規模のデータレイクを分析する効率的な方法」の資料を公開しました。当日、参加者の皆様から頂いた QA の一部についても共有しております。 20180619 AWS Black Belt Online Seminar データレイク入門: AWSで様々な規模のデータレイクを分析する効率的な方法 PDF Q. RDSからGlueでData Catalogを作成する際、負荷などかかるのでしょうか?分析用にユーザ操作から

                                                                                [AWS Black Belt Online Seminar] データレイク入門: AWSで様々な規模のデータレイクを分析する効率的な方法 資料及び QA 公開 | Amazon Web Services
                                                                              • Data Meshとは何か?

                                                                                Aboutこの記事は、「Data Mesh」について書かれたものです。参考文献に記載された内容をベースとして、個人的な感想や意見を加えたものです。 事例ではありません。 TL;DRData Mesh はデータ基盤の新しいアーキテクチャ原則であり、現在主流である中央集中型のデータ基盤と、そこから起こる問題への解決策です。Data Mesh はマイクロサービスと DDD から着想を得ており、データの生成・管理・提供を中央ではなくドメインごとに管理します。管理が分散することでスケーラビリティ・自律性を確保しつつ、統一的なガバナンスを保持できるアイデアです。主な想定読者Data Mesh が気になる方データ基盤を開発・保守するデータエンジニアデータマネジメントをより洗練させたいと感じている方Data Mesh の登場した背景 (WHY)詳細に入る前に、Data Mesh が前提に置く現代のデータ基

                                                                                  Data Meshとは何か?
                                                                                • DevelopersIO 2022 Snowflakeトーク&ディスカッション~Snowflake Summit’22の最新情報を現地参戦できなかった二人のData Superheroと一緒に学ぼう!#devio2022 | DevelopersIO

                                                                                  さがらです。 DevelopersIO 2022 〜技術で心を揺さぶる3日間〜の2日目、2022年7月27日にSnowflakeトーク&ディスカッション~Snowflake Summit'22の最新情報を現地参戦できなかった二人のData Superheroと一緒に学ぼう!というタイトルで、Snowflake社のKTさん、弊社クラスメソッドの甲木、さがら、の3人で登壇しました。 本ブログではこの登壇内容について、紹介のあったSnowflakeの新機能を中心にまとめたいと思います。 登壇概要 概要 Snowflake社の最大のユーザーカンファレンスイベントである「Snowflake Summit」がラスベガスにて2022年6月13~16日の日程で開催されました。本セッションではSnowflake社のKT氏をお招きし、イベントに現地参戦できなかったData Supeheroesであるクラスメソ

                                                                                    DevelopersIO 2022 Snowflakeトーク&ディスカッション~Snowflake Summit’22の最新情報を現地参戦できなかった二人のData Superheroと一緒に学ぼう!#devio2022 | DevelopersIO