タグ

データに関するswfzのブックマーク (10)

  • 複数の企業でデータエンジニアとして求められたスキル - yasuhisa's blog

    最近「ああ、これ前職でも前々職でもやったことあるなぁ」という仕事があった。データエンジニア(やその関連職種)として働き始めて約5年、3社でフルタイムとして働いてきて「このスキルは業界や組織規模が変わってもデータエンジニアとしてスキルを求められることが多いな」と感じたものをまとめてみることにした。棚卸し的な意味はあるが、特に転職用などではないです。 前提 どこでも必要とされたスキル データマネジメントに関する概要レベルの知識と実行力 セキュリティや法令に関する知識 事業ドメインに関する興味関心 他職種とのコミュニケーション能力 コスト管理 / コスト削減のスキル ソフトウェアエンジニアとしてのスキル DataOpsやアラートのハンドリング能力 分析用のSQLを書く力 古いテーブルやデータパイプラインを置き換えていくスキルや胆力 あるとやりやすいスキル 関連部署の動きを何となく把握しておく力

    複数の企業でデータエンジニアとして求められたスキル - yasuhisa's blog
  • データ民主化基盤のSQLコーディング規約|Ryo YOSHI

    こんにちは。マネーフォワード分析推進室の吉住です。 分析推進室では、社内の多くの人が意思決定をする際に見たい情報にハードルなくアクセスできる状態を継続的に実現する「データの民主化」を目指しています。そのために、BigQueryでカジュアルに分析できる基盤の整備に取り組んでいます。(詳しくは、以下の記事を参照ください) 元々は、主に管理会計に分析基盤を利用するため、SSOT(Single Source of Truth: 信頼のおける唯一の情報源)というデータ品質の概念を重要視してきましたが、分析基盤の利用者が増加すると品質の担保が難しくなります。そこで、BigQueryのカジュアルな分析基盤におけるSQLコーディング規約を整理しました。 この記事で、その分析基盤におけるマネーフォワードのSQLコーディング規約をご紹介します。 参考資料SQLコーディング規約は以下の資料を参考にしています。

    データ民主化基盤のSQLコーディング規約|Ryo YOSHI
  • 家のいろいろな数値を計測する

    家のいろいろな数値を計測する おうちHack勉強会

    家のいろいろな数値を計測する
  • Cloud Workflowsを使用してGCSのデータをBigQueryへロードする - RHYTHM TECH BLOG

    こんにちは、香田です。 今回はCloud Workflowsを使用してGCSのデータをBigQueryへロードする方法について紹介していきます。 Cloud Workflowsの概要についてはこちらを参考にしてみてください。 GCSに保存されているデータの構成 はじめにBigQueryへロードするGCSのデータについて説明しておきます。 利用するGCSのデータですが、下記のように日付ごとのフォルダにデータが保存される構成を想定しています。 gs://sample-workflows ├─ 2020-06-05 │ └── data.csv ├─ 2020-06-06 │ └── data.csv └─ 2020-06-07 └── data.csv customer_id,first_name,last_name,email,create_date 80,Marilyn,Ross,mari

    Cloud Workflowsを使用してGCSのデータをBigQueryへロードする - RHYTHM TECH BLOG
  • Google AnalyticsのBigQuery Exportを使って検索ログデータ分析基盤を構築した - エムスリーテックブログ

    エムスリーエンジニアリンググループ AI機械学習チームでソフトウェアエンジニアをしている中村(@po3rin) です。 好きな言語はGo仕事では主に検索周りを担当しています。 Overview 医師に質問ができるサービスであるAskDoctorsではユーザーが質問を検索できる機能があり、今回は検索改善タスクのために検索ログデータ分析基盤を構築したお話をします。これにより改善サイクルを回せるようになったり、検索ログを使った各種アルゴリズムが利用可能になりました。 データ基盤構築では他チームとの連携が必要不可欠であり、コミュニケーションで工夫した点などもお話できればと思います。 Overview なぜ検索ログデータ分析基盤が必要なのか 検索を監視して改善サイクルを回したい 各種アルゴリズムに利用できるデータを取得したい データ分析に利用したい データアーキテクチャを書き出す イベントとデー

    Google AnalyticsのBigQuery Exportを使って検索ログデータ分析基盤を構築した - エムスリーテックブログ
  • AWS DevOps Monitoring Dashboard を使ってみました | DevelopersIO

    いわさです。 2021年3月に AWS DevOps Monitoring Dashboardが一般提供されました。 DevOpsが好きなので試してみたいと思っていたのですがなかなか触れず…ようやく試すことが出来ました。 AWS DevOps Monitoring Dashboard とは 新規AWSサービスの提供が開始されたわけではありません。 これは、AWSソリューションライブラリより提供されるソリューションテンプレートです。 実体はCloudFormationテンプレートで、以下の構成をテンプレートから作成することが可能です。 テンプレートでは、CI/CDパイプライン自体は作成してくれません。 また、QuickSight部分はネストされた別テンプレートから作成してくれますが、Synthetics Canaryについては別で追加が必要です。(テンプレート用意されています) これらを使

    AWS DevOps Monitoring Dashboard を使ってみました | DevelopersIO
  • データ分析基盤構築の肝は、データレイクとDWHの分離 - NRIネットコムBlog

    こんにちは佐々木です。 いろいろなところで口を酸っぱくして言っているのは、データレイクとDWHを分離しろと。とりあえずDWHに放り込むという考えはあるけど、DWHに入れる時点でデータの整形が行われて、情報の欠損がでてくる。だから、その前にデータレイクに生のままに入れること— Takuro SASAKI (@dkfj) 2021年5月1日 データレイクとDWHの分離について呟いたら、それなりの反響を頂きました。せっかくの機会なので、もう少ししっかりと解説してみます。何故、データレイクとDWHを分離する必要があるのか、格納するデータの構造と、データレイク・DWHの役割の観点から考えてみましょう。まずは、データの種類として、構造化データや非構造化データの説明をします。その次に、データレイクとDWHなどの用語・役割の説明をし、最後にアーキテクチャを考えてみます。 構造化データと半構造化データ、非構

    データ分析基盤構築の肝は、データレイクとDWHの分離 - NRIネットコムBlog
  • dbtとDataformを比較し、dbtを使うことにした

    AuthorsTwitter@__Attsun__Published onWednesday, February 10, 2021 最近、業務で DWH / Datamart の整備やデータ品質の担保を効率的に行いたくなる事情があり、調査したところ dbt と Dataform がツールとして有力そうだったので、比較してみました。 TL;DRdbt は機能が充実しており、カスタマイズするポイントも多く様々な要件に対応できそうです。反面、理解し使いこなすための学習コストがかかります。Dataform は Web ビューによる開発体験が非常に良いです。機能もほとんどはわかりやすく、迷うことも少ないです。一方、dbt に比較して融通はききづらいです。どちらも十分な機能は備えている素晴らしいツールだと感じるので、どちらが良いかは要求や組織の置かれた状況次第でしょう。私の所属する会社 (Ubie,

    dbtとDataformを比較し、dbtを使うことにした
  • NoSQLデータモデリング技法

    NoSQLデータモデリング技法.markdown #NoSQLデータモデリング技法 原文:NoSQL Data Modeling Techniques « Highly Scalable Blog I translated this article for study. contact matope[dot]ono[gmail] if any problem. NoSQLデータベースはスケーラビリティ、パフォーマンス、一貫性といった様々な非機能要件から比較される。NoSQLのこの側面は実践と理論の両面からよく研究されている。ある種の非機能特性はNoSQLを利用する主な動機であり、NoSQLシステムによく適用されるCAP定理がそうであるように分散システムの基的原則だからだ。一方で、NoSQLデータモデリングはあまり研究されておらず、リレーショナルデータベースに見られるようなシステマティック

    NoSQLデータモデリング技法
  • データ可視化チートシート - Qiita

    はじめに データ可視化では、データの性質によって概ねどのような可視化ができるのか決まる場合があります。データ可視化は探索的なデータ分析をする場合や、データ分析した結果を誰かに伝えるために重要であり、その時々の目的に合わせた可視化を選択するべきですが、そもそも可視化手法の特性とデータの性質があっていないとあまり効果がない場合があります。筆者が業務においてデータ可視化する際にデータの性質から可視化手法を導く場合の道のりを整理し、チートシートとしてまとめてみました。 もちろん、調べたい・表現したい内容によって自分で自由に選んでもまったく問題無いですが、データを前にして「どうやって可視化しよう?」と悩んでいる方の一助になれば幸いです。 また、この記事では主に一般的な可視化(グラフ)手法にフォーカスしており、イラスト的な要素を含むインフォグラフィックなどについては触れていません。(が、だいたいのデー

    データ可視化チートシート - Qiita
  • 1