タグ

gakkiyのブックマーク (7,542)

  • Pub/Sub の BigQuery Change Data Capture 機能について

    1. はじめに こんにちは、クラウドエース データML ディビジョンの木村です。 クラウドエースの IT エンジニアリングを担うシステム開発部の中で、特にデータ基盤構築・分析基盤構築からデータ分析までを含む一貫したデータ課題の解決を専門とするのがデータ ML ディビジョンです。 データ ML ディビジョンでは活動の一環として、毎週 Google Cloud の新規リリースを調査・発表し、データ領域のプロダクトのキャッチアップをしています。その中でも重要と考えるリリースをページのように記事として公開しています。 今回紹介するリリースは、Pub/Sub の BigQuery サブスクリプションにおける BigQuery の変更データキャプチャ(CDC) についてです。 BigQuery の CDC では、ストリーミングされた変更を処理し、既存のデータに適用することで BigQuery テーブ

    Pub/Sub の BigQuery Change Data Capture 機能について
  • BigQuery アクセス権設定まとめ & グループ設計例 - Qiita

    2021年時点でも、そこそこ参照されているため、BigQuery Advent Calendar 2021 25日目の記事としてアップデートします。 BigQuery リソースのアクセス権設定は難しいですが、データ資産の保護と活用のバランスを自由に設計できます。組織に合わせたアクセス権をうまく設定 & 設計して、データ資産を活かしていきたいですね。 稿では、アクセス権の設定方法と、叩き台になりそうな具体的な設計例について述べます。 アクセス権の設定方法 BigQuery リソースのアクセス権設定にあたり、覚えておく軸は 3 つです。 具体的な人間やアカウントを示すプリンシパル、権限範囲の対象(プロジェクトやデータセット)を示す対象レイヤ、具体的な一つ一つの権限、これらをおさえておけば、BigQuery の権限設定は安心です。 プリンシパルは Google アカウントを筆頭に 7 種類 以

    BigQuery アクセス権設定まとめ & グループ設計例 - Qiita
    gakkiy
    gakkiy 2024/05/15
  • AIフレンドリーなドキュメンテーション

    About ようこそプロジェクトに貢献するにはGeneral コード補完コメントからコードを生成コードからコメントの自動生成GitHub CopilotとのクイックQ&A正規表現プログラミング言語間の翻訳タイプヒンティング構造化データからのオブジェクト生成コードからドキュメントへClient Side Tips Copilot スニペットハンドリングGitHub Copilot ショートカット定義に移動便利なファイルのピン留めDesign Patterns AI が理解可能な命名規則一貫性のあるコーディングスタイルハイレベルアーキテクチャを先に小さなコードチャンクで作業するコンテキストレス・アーキテクチャ微細な OSS 依存関係の排除Collaboration AIフレンドリーなドキュメンテーションプロンプトとコード生成プロセスのコーチングTesting ユニットテストの作成テストコード生

    gakkiy
    gakkiy 2024/05/09
  • dbt Core を GCPのCloud Run JobsやBatchで実行する方法

    はじめに dbtを用いたデータ基盤運用がお盛んになったなと個人的に感じます。 よく記事で見かけるのが、DWH製品としてSnowFlake, そしてデータ変換にdbt Cloudでしょうか。 そして DWH製品としてSnowFlake, そしてデータ変換にdbt core を ECS Fargateに乗せてサーバレスにやる方法も最近記事で見ました。 あとは dbt core を AirFlow(Cloud ComposerやMWAA含む)で実行する方法もしばしばみかけます。 しかしどれも自分には、あまりFitしませんでした。なぜならば求めている要件としては以下だからです BigQueryの案件が多いのでBigQueryにクエリ投げれればOK 1日1回のバッチ回せれば良い スケジュール設定できればOK dbtドキュメントもみたい 無課金or微課金(ストレージ料やクエリスキャン料除く)ですませた

    dbt Core を GCPのCloud Run JobsやBatchで実行する方法
    gakkiy
    gakkiy 2024/04/25
  • Cloud Runジョブのオーバーライド機能で実現した単発処理群管理のための快適な環境 - バイセル Tech Blog

    はじめに こちらは バイセルテクノロジーズ Advent Calendar 2023 の5日目の記事です。 前日の記事は野口さんの「手軽にElasticsearchとRDBの型不整合を防ごう! ~ dynamic templateを使った実装例 ~」でした。 こんにちは、開発2部の馬場です。 アプリケーションの開発や運用において、例えばSQLを流してのデータ修正など何かしらスポットで単発処理を行いたいことがあると思います。 今回私たちは、新規開発中のプロダクトへのデータ連携処理を実行していく必要がありました。 そこで、データ連携をはじめ任意の処理を自由なタイミングで実行できる基盤を用意することにしました。 この記事ではGoogle Cloudの「Cloud Runジョブのオーバーライド機能」を活用し、単発処理群を快適に管理する方法についてご紹介します。 目次 はじめに 目次 背景 技術選定

    Cloud Runジョブのオーバーライド機能で実現した単発処理群管理のための快適な環境 - バイセル Tech Blog
    gakkiy
    gakkiy 2024/04/24
  • アマゾンジャパン合同会社協賛セミナー「利益に貢献するDX」

    Businessプライムメンバーは、購入を簡素化し、発注を合理化し、コストを削減するためのツールと機能により多くアクセスできます。 Businessプライムの詳細はこちら

    アマゾンジャパン合同会社協賛セミナー「利益に貢献するDX」
    gakkiy
    gakkiy 2024/04/04
    このおじさん面白い
  • 2023年度版「データサイエンティスト スキルチェックリストver.5」および「データサイエンス領域タスクリスト ver.4」を発表ニュース|一般社団法人データサイエンティスト協会

    HOME ニュース プレスリリースの記事一覧 2023年度版「データサイエンティスト スキルチェックリストver.5」および「データサイエンス領域タスクリスト ver.4」を発表 2023年度版「データサイエンティスト スキルチェックリストver.5」および「データサイエンス領域タスクリスト ver.4」を発表 このたび、データサイエンティスト協会 スキル定義委員会(委員長:安宅 和人、副委員長:佐伯 諭)は、10月20日(金)に開催した「データサイエンティスト協会10thシンポジウム」内において発表した、データサイエンティストに必要とされるスキルをまとめた「データサイエンティスト スキルチェックリスト」の第5版を公開いたしました。 内容は、2021年に第4版として公開したデータサイエンティストの「ミッション、スキルセット、定義、スキルレベル」および「スキルチェックリスト」を、現在のビジ

    2023年度版「データサイエンティスト スキルチェックリストver.5」および「データサイエンス領域タスクリスト ver.4」を発表ニュース|一般社団法人データサイエンティスト協会
  • dbt導入によるデータマート整備 - ZOZO TECH BLOG

    はじめに こんにちは、ML・データ部推薦基盤ブロックの栁澤(@i_125)です。私はZOZOのデータ基盤におけるデータガバナンス強化を実現するために、Analytics Engineerとして複数の部門を跨ぐプロジェクトチームに参加しています。記事ではZOZOにおけるデータガバナンス上の課題と、その課題の解決策の1つとしてdbtを導入した話をご紹介します。 目次 はじめに 目次 背景 課題 データマートの乱立 集計定義のばらつき 依存関係の洗い出しが困難 データモデリングツールの比較検討 データ変換に関する要件 データモデリングツールの選定 レイヤリングによる責務の分離 実装方針 今後の展望 dbtモデルを開発する上で工夫したこと 環境の分離 背景 工夫したこと ダミーデータセットの生成 背景 工夫したこと SQLFluffを使ったフォーマット統一 依存モデルを含むテスト dbt Doc

    dbt導入によるデータマート整備 - ZOZO TECH BLOG
    gakkiy
    gakkiy 2024/03/19
  • Microsoft Entra ID(旧 Azure AD)とは?要点を整理!基礎から知ろう | クラウド構築・運用ノウハウ | サーバ運用保守・運用監視なら JIG-SAW OPS

  • データ基盤 Knile のプロダクトマネジメントの取り組み

    こんにちは、データエンジニアの多田です。 私は現在、データ利活用基盤「Knile(発音は “ナイル")」の開発をしています。 今回は、私が Knile チームでスクラムマスターからプロダクトマネージャーへと役割が推移していく中で取り組んできた、チーム開発の課題とその対策について紹介いたします。 Knile とは Knile とは、以前 CET と呼ばれていたチームが開発するデータ利活用基盤です。 Knile のビジョンや設計思想については、最近行われた社外への登壇資料があるので、ご覧ください。 第14回MLOps勉強会 CloudNative Days Tokyo 2021 時間軸で取り組むチーム運営 この記事では以下の 4 つのサイクルに分けて取り組みを紹介します。 長期計画 半期 四半期 スプリント(2 週間) チーム運営のサイクル これは実際に業務の中で考える思考の順番でもあります。

    データ基盤 Knile のプロダクトマネジメントの取り組み
  • 【負荷テスト入門編】6つの負荷テストツール(サービス)を解説!|SHIFT Group 技術ブログ|note

    はじめにこんにちは。SHIFT DAAE(ダーエ)開発グループ所属のNogamiです。 皆さんは、負荷テストを行う際に、普段どんなツールを使われていますか? 今回は、システム開発に欠かせない「負荷テスト」に使用する、6つの負荷テストツール(サービス)について解説させていただきます! 6つの負荷テストツール(サービス)1.「JMeter」「JMeter」は負荷テストツールを検討する際に、必ずといっていいほど名前が挙がるオープンソースのテストツールです。 ローカル環境にインストールすることができ、テストシナリオの作成やテスト実行を行うことができます。 引用:Apache JMeter テストシナリオは、コーディング不要で、GUI上で作成することができます。 「JMeter」は20年以上に渡り利用されているツールであり、数多くのプラグインや関連サービスが存在します。 多数のプラグインで機能を拡張

    【負荷テスト入門編】6つの負荷テストツール(サービス)を解説!|SHIFT Group 技術ブログ|note
  • https://moaw.dev/workshop/github-copilot-java/

    gakkiy
    gakkiy 2024/01/30
  • Why UUID7 is better than UUID4 as clustered index in RDBMS

    In the Introduction To Database Indexing Article, We discussed database indexes, Their type, representations, and use cases. In this article, we will experiment to check which performs better as a clustered index. UUID version 4 vs UUID version 7 or 6. Then we will discuss why that happened. What is UUID version 4?UUID, an acronym for Universally Unique Identifier, is a 128-bit identifier represen

    Why UUID7 is better than UUID4 as clustered index in RDBMS
  • 企業の財務情報を自動収集したい!

    記事の目的 プログラミングを学習しはじめたら、誰しも一度は「株の自動売買でっていきたい!」のようなことを考えるのではないでしょうか。そのための第一歩として、企業の財務情報を収集するのはとても大切ですよね(あなたがファンダメンタルズ分析を信じるならば、ですが...)。そこで記事では、Python を使って、企業の財務情報を取得する 方法についてお伝えしたいと思います。 また、記事で実装したソースコードについては GitHub にまとめましたので必要に応じてご利用ください。当記事のコードは全て Google Colaboratory で実装しており、2023年4月12日現在正常に動作することを確認しております。 財務情報の取得方法 良いニュースと悪いニュース さて、早速財務情報の取得方法について伝授していきますが、ここで良いニュースと悪いニュースがあります。何やら不穏ですね。 まずは良

    企業の財務情報を自動収集したい!
  • 会社名の名寄せ/正規化を行うExcelマクロを作ってみた - Qiita

    多数の企業・団体に対して営業活動をしている企業であれば、どこでも抱えている問題として、顧客企業/取引先企業の「名寄せ」をどのように行うか、ということがあります。たとえば「ABC(株)」と「ABC株式会社」は同じ会社として扱わなければならないですし、全角大文字で「ABC(株)」と表記される場合もあります。場合によっては「エー・ビー・シー株式会社」も同じ会社名として扱わなければなりません。CRMを利用していても、この名寄せをうまくやってくれる仕組みが組み込まれていない場合が意外と多いのです。 そんな、どこの企業でも必要な変換ロジックなのですが、ネット上を探してみると、このロジックを実用的なレベルできちんと解説している情報があまりないことに気づきました。そこで、この記事では、この古くからあるニーズを、古くからあり誰でも持っているExcelマクロを使って解決する方法を紹介します。 名寄せの概要 企

    会社名の名寄せ/正規化を行うExcelマクロを作ってみた - Qiita
  • 中途入社や部署異動で来た新メンバーを活躍しづらくするアンチパターン - Qiita

    1. はじめに ソフトウェア開発のチームに、新しいメンバーが入ってくることはよくあります。 以前に新卒社員がチーム入ってきた場合の育成方法を紹介しました(こちら)。 今回は、新卒社員ではなく、他の会社から中途入社か同じ会社の部署異動で来る新メンバーの話です。 (エンジニアが数百人などで規模が大きい会社の場合、部署が違うと仕事のやり方が全く変わる場合があるので、今回は中途入社と他の部署からの異動を同じように「新メンバー」として扱います) 会社や部署が変わると仕事のやり方が大きく変わるため、仕事のやり方に戸惑うことが多いと思います。 稿では、そのような「新メンバー」を活躍しづらくしてしまうアンチパターンとその対策を紹介します。 2. 中途入社や部署異動で来た新メンバーが適応することの困難さを理解する 中途入社や部署異動で来た新メンバーが組織に適応することは、新卒社員のそれとは別の難しさがあり

    中途入社や部署異動で来た新メンバーを活躍しづらくするアンチパターン - Qiita
    gakkiy
    gakkiy 2023/12/04
  • ハンズオン環境の構築|dbtとAWSとサーバレス

    ハンズオン環境の構築|dbtとAWSとサーバレス
    gakkiy
    gakkiy 2023/11/01
  • 【Prismaとテストシリーズ】PrismaでFactoryBot的にテストデータを作成する方法を調べてみた | DevelopersIO

    「テストのためのデータを作成するのもきついな」「ヘルパー関数を用意するかFactoryBotのようなライブラリを使えたら嬉しいのに」。そんなモチベーションで調べてみました。結論から言うと先人を参考にヘルパーを作ってみました。 こんにちは。AWS事業部モダンアプリケーションコンサルティング部に所属している今泉(@bun76235104)です。 PrismaはTypeScriptでも利用できるORMの一つです。 前回、前々回と「Prismaでテストする際にどうすれば快適にテストに集中できるか」ということを考えてみました。 今回はこれに加えて、「テストをするときのデータ作成を楽にしたい問題」について考えてみました。 さっそくまとめ 調べてみた方法と検証してみた方法 調査してみた方法 既存のライブラリを使う方法 Integrated testing with Prisma.| by Yosuke

    【Prismaとテストシリーズ】PrismaでFactoryBot的にテストデータを作成する方法を調べてみた | DevelopersIO
    gakkiy
    gakkiy 2023/10/03
  • 情シスとは?求められる役割やスキル、社内SEとの違いについて解説 | 情シスマン

    企業にはさまざまな部署が存在し、各々業務をこなしています。 情シスもそんな企業内に存在する部署のひとつ。かつては電算室と呼ばれ、企業のコンピューターシステムの開発、保守などを担ってきた情シス。ITが企業の成長戦略に欠かせない技術となってからは、求められる情シスの役割も大きく変わりました。 ITが売上に直結しない企業だと経費削減対象とされがちだった情シスですが、現在はどのように変わったのでしょうか。今回は情シスの置かれた現状を把握するとともに、情シスの役割と将来について解説していきます。 情シスとは「情報システム部」の略であり、情報システム部とは企業が業務で使用するネットワークそのものや、ルータやPCなどのIT機器、業務システムなどを構築、運用する部署です。 また、情報システムとは日々の業務で必要な情報の記録、処理、伝達など、大量の情報を扱う仕組みのことで、大きく2種類に分けられます。 ひと

    情シスとは?求められる役割やスキル、社内SEとの違いについて解説 | 情シスマン
    gakkiy
    gakkiy 2023/10/03
  • PrismaのMigrationをAWS Lambdaで実行する - Qiita

    はじめに TypeScript用のORMであるPrismaは、DBのスキーマをMigrationという方法で管理することができる。 ActiveRecordのMigrationとよく似ており、CREATE/ALTER TABLEのSQLクエリを順次適用していく感じのもの。 Migrationは、DBと疎通している環境から prisma migrate というコマンドを打つことで適用できる。 記事では、このPrismaのMigrationをAWS Lambdaでサーバーレスに実行する方法を紹介する。 方法 大まかなアーキテクチャは下図。 なお記事はDBAWS上にあることを前提としているが、他のクラウドでも同様の方法は取れるはず。 実際のコードは、こちらのリポジトリを参照。 Migrationを実行するLambdaのコードの抜粋は下記。 Prismaには現状コードからMigrationコ

    PrismaのMigrationをAWS Lambdaで実行する - Qiita
    gakkiy
    gakkiy 2023/10/03