タグ

syou6162のブックマーク (9,419)

  • データ基盤のためのリーダブルSQL

    これは何? 私tenajimaがデータ基盤のパイプラインを作るとき、レビューするときに意識している点を言語化したものです データ基盤を作る上での考え方の一つに役立てていただければ幸いです この記事の前提 dbtを使ったデータ基盤構築を念頭に置いて書いています、dbtの記法が出てきます CTEsが使える環境を想定しています 記事内でデータエンジニアもアナリティクスエンジニアも総称してデータエンジニアと呼んでいます データ基盤を「使う側」のクエリと「作る側」のクエリの違い 最近ではファーストキャリアからデータエンジニアの方も出てきているかもしれませんが、データサイエンティスト、アナリスト、ソフトウェアエンジニアを経験してデータエンジニアを行っている人が一般的と考えています。 特にデータサイエンティスト、アナリストからデータエンジニアへの転向は私の周りでは多いように感じており、その方達は(過去の

    データ基盤のためのリーダブルSQL
    syou6162
    syou6162 2024/05/21
  • DuckDBでお手軽!データフェデレーション - Techtouch Developers Blog

    tl;dr はじめに DuckDB とは DuckDB では何が読めるのか 使ってみる S3 上のJSON を読んでみる リレーショナルデータベース 他ツールではなく DuckDB を使うメリット しくじりポイント (特にリリースされたばかりの)バージョンには気をつける S3 のオブジェクト数が多い場合不都合がありがち スレッドの調整が必要な場合も Redshift には未対応 終わりに 付録 MySQL のデータを読み込む例の MySQL 側の準備 tl;dr DuckDB 便利だよ。分析以外でも使えるよ 色々な場所のデータを閲覧・結合できるよ。標準SQLも使えるよ ただし、細かい落とし穴は色々あるので気をつけてね はじめに2023年4月にデータエンジニアとして入社したmin(@not_rogue)です。暖かくなるにつれ、YouTube で見た南伊豆ロングトレイル | 松崎町に行く機運が

    DuckDBでお手軽!データフェデレーション - Techtouch Developers Blog
    syou6162
    syou6162 2024/05/20
  • 成長の為にアウトプットがなぜ必要なのか。mattn氏が語る持続的なアウトプットのススメ

    成長の為にアウトプットがなぜ必要なのか。mattn氏が語る持続的なアウトプットのススメ 2024年5月16日 mattn 大学卒業後、ソフトウェアハウスやSIerなどでソフトウェア開発に携わる。vi派生のテキストエディタVimの日語化やプラグイン、Go言語などでOSS(オープンソースソフトウェア)の開発・コミュニティ運営に参加し、2019年からGoogle Developers Expert。2021〜2023GitHub Stars。著書に『みんなのGo言語』(2016年、2019年に改訂2版、技術評論社、共著)、『Go 言語プログラミングエッセンス』(2023年、技術評論社、単著)がある。関西在住。 X:@mattn_jp GitHub

    成長の為にアウトプットがなぜ必要なのか。mattn氏が語る持続的なアウトプットのススメ
    syou6162
    syou6162 2024/05/17
    mattnさんのOSS活動、マジですごいからな...
  • ココイチはもはや高級カレー?「トッピング付き1500円超え」でも大繁盛のワケ

    1979年生まれ。京都大学経済学部卒業。国会議員秘書を経てプレジデント社へ入社、プレジデント編集部配属。経済誌としては当時最年少でプレジデント編集長就任(2020年1月)。2021年7月に独立。現在に至る。 Twitter → https://twitter.com/ogurapunk CONTACT → https://k-ogura.jp/contact/ 「超一流」の流儀 ビジネス界を中心に各界の「超一流」の言動にスポットを当て、ビジネスパーソンの仕事に生かせる「超一流ならではの流儀」をお届けする。 バックナンバー一覧 カレーハウスCoCo壱番屋で働く22歳のアルバイトが、ココイチのフランチャイズ店を25店舗経営する「スカイスクレイパー」の新社長に抜擢され、大きな反響を呼んでいる。決して「安い」とは言えないココイチだが、なぜここまで繁盛しているのか? ココイチに息づく店舗経営のキモを

    ココイチはもはや高級カレー?「トッピング付き1500円超え」でも大繁盛のワケ
    syou6162
    syou6162 2024/05/13
    うまいし、品質安定してるから結構好きです
  • Data Contract CLI から考える Data Contracts ファーストのデータパイプラインの未来

    このポストについて#Data Contract CLI を触ってみたところ、面白かったのとこれからのデータパイプライン開発について思うところがあったので書いてみる。 Data Contract CLI とは?#datacontract/datacontract-cli Data Contract CLI は data contracts を運用するためのオープンソースのコマンドラインツールである。 data contracts の概念については以前の記事で詳しく書いているのでそちらをご参考いただければと。 ただしこちらの記事は1年前のものであり、今回取り上げる Data Contract CLI の登場などを含めて現在では data contracts を取り巻く状況も変わっている可能性があることに注意。 Data Contract CLI は Python で開発されており、pip でイ

    Data Contract CLI から考える Data Contracts ファーストのデータパイプラインの未来
    syou6162
    syou6162 2024/05/09
  • ディメンショナルモデリング勉強会を実施しました - 10X Product Blog

    データ基盤チームに所属しているデータエンジニアの吉田(id:syou6162)です。10X社内のデータマネジメントの仕事をしています。 最近、社内でディメンショナルモデリング勉強会を行なったですが、なぜ勉強会を行なったのか、どのように行なったのか、勉強会を行なった結果何が得られたかについてまとめます。 ディメンショナルモデリング勉強会開催の背景 勉強会の進め方やスコープ 勉強会の参加者 勉強会で学んだ内容 Four-Step Dimensional Design Process キーの設計について 複数スタースキーマを適切に利用し、ファントラップを避ける コンフォームドディメンション まとめ: 勉強会で得られたもの ディメンショナルモデリング勉強会開催の背景 前回のエントリにまとめた通り、10Xのデータマネジメントの課題の中でも「データウェアハウジングとビジネスインテリジェンス」は優先度が

    ディメンショナルモデリング勉強会を実施しました - 10X Product Blog
    syou6162
    syou6162 2024/05/08
    勉強会やりました! 結構基礎的なことだとは思いますが、最近話題のSemantic Layerなどをやっていくためにはこの辺の基盤が整備されているのが大事だと思うので、コツコツやっていきます
  • The Semantic Layer Movement: The Rise & Current State

    syou6162
    syou6162 2024/05/07
  • Google AdSense の広告掲載を全て止めることにしました - しばやん雑記

    タイトルの通りですが、このブログでは長年 Google AdSense を使った広告掲載を行っていましたが、今日から全て止めることにしました。止めるに至った理由はいくつかあるのですが、最近の無茶苦茶な広告の出し方に嫌気が差したのが一番大きいです。 正直これまで自分がブログに AdSense で広告を載せているのだから、広告ブロッカーは使わないようにしていたのですが、最近遭遇したページで以下のような広告をらったので使用を決意しました。いったい何のサイトを開いたのかもわからないぐらいなので酷いですね。 広告ブロッカーのインストールを決意した瞬間であった… pic.twitter.com/tE39ZMxEd2— Tatsuro Shibamura (@shibayan) 2024年5月1日 元々、このブログでお金を稼ぐことは全く考えておらず「はてなブログ Pro 代が出ればいいなー」ぐらいの考

    Google AdSense の広告掲載を全て止めることにしました - しばやん雑記
    syou6162
    syou6162 2024/05/06
    いや、これホント分かる...アドセンスのトップページに「サイトのコンテンツが第一」って書いてあるけど、全然そうなってない
  • サロゲートキーと複合主キー | DBFlute

    一方で、Webサービス系などで論理設計と物理設計をもう一緒くたにやっていくような場合は、 正規化の論理に目の前にあるサロゲートキーを含めないようにすることが大切で、モデリングはナチュラルキーを基軸に考えていくとよいでしょう。 サロゲートキー (代理キー) サロゲートキー + (複合)ユニーク制約 ナチュラルキーをPKにせず、例えば連番となるようなカラムを用意して、それをPKにします。 これがサロゲートキーと言われるものですが、ナチュラルキーには別途ユニーク制約を付与する というのを忘れてはいけません。 ここでは、ナチュラルキーにユニーク制約を付けずにサロゲートキーだけを導入する方式は、業務的・実装的に意味はないと考え、ここでは取り扱いません。 議論の対象にすらしません。ユニーク制約を付けることで業務的なユニーク性を保ちつつサロゲートキーの恩恵を得ることができ、同時にナチュラルキーを明示する

    syou6162
    syou6162 2024/05/04
  • 新規事業立ち上げのアンチパターン|福島良典 | LayerX

    新規事業立ち上げのアンチパターンについて考えてみる。 このアンチパターンは、完全な飛地の新規事業だけではなく、複数プロダクトを経営する中での隣接領域の新規プロダクトの立ち上げのときや、あるセグメントにPMFした状態から次のPMFを探すときも同様のアンチパターンが適用されうる。 ここでのアンチパターンは、1つ目の事業立ち上げ・プロダクト立ち上げで起こることはない。2つ目の事業や2つ目のプロダクトを立ち上げる際に留意する点であり、コンパウンドスタートアップを正しく経営するには必ず頭に入れておきたい内容である。 規模からの逆算と顧客インサイトの軽視新規事業における市場選択のアンチパターンである。 例えば、売上の30%成長を続けるための、計画と現実のギャップを埋めるために新規事業を規模から探してしまうみたいなケースで見られる。 大前提として、市場規模の推定は重要である。実際に事業をやっていると、い

    新規事業立ち上げのアンチパターン|福島良典 | LayerX
    syou6162
    syou6162 2024/05/03
  • Mackerel で行った障害対応演習を紹介します - Hatena Developer Blog

    こんにちは、Mackerel チーム SRE の id:heleeen です。 この記事は、はてなの SRE が毎月交代で書いている SRE 連載の4月号で、先月分は id:taxintt さんのサービスの一般公開前からSLI/SLOと向き合うです。 今回は、先日 Mackerel チームで行った障害対応演習で実施した内容と、どのような学びを得たかについて紹介します。 番障害はできればなくしたいものですが、すべての障害を完全になくし可用性を100%にするのはとても困難です。そのため、障害が発生したときの影響範囲を小さくする仕組みを導入したり、ロールバックを素早く行えるようにしておくなど、影響を抑えるための取り組みが必要になります。 Mackerel では、その一環として、障害対応時のオペレーションの確認やバックアップからの復旧が行えるかの検証などの起きてしまった障害を素早く収束させたり、

    Mackerel で行った障害対応演習を紹介します - Hatena Developer Blog
    syou6162
    syou6162 2024/04/30
    RDS、うっかり消し...たく絶対ない
  • 統一コードの設計 総点検 | Metafindコンサルティング

    2025年の崖※を目前に控えて、どの企業もシステムの再構築を急ピッチで進めています。同時に、DXの旗印のもとデータ活用ニーズの高まりにより、データ統合基盤の構築も盛んに行われています。 これらの活動を背景に、コードを見直す企業がとても多くなってきました。せっかく見直すのであれば業務変化に耐えうる安定的なコード設計を目指したいところです。一方で既存の業務システムへの影響を考慮しながら設計し直すことは容易ではありません。 そこで、今回はコード統一に焦点を当てて、設計時の注意事項をご紹介します。 ※2025年の崖とは、IT人材不足やソフトウェアベンダーのサポート終了といった課題に対し、2025年までにシステム全体の見直しの必要性に直面している状況を表現したもの。この課題を克服できない場合、既存システムの複雑化・ブラックボックス化等によりDXが実現できなくなる。また、システム維持管理費の高額化やシ

    統一コードの設計 総点検 | Metafindコンサルティング
    syou6162
    syou6162 2024/04/30
  • 気象データ高度利用ポータルサイト - 気象庁 Japan Meteorological Agency

    近年ビッグデータ化している気象データは、防災情報に関する様々なコンテンツや産業界において、 IoTやAIといった最新技術との親和性が高く、更なる利活用の可能性を持っています。 このサイトでは様々な産業界の新規開発時などに積極的に活用して頂くなど、幅広い用途で手軽にご利用頂けるよう、 様々な産業の開発シーン等において有用と考えられる気象情報のコンテンツを集約・掲載しています。 [ 2024.03.29 ] GPVサンプルデータの一覧を更新しました。 [ 2024.03.26 ] 「気象データ利用ガイド」の項目を追加しました。 [ 2024.03.05 ] GPVサンプルデータの一覧を更新しました。 [ 2024.02.29 ] 予報区等のGISデータ(シェープファイル形式)を更新しました。 [ 2024.01.10 ] 多言語辞書データ(気象用語等を多言語化したリスト)を更新しました。 [

    syou6162
    syou6162 2024/04/30
  • Weather Data API

    Weather Data APIの特徴 天気予報データ(気象予測・過去実況値、指数情報、気象災害リスク予測)を、 取得できる天気APIです。 WEBサイトやアプリへの表示はもちろん、気象データを使った 各種分析や予測モデルなど、新たなソリューション開発にお使いいただけます。 気候変動に伴い、過去の経験に当てはまらない異常気象のリスクがありますが、 「気象」は企業活動において低減・回避が可能なリスクです。 気象データを活用することでビジネスの味方にできます。 Weather Data APIを用いてビジネスを加速させましょう。

    Weather Data API
    syou6162
    syou6162 2024/04/30
  • 桁違いに読書の質が上がる超簡単な読書法|ふろむだ@分裂勘違い君劇場

    を読んでて、気になるところがあったら、 その要点をテキストファイルに箇条書きにして、整理しながら読書する。 これだけ。 これだけで、読書の質が桁違いに上がります。 これをやると、「普通にを読むだけだと、理解した気になってるだけで、実はろくに理解してなかった」と分かって驚きます。 話はこれで終わりですが、 以下の点が気になる方もいらっしゃるでしょう。 ●どんな人がどんなを読む場合にもそうなるわけじゃないだろ。具体的に、どんな人がどんなを読む場合にそうなるんだ? ●そんなの面倒くさくてやってらんない。手間をかけずにやる方法はないの? ●具体的にどうやるとうまくいくのか、もっとちゃんと説明しろ。 そういう方のために、以下、これらについて補足します。 まず、読書を以下の9種類に分類します。 (1)リアルタイム活用読書読んだ知識を今やっている仕事/生活/趣味にリアルタイムに活用しながら読む方

    桁違いに読書の質が上がる超簡単な読書法|ふろむだ@分裂勘違い君劇場
    syou6162
    syou6162 2024/04/28
  • Webサイトやスマホアプリ上のユーザー行動データを収集・分析できる「Snowplow」を使ってみた | DevelopersIO

    大阪オフィスの玉井です。 今回は、行動データプラットフォームのSnowplowを触ってみました。 Snowplowとは ざっくりいうと、Webサイトやスマホアプリ上のユーザーの行動をトラッキングして、DWH等のサービスに格納できるサービスです。 (おそらく)SaaSとして提供されています。が、実はオープンソース版もあるため、こちらを自分でデプロイ〜運用する分には、無料で利用することが可能です。 ちなみに、2022年6月にシリーズBを達成しているので、なかなか勢いのあるサービスだと思われます。 やってみた やってみた内容の概要 今回はとりあえず超基的な部分だけ(トラッキングの設定→トラッキングしたデータをテキトーに照会)やってみます。 環境とか Snowplowにはいくつかの種別がありますが、お試し向けの「Try Snowplow」を使います。色々制限がついてるSaaS版といった感じで、す

    Webサイトやスマホアプリ上のユーザー行動データを収集・分析できる「Snowplow」を使ってみた | DevelopersIO
    syou6162
    syou6162 2024/04/27
  • Snowplow Behavioral Data Platform - Fuel AI, Analytics, Marketing

    Behavioral Data Platform Create behavioral data at enterprise scale

    Snowplow Behavioral Data Platform - Fuel AI, Analytics, Marketing
    syou6162
    syou6162 2024/04/27
  • Are Data Meshes Really Data Marts with Conformed Dimensions? - DataScienceCentral.com

    syou6162
    syou6162 2024/04/27
  • BigQuery クエリ - pokutuna

    BigQuery 関連: Colaboratory 標準 SQL 語彙の構造  |  BigQuery  |  Google Cloud リテラル等の仕様 その場でデータを作ってクエリする 動作確認に便利 code:struct.sql SELECT MIN(status) FROM UNNEST([ STRUCT('unexamined' AS status), STRUCT('unexamined' AS status), STRUCT('ng' AS status) ]) 型ほしい時は型を書く code:complex_struct.sql SELECT * FROM UNNEST( ARRAY<STRUCT<count INT64, time TIMESTAMP>>[ STRUCT(3, TIMESTAMP "2020-07-01 10:00:00"), STRUCT(5, TIM

    BigQuery クエリ - pokutuna
    syou6162
    syou6162 2024/04/23
  • BigQueryでSaaSのjsonデータを処理するSQLサンプル集 - 下町柚子黄昏記 by @yuzutas0

    この記事の概要 SaaSのデータをBigQueryに統合することで業務改善を促進できる。 しかし、SaaSのデータの中身を見ると、BigQueryの関数では対応しにくい形式になっていることがある。 そこで、稿では「こういうデータ形式だったらこういうSQLを書く」というサンプル集を掲載する。 目次 この記事の概要 目次 宣伝 実現したいこと SaaSデータの処理方法 SQLサンプル1: 純粋な配列だけのケース SQLサンプル2: 配列内にハッシュマップがあるケース SQLサンプル3: 配列宣言ナシでカンマ区切りのハッシュマップが突如始まるケース SQLサンプル4: 配列とハッシュが入り乱れるケース SQLサンプル5: JSONの中に親子構造があるケース SQLサンプル6: Objectを定義したくなるケース 最強のJSONパースの関数は作れるか jsonデータの処理をどこで行うか 最後に

    BigQueryでSaaSのjsonデータを処理するSQLサンプル集 - 下町柚子黄昏記 by @yuzutas0
    syou6162
    syou6162 2024/04/23