並び順

ブックマーク数

期間指定

  • から
  • まで

1 - 40 件 / 354件

新着順 人気順

ELTの検索結果1 - 40 件 / 354件

  • DATAFLUCT Tech Blog

    2022-08-27 データ抽出に特化したAirbyteによるEL(T) 環境構築の実践 データ基盤 Airbyte ELT こんにちは。今回は、データ基盤の構築の一部を実際に体験してみたいと思います。 データ基盤を作成するにあたり、まずは、社内に眠る様々なデータを集めてくる必要があります。前回の記事では、その機能を「収集」と紹介していました。 データ基盤とは何か… データ基盤 データ分析基盤 実践 2022-08-18 Metaflowでモデルの学習をpipeline化するまで MLOps Metaflow Pipeline 皆さんは「MLOps」について取り組んでいらっしゃるでしょうか。私は2018年頃からデータクレンジングや機械学習モデルの構築や運用をしてきましたが、当時の日本で私の耳にはMLOpsという言葉が入ってくることはありませんでした。 ただMLOpsの元となった「Dev…

      DATAFLUCT Tech Blog
    • 日本の英語教育がダメとか言う人って中高の英語まじめにやってきたの? 私..

      日本の英語教育がダメとか言う人って中高の英語まじめにやってきたの? 私は中高まじめにやっただけで普通にコミュニケーション取れるくらいになってたし留学用のテストも一発だったよ 英会話とか通ったことないし、ただ授業(公立校の)まじめに受けてELTに話しかけてただけ あとはネットでネイティブの友達作ってチャットしたりはしたけど、そのチャット始めるための英語も全部学校で教わったものだし たまにネットで話題になる「○○と言いたい時に英語でxxと言うのは間違いだった!」みたいな豆知識?見てもいつもこれ高校でやったとこだ〜ってなるし よほどマニアックな文法とかすごい古い言い方とか、そういうの以外の基礎は中高でちゃんと教えてくれるってこと だから日本の英語教育クサす前に中高の英語の教科書買ってきてちゃんとやって見たらいいと思う もちろん極力ネイティブみたいに話したい!とか思うなら最初から英語圏で売られてる

        日本の英語教育がダメとか言う人って中高の英語まじめにやってきたの? 私..
      • Twitter可視化システムを作ってみたら日本に笑顔が溢れていた話 - NTT Communications Engineers' Blog

        はじめに はじめまして。 プラットフォームサービス本部 データプラットフォームサービス部門の森分です。 もともと私は、NTT Comのクラウドサービスをベースにした法人向けソリューションの個社別運用やインフラ関連のプロジェクトマネージャ業務を担当しておりました。 最近はSmart Data Platform(以下、SDPF)アーキテクトなる、お客様課題の解決やNTT Comのビジネスの中でSDPFの活用を推進する部隊に参画しています。 データ利活用を支えるSDPFのアーキテクトがデータ利活用に詳しくなければ立つ瀬がありません。 そうならないように日々研鑽を積んでいるわけですが、その中で作ったTwitter分析システムっぽいもののご紹介が本稿の趣旨となります。 本来のデータ利活用プロジェクトでは、課題および仮説をまず明確にして、それに応じたデータ解析を進めていくのですが、本稿では堅苦しいもの

          Twitter可視化システムを作ってみたら日本に笑顔が溢れていた話 - NTT Communications Engineers' Blog
        • 撮り鉄さん、集団で線路内に立ち入って電車を止めてしまう 車掌ぶち切れ→慌てて逃げるも鉄橋の下に落ち救助される : 痛いニュース(ノ∀`)

          撮り鉄さん、集団で線路内に立ち入って電車を止めてしまう 車掌ぶち切れ→慌てて逃げるも鉄橋の下に落ち救助される 1 名前:potato ★:2021/03/24(水) 21:54:58.71 ID:+DtUmhM59 中央線 立川駅〜日野駅間で線路内立ち入り「多摩川橋梁付近で185系の廃車回送を撮影してた撮り鉄が集団で線路に侵入で車掌ブチギレ、逃走した人が鉄橋の下に落ちて救助活動」電車遅延3月24日 16時45分頃 中央線 立川駅〜日野駅間で5人ほどの撮り鉄が線路内立ち入り ↓ 線路内立ち入りで抑止、警察が出動 ↓ アナウンス「安全のため一人ひとり移動させているため時間がかかる」 「5名〜6名立ち入っているという報告があり確認に時間を要しています」車掌さんキレ気味 ↓ 撮り鉄が鉄橋の下に逃走 ↓ 17時15分頃 徐行で運転再開 https://matomebu.com/train/rail2

            撮り鉄さん、集団で線路内に立ち入って電車を止めてしまう 車掌ぶち切れ→慌てて逃げるも鉄橋の下に落ち救助される : 痛いニュース(ノ∀`)
          • エムスリーのデータ基盤を支える設計パターン - エムスリーテックブログ

            こんにちは、エムスリー エンジニアリンググループ の鳥山 (@to_lz1)です。 ソフトウェアエンジニアとして 製薬企業向けプラットフォームチーム / 電子カルテチーム を兼任しています。 ソフトウェアエンジニアという肩書きではありますが、私は製薬企業向けプラットフォームチームで長らくデータ基盤の整備・改善といったいわゆる "データエンジニア" が行う業務にも取り組んできました。 本日はその設計時に考えていること / 考えてきたことをデータ基盤の設計パターンという形でご紹介しようかと思います。多くの企業で必要性が認識されるようになって久しい "データ基盤" ですが、まだまだ確立された知見の少ない領域かと思います。少しでもデータエンジニアリングを行う方の業務の参考になれば幸いです。 データ基盤の全体像 収集部分の構成 RDBデータ ログデータ 活用部分の構成 データマートの実例 「データ基

              エムスリーのデータ基盤を支える設計パターン - エムスリーテックブログ
            • Modern Data Stack / モダンデータスタックというトレンドについて - satoshihirose.log

              はじめに Modern Data Stack ? Modern Data Stack の特徴やメリット、関連するトレンド データインフラのクラウドサービス化 / Data infrastructure as a service データ連携サービスの発展 ELT! ELT! ELT! Reverse ETL テンプレート化された SQL and YAML などによるデータの管理 セマンティックレイヤーの凋落と Headless BI 計算フレームワーク (Computation Frameworks) 分析プロセスの民主化、データガバナンスとデータメッシュの試み プロダクト組み込み用データサービス リアルタイム Analytics Engineer の登場 各社ファウンダーが考える Modern Data Stack さいごに Further Readings はじめに Modern Dat

                Modern Data Stack / モダンデータスタックというトレンドについて - satoshihirose.log
              • なぜETLではなくELTが流行ってきたのか - Qiita

                概要 troccoの生みの親で、現プロダクト責任者をしている @hiro_koba_jp です。 troccoアドベントカレンダー2022の1記事目書いていきます!(みんなも参加してね) データ分析やデータエンジニアリングにおいてETL(Extract Transform Load)という言葉を耳にしたことがある方は多いのではないでしょうか? 一方、「ETLではなくELT(音楽グループではない)が主流になりつつある」といったような論調も増えてきました。 この記事では、ETLとELTの違いや、なぜELTにシフトしつつあるのか、この先どうなるのか(予想)について、私なりの見解を書いてみようと思います。 一昔前まではETLパターンが多かった Redshiftが登場した2013年頃、人々はデータレイク層はS3上で構築し、データウェアハウス層〜データマート層はRedshift上に組む人が多かったよう

                  なぜETLではなくELTが流行ってきたのか - Qiita
                • データ職種の課題図書リストを作りたい - 下町柚子黄昏記 by @yuzutas0

                  この記事は datatech-jp Advent Calendar 2023 3日目の記事です。 背景・趣旨 筆者(@yuzutas0)は風音屋(@Kazaneya_PR)という会社を経営しており、データ職種の採用・育成に関心を持っています。 複数企業で少ない専門家を奪い合って疲弊するような採用活動ではなく、マーケット全体がより豊かになるような動き方はできないだろうかと模索しています。 1つの実験として、MENTAで「第2新卒が3ヶ月でデータ職種への転職を目指す講座」というトレーニングを提供し、ありがたいことに30名以上の方々に受講いただきました。 ちなみにこの講座は今では風音屋の社内研修になっています。 MENTAの受講者が30名を突破しました🎉 卒業生が風音屋に入社したり、スキルアップして「社内で提案が通るようになった」「現職で活躍できるようになった」という感想もいただいています。

                    データ職種の課題図書リストを作りたい - 下町柚子黄昏記 by @yuzutas0
                  • 冪等なデータ処理ジョブを書く - クックパッド開発者ブログ

                    こんにちは、マーケティングサポート事業部データインテリジェンスグループの井上寛之(@inohiro)です。普段はマーケティングに使われるプライベートDMP(データマネジメントプラットフォーム)の開発を行っています。本稿では、その過程で得られた冪等なデータ処理ジョブの書き方に関する工夫を紹介したいと思います。今回は、RDBMS上で SQL によるデータ処理を前提に紹介しますが、この考え方は他の言語や環境におけるデータ処理についても応用できるはずです。 まずクックパッドのDMPと、冪等なジョブについて簡単に説明し、ジョブを冪等にするポイントを挙げます。また、SQL バッチジョブフレームワークである bricolage を使った、冪等なジョブの実装例を示します。 クックパッドのDMPと冪等なジョブ クックパッドのプライベートDMPは、データウェアハウス(社内の巨大な分析用データベースで、クックパ

                      冪等なデータ処理ジョブを書く - クックパッド開発者ブログ
                    • AWSが提唱するゼロETLとは何か?概念と登場の背景の推察 - NRIネットコムBlog

                      こんにちは、佐々木です。年末に書こうと思って、すっかり忘れていた宿題です。 2022年末のre:InventのキーノートでAWSのCEOであるAdam Selipskyが、『A Zero ETL future』という概念が提唱しました。言わんとすることは解るのですが、これは一体どういう文脈で、なんのためなのだろうと疑問に思う方は多いと思います。そこで、自分なりにデータ分析を取り巻く現状と課題、ゼロETLの概念が出てきた理由をまとめてみます。これは私自身の思考なので、全然違う可能性が高いですので、悪しからず。 データ分析とETLの現状と課題 ゼロETLの話をする前に、データ分析とETLの現状の話をしましょう。データ分析をする際には、必ずデータが必要です。では、そのデータはどこからやってくるのか?単一のシステム内で分析する場合もありますが、多くの場合はいろいろなシステムから必要なデータを集めて

                        AWSが提唱するゼロETLとは何か?概念と登場の背景の推察 - NRIネットコムBlog
                      • Python 競技プログラミング高速化tips (PythonでAtcoderをやる際に個人的に気を付けてること) - じゅっぴーダイアリー

                        こんにちは。最近やよい軒の彩定食にハマってるじゅっぴーです。 自分の確認と最近Pythonで競技プログラミング始めたよーという人向けを兼ねたPython高速化記事です。 競技プログラミングはAtcoderを想定しています。 はじめに Pypyを使う! みんな一度は通る道 Pypy一択なもの Pypyじゃだめなもの Python定数倍高速化のテクニック 最後に はじめに 今回の今の時点でのA問題の言語別提出コード数、 全体: 7000 C++: 3240 Python3: 2000 って感じで75%くらいがC++とPython3で提出されてる— saba (@saba_kpr) 2019年5月25日 最近PythonでAtcoderをはじめている人がどんどん増えています。 一方で『Pythonの高速化テクニック:C++で書き直す。』というネタがあるほど、Pythonは劇遅です。 競技プログラ

                          Python 競技プログラミング高速化tips (PythonでAtcoderをやる際に個人的に気を付けてること) - じゅっぴーダイアリー
                        • 次世代データ基盤:データレイクハウスを Google Cloud で実現する

                          はじめに こんにちは、クラウドエース データソリューション部の松本です。 普段はデータ基盤や MLOps の構築をしたり、Google Cloud 認定トレーナーとしてトレーニングを提供しております。また、昨年は Google Cloud Partner Top Engineer 2024 に選出されました。今年も Goodle Cloud 界隈を盛り上げていけるよう頑張っていきたいと思います。 クラウドエース データソリューション部 について クラウドエースのITエンジニアリングを担う システム開発統括部 の中で、特にデータ基盤構築・分析基盤構築からデータ分析までを含む一貫したデータ課題の解決を専門とするのが データソリューション部 です。 弊社では、新たに仲間に加わってくださる方を募集しています。もし、ご興味があれば エントリー をお待ちしております! 今回は、次世代データ基盤であるデ

                            次世代データ基盤:データレイクハウスを Google Cloud で実現する
                          • ビジネスとエンジニアリングをつなぐ「アナリティクスエンジニア」とは。リクルートが“価値あるデータ整備”のための新たな職種に着目した理由 - はてなニュース

                            世間でデータの利活用やDX(デジタルトランスフォーメーション)の手法が盛んに議論される一方、データの利活用環境やそれを整備するデータ組織・人材について「理想と現実のギャップ」に苦しむ企業は少なくないでしょう。 そうした企業にとって、事業で得られたデータをスピーディーな意思決定につなげたり、そのプロセスを牽引する人材を育成したりすることは、喫緊の課題であるように思います。 データを活用してカスタマー・クライアント双方の「不の解消」を目指すリクルートも例外ではなく、これまでさまざまな課題に直面してきました。そんな中、同社のデータ推進室では2022年、「データに基づく意思決定の実現」を目標に、D3M(Data Driven Decision Making)部を設立。高精度な意思決定を実現すべく、高品質なデータを提供するアナリティクスエンジニアという職種を導入しました。 一般的に、アナリティクスエ

                              ビジネスとエンジニアリングをつなぐ「アナリティクスエンジニア」とは。リクルートが“価値あるデータ整備”のための新たな職種に着目した理由 - はてなニュース
                            • AWSを退職してYuimediに入社します

                              こんにちは。@watildeです。 世界で一人目となるDeveloper Relations Engineer(Mobile)として1年半ほど在籍したAWSを3/31にて退職をして、4月より世界で医療データの利活用を広く推進するYuimediへの入社をすることとなりました。AWS在籍中は@akitsukadaをはじめとする、多くの同僚に温かいご支援を頂いて成果を共創できたことを嬉しく思います。 本日にてAWSを退職しました、お世話になりました!これからのお話はブログにてまた書こうと思いますが、ひとまずご挨拶まで。 pic.twitter.com/lbaapJFwvi — Daijiro Wachi (@watilde) March 30, 2022 この記事では、過去・現在・未来の軸で 1) 何をしてきたのか 2) 今月から何を行うのか 3) 今後は何を目指すのか について共有して関係者、

                                AWSを退職してYuimediに入社します
                              • データ集計基盤の改善でLooker導入に至ったワケ - ZOZO TECH BLOG

                                こんにちは。開発部データエンジニアの遠藤です。現在、私はデータ×テクノロジーでZOZOグループのマーケティングを支援するデータチームに所属して、データ処理基盤の運用などに従事しています。 本記事では、Lookerを用いて運用中のデータ集計基盤をきれいなデータをスマートに取り出せる基盤に改良した件について報告します。 データ集計基盤で燻っていた問題 1. クエリ管理の限界 2. 集計定義に対するデータの信憑性が謎 Lookerは何が良い? ~データガバナンス機能~ LookML データディクショナリ Gitによるバージョン管理 データ集計基盤(改)の設定フロー データ集計基盤(改)でのデータマート更新 まとめ データ集計基盤で燻っていた問題 ZOZOでは、サービスに関するあらゆるデータをBigQueryに集約しています。BigQueryに集約した大量のデータからデータマートとして必要なデータ

                                  データ集計基盤の改善でLooker導入に至ったワケ - ZOZO TECH BLOG
                                • BigQueryのセキュリティ対策手順

                                  風音屋では、データエンジニア、データアナリスト、データコンサルタントを募集しています。 書籍執筆者やOSSコントリビューターなど、業界を代表する20名以上のアドバイザーと一緒にベストプラクティスを追求できる環境です。 ぜひカジュアルトークをお申し込みください。 風音屋アドバイザーの山田雄(@nii_yan)です。 データ活用においてセキュリティ対策が最重要トピックであることは言うまでもありません。 風音屋でBigQueryの導入支援を行うにあたって、どのようなセキュリティ対策を行っているのかをご紹介します。 この記事の全体像 この記事は2つのパートに分かれています。 最初に、BigQuery導入プロジェクトを始めるにあたって、セキュリティ観点でどのようなコミュニケーションが必要になるかを説明します。 次に、一般的な情報セキュリティ対策である「抑止」「予防」「検知」「回復」の4つの観点にもと

                                    BigQueryのセキュリティ対策手順
                                  • dbtを導入して小規模チームでも運用可能なデータマネジメント体制を構築した話 - High Link テックブログ

                                    はじめに こんにちは。株式会社High Linkのデータユニットマネージャーの芦川 (@assy) です。 私たちのチームでは、データを強みとした事業価値創出を促進するために、データ基盤の整備やデータマネジメント、全社的なデータ利活用レベルの引き上げに取り組んでいます。 データマネジメントをしていると、「誰が作ったかわからない野良のテーブルが乱立している」ことや「BigQueryコンソール上でviewを定義してしまってコードレビューができない」さらには、「テーブル間の依存関係がわからず削除できない」といった課題にぶつかる方は多いんじゃないでしょうか。 私たちもまさにこのような問題に直面し、導入したのがdbtです。 今回は、dbtの導入に至る経緯や選定の理由、dbtをどう活用しているのかといった話を共有させて頂こうと思います。 私たちのようにデータマネジメントにがっつり人的リソースを割けない

                                      dbtを導入して小規模チームでも運用可能なデータマネジメント体制を構築した話 - High Link テックブログ
                                    • Microsoftを忘れてはいけない

                                      luttig's learningsより。 レドモンドの巨大さを理解することは、クラウドインフラ、スタートアップ戦略、そしてソフトウェアの未来について、貴重な教訓を私たちに教えてくれる。 By ジョン・ルティグ Microsoftは、その規模にもかかわらず、テクノロジー業界で最も見落とされている企業の1つである。 Apple、Facebook、Amazon、Googleのように消費者に愛されるブランドではない。 ベンチャーキャピタルのサクセスストーリーでもない。Microsoftは収益性が高すぎたため、実際のVC資金を調達できず、創業者らはIPO時に70%を所有していた。 FAMGAの中で最も古く、別の州にひっそりと存在している。 しかし、Microsoftには、見かけ以上のものがある。うまくやれば、Microsoftは最初の10兆ドルT企業になることができる。そして、スタートアップの創業

                                        Microsoftを忘れてはいけない
                                      • エンジニアの活動情報からFour Keysを集計、可視化した話 - Pepabo Tech Portal

                                        データ基盤チームの @udzura です。今回は、昨年の後半にかけてデータ基盤チームで取り組んできた、開発者の生産指標である Four Keys の可視化についてお話をします。 Four Keysとは何か 生産性ダッシュボードプロジェクトの全体図 開発活動のExtractとLoadパイプライン 取得したデータのTransform ビュー部分 まとめと今後 画像について Four Keysとは何か 始めに、Four Keysについての説明をします。 Four Keysとは、GoogleのDevOps Research and Assessmentチームが6年間の研究の結果割り出した、ソフトウェア開発チームのパフォーマンスを示す4つの指標のことです。 詳細はGoogle Cloudのブログ記事「エリート DevOps チームであることを Four Keys プロジェクトで確認する」などをご確認

                                          エンジニアの活動情報からFour Keysを集計、可視化した話 - Pepabo Tech Portal
                                        • Rettyのデータ基盤の歴史と統合 - Retty Tech Blog

                                          書き手:@takegue (分析チーム) Rettyのデータ活用の多くにはBigQueryが現在利用されており、その活用の方法についてこれまでこのブログでもいくつかとりあげさせていただきました。 engineer.retty.me そのほか分析チームの記事一覧 これらの記事はおかげさまで好評いただいております。いつもありがとうございます。 しかしながら、我々が初期からこのようにBigQueryを使い続けてきかというと、実はそうではありません。 事業の成長とともにデータ基盤を変化させてきた経緯があり、今の成果は過去のトライアンドエラーの賜物であり、数多くの苦労を背景にしてできあがっています。 ほんのつい最近まで、Rettyで構築されていたデータ基盤は表立って見える実態よりもかなり複雑なパイプラインで構成されていました(以降で触れますが、4種類のデータパイプラインが共存しているカオスな状態でし

                                            Rettyのデータ基盤の歴史と統合 - Retty Tech Blog
                                          • データエンジニアリングの基礎

                                            データエンジニアリングとは、組織内外で日々生成されるデータを蓄積し分析するためのデータシステムを構築し維持管理することであり、急速に注目を集めている分野です。近年ではデータエンジニアリングを支えるツールやクラウドサービスが成熟し、組織へのデータ利活用の導入は容易になりましたが、明確な指針のないままデータシステムの構築を進めると費用と時間を無駄に費やすことになります。本書は「データエンジニアリングライフサイクル」を軸にデータシステムの要件を整理することで、組織の「データ成熟度」に応じたデータシステム構築の指針を与えます。またデータエンジニアの立ち位置を明確にし、組織内でデータエンジニアが果たすべき役割を示します。 まえがき Ⅰ部 データエンジニアリングの基礎と構成要素 1章 データエンジニアリング概説 1.1 データエンジニアリングとは何か 1.1.1 データエンジニアリングの定義 1.1.

                                              データエンジニアリングの基礎
                                            • 技術的負債と向き合うための取り組みでよかったもの例 - ytake blog

                                              技術的負債はどこにでもある タイトルにあるように、 いくつかの開発チームと一緒に技術的負債を改善する開発や、それらに関する活動を行うことが多く いろんな取り組みをしていく中で、よかったことがいくつかありました。 もちろん技術的負債を返すのは数ヶ月で終わるレベルのモノは多くなく、 何年から十数年もかかるものの方が多いはずですので、 すべて完了しているわけではないですが、その活動の中であくまで「今のところよさそう」というレベルのものです。 何番煎じかわからないくらいのものですが、 これを読んだ方が取り組んでいくにあたってヒントになればと思います。 普通の話しかありません。 会社全体で合意とSRE これは当たり前ですが、念の為・・ 以前もイベントでお話しさせてもらったりしましたが、 技術的負債は開発体験が悪くなり、モチベーションが上がらなくなるものでもあり、 そこから招く生産性の低下や色々なネガ

                                                技術的負債と向き合うための取り組みでよかったもの例 - ytake blog
                                              • コーパスとは? 使い方をわかりやすく解説 無料英語学習最ツール coca corpus・SKELLも紹介 - ポリグロットライフ | 言語まなび∞ラボ

                                                はじめに コーパスとは?今回は英語学習無料ツールであるコーパスの使い方をわかりやすく解説します。コーパスとは膨大の言語データベースで言語学の研究のために使用されています。まず始めに、コーパスの意味や活用方法、無料で利用できるcoca corpusを紹介します。英語学習への効果やコロケーションについても解説します。実際にSKELLというサービスを使って、頻出動詞のコロケーションも完全整理したので、ぜひチェックしてみてください。コーパスを活用すれば、頻出の動詞やコロケーションを知ることができます。英語話者が実際に使用している語句を網羅すれば、効率よく英語学習を進めることができます。 ↓↓こちらの動画でも解説してます www.youtube.com 英単語の覚え方はこちら↓↓ www.sunafuki.com 英語脳についてはこちらで解説↓↓ www.sunafuki.com 主な参考文献 「英

                                                  コーパスとは? 使い方をわかりやすく解説 無料英語学習最ツール coca corpus・SKELLも紹介 - ポリグロットライフ | 言語まなび∞ラボ
                                                • TypeScript・モジュラーモノリスによる型安全なWebサービス開発

                                                  こんにちは。SALESCORE株式会社CTOの成澤です。 祝・Publication機能のオープンβリリース🎉🎉 ということで、SALESCOREのテックブログを発信し始めます! テックブログの一発目ということで、2022年で一番開発体験が変わったTurborepoによるモノレポ・モジュラーモノリスによる開発について紹介します。 今後もTypeScriptでのWebサービス開発について記事を出していく予定なので、気になる話題などあればコメントいただけるととても嬉しいです🙋‍♀️ モジュラーモノリスという選択肢 ソフトウェア開発における重要な要素の1つは抽象化です。 抽象化をあえて噛み砕いて、平坦な言葉で言うならば 「適切なグルーピング」 と呼んでも良いでしょう。抽象化とは、ものごとをグルーピングして、適切な名前を与えることです。 100行の処理の羅列は分かりづらいが、10行ずつグルー

                                                    TypeScript・モジュラーモノリスによる型安全なWebサービス開発
                                                  • SQL パイプライン開発に便利な Dataform 7つのお気に入りポイント - FLINTERS Engineer's Blog

                                                    こんにちは。河内です。 最近はデータ基盤の構築も取り組んでいたりします。 社内では他の DWH が使われている事例がありますが、今回の基盤ではデータソースとの親和性や価格面などを考慮し BigQuery で行くことにしました。 BigQuery 上で多くのデータを順次変換してデータを生成するために何らかのワークフローエンジンが必要でした。 社内の他のシステムではワークフローエンジンとして Digdag を採用している例が多いですが、このシステムでは Kubernetes 上でサービスを運用しているため、当初(2020年12月)は Argo Workflow 上でクエリを順次実行することを構想していました。構想中に Dataform が Google に買収され、無料で使えるようになったというニュースが飛び込んできたため、触って感触が良いことを確かめた後、Dataform を使っていくことに

                                                      SQL パイプライン開発に便利な Dataform 7つのお気に入りポイント - FLINTERS Engineer's Blog
                                                    • 150万レコードを持つ画像テーブルの移行 - spacelyのブログ

                                                      株式会社スペースリー Railsエンジニアの大津です。 弊社サービスでは物件画像データの管理機能を提供しており、サーバーサイドのフレームワークにはRuby on Railsを、データベース管理にはMySQLを採用しております。これまで物件画像は用途ごとにテーブルを分けて管理していましたが、 アップロードした後に用途を変更できないため画像テーブルを1つに統合しました。 今回は統合する際に実施した旧テーブルから新テーブルへのレコード移行の手順をご紹介します。 統合前後の画像テーブルの構成 まず、統合前の物件画像の管理方法について説明します。 統合前は物件画像テーブルは部屋の写真を管理する内観画像テーブルと建物の写真を管理する外観画像テーブルの2つに分かれていました。 画像ファイルは各テーブルのimageカラムに格納され、Rails GemのCarrierWaveによりAWS S3バケットにアッ

                                                        150万レコードを持つ画像テーブルの移行 - spacelyのブログ
                                                      • Google Cloudではじめる実践データエンジニアリング入門[業務で使えるデータ基盤構築]

                                                        2021年2月20日紙版発売 2021年2月18日電子版発売 下田倫大,寳野雄太,饗庭秀一郎,吉田啓二 著 B5変形判/440ページ 定価3,740円(本体3,400円+税10%) ISBN 978-4-297-11948-5 Gihyo Direct Amazon 楽天ブックス ヨドバシ.com 電子版 Gihyo Digital Publishing Amazon Kindle ブックライブ 楽天kobo honto この本の概要 AIやIoTが実用化フェーズに入りつつあるのみならず,デジタルトランスフォーメーション(DX)への注目の高まりによって,事業やサービスを取り巻くデータを分析・活用・管理するためのインフラであるデータ基盤の重要性が増しています。 データ基盤を構築するにあたり,先行する事例から,Google Cloud(Google Cloud Platform, GCP)はデ

                                                          Google Cloudではじめる実践データエンジニアリング入門[業務で使えるデータ基盤構築]
                                                        • dbtを使ったELTデータパイプライン構築と運用事例 - DataEngineeringStudy #13

                                                          DataEngineeringStudy #13に10Xの瀧本が登壇した際の資料です。

                                                            dbtを使ったELTデータパイプライン構築と運用事例 - DataEngineeringStudy #13
                                                          • №1,236 邦楽セレクション “ Every Little Thing ” | 「Time goes by」 - 糸屯 ち ゃ ん の エ ン タ メ 通 信

                                                            ■ 目 次 プロローグ Every Little Thing Time goes by エピローグ 純ちゃんのおまけ - Blog Ranking Lists プロローグ おはようございます、MCの白石です 本日のテーマは、邦楽セレクション ❝ Every Little Thing ❞  です! 皆さん、おはようございます アシスタントの真行寺(しんぎょうじ)です それでは、さっそくわたくしの方からお送りするナンバーをご紹介 させて頂きます「Time goes by」です! では、皆さん 楽しんでってくださいね (✿╹◡╹)b ワープ!!.   .    . . ............................................... き、きえるぅぅぅ。。。( ̄□ ̄ *)( ̄□:;.:... ( ̄:;..::;.:. :::;... ... .. . .  . . .

                                                              №1,236 邦楽セレクション “ Every Little Thing ” | 「Time goes by」 - 糸屯 ち ゃ ん の エ ン タ メ 通 信
                                                            • heyの統合データ基盤と今後の展望 - STORES Product Blog

                                                              はじめに はじめまして、4/1からデータチームでデータエンジニアとして働いている @shoso です。 突然ですが、みなさんデータ基盤って開発したことありますか? 私はheyに来るまでなかったのですが、チームの経験あるメンバーと毎日話しながら(助けてもらいながら)開発する中でようやく少し分かって来たような気がします。 (覚えることが大量にあり大変とても楽しいです!) 今回は、データ基盤開発経験のある方はもちろん、普段サービス開発など他の開発をメインでされている方にも伝わる形で、heyの統合データ基盤と今後やっていきたいことについてご紹介できればと思います。 これまでにも、統合データ基盤のいくつかのトピックについて記事を公開していますが、この記事では統合データ基盤そのものについてより詳細が伝われば幸いです。 統合データ基盤ってなに 一言でいうと、社内に蓄積するあらゆるデータをスムーズ・横断的

                                                                heyの統合データ基盤と今後の展望 - STORES Product Blog
                                                              • 個人的なdbtの推しポイントを書いてみる - yasuhisa's blog

                                                                dbtや同じ系統のDataformなど、ELTの特にTransform部分に強みを持つツールを使い始めて大体3年になる。主観だけど、それなりに使い倒している部類だと思う。 開発効率を計測するデータ基盤の管理にDataformを使ってみた - yasuhisa's blog dbtを触ってみた感想 - yasuhisa's blog dbt カテゴリーの記事一覧 - yasuhisa's blog これらのツールで巷でよく言われる データリネージの可視化ができる データに対するテストが簡単に書ける エンジニア以外の人ともコラボレーションしやすい あたりの話は耳にタコができるくらい聞いていると思うので、ニッチではあるもののそれ以外のdbtの個人的に推しなポイントをダラダラと書いてみたいと思う。データエンジニアやデータガバナンスを推進する人には共感してもらえる内容かもしれない。 推しポイント:

                                                                  個人的なdbtの推しポイントを書いてみる - yasuhisa's blog
                                                                • [書評] AWSの薄い本Ⅲ データ分析基盤を作ってみよう〜設計編〜 | DevelopersIO

                                                                  『AWSの薄い本 IAMのマニアックな話』や各種AWS認定試験対策本を執筆されている佐々木拓郎氏がこの度、データ分析基盤に関する書籍を新たに出版されていました。個人的にも非常に気になる内容でしたので早速購入し読んでみましたので書評というか感想を簡単にではありますが述べてみたいと思います。 (※今回はダウンロード版を購入しました) 目次 書籍情報 ポイントとか感想とか 第1章 データ分析基盤が必要とされる理由 第2章 データ分析基盤の全体像と構成要素 第3章 データレイクとDWHのアーキテクチャ 第4章 個人情報と加工方法と保持戦略について 第5章 データ加工について 第6章 アクセス制御 まとめ 書籍情報 書籍はBOOTHで購入が可能です。購入タイプは『物理版(+ダウンロード版)』、『ダウンロード版』のいずれかが選べます。 書籍自体のボリュームは全7章、54ページと非常にコンパクトにまとま

                                                                    [書評] AWSの薄い本Ⅲ データ分析基盤を作ってみよう〜設計編〜 | DevelopersIO
                                                                  • [新機能] Amazon Athena UNLOADコマンドによるCSV、Parquet、Avro、ORC、JSON出力をサポートしました! | DevelopersIO

                                                                    データアナリティクス事業本部コンサルティングチームの石川です。先日、Amazon Athenaが、UNLOADコマンドをサポートしました。SELECTクエリの結果をCSV、Parquet、Avro、ORC、JSONフォーマットでS3出力できるようになりました。本日は、UNLOADコマンドを実際に試してみます。 UNLOADコマンド UNLOADコマンドの構文は、以下のとおりです。 UNLOAD (SELECT col_name[, ...] FROM old_table) TO 's3://my_athena_data_location/my_folder/' WITH ( property_name = 'expression' [, ...] ) WITH句の中にフォーマット(format)、区切り文字(field_delimiter)、圧縮タイプ(compression)、パーティシ

                                                                      [新機能] Amazon Athena UNLOADコマンドによるCSV、Parquet、Avro、ORC、JSON出力をサポートしました! | DevelopersIO
                                                                    • 小さな分析チームで始めるマイクロデータメッシュ

                                                                      一つのデータパイプラインの中で、やりたいこと毎に小さいパイプラインを作る データ変換処理のパイプラインと言うのは、放置しているとどんどん複雑になる傾向にあります。 そこで、ある程度統制するため、層に分けるアプローチがよくとられています。 しかし、この層に分けると言うのは案外難しく、データ更新の頻度や鮮度の管理に課題があります。 今回はやりたい事ごとに都度パイプラインを作り、その中で他にも使えるテーブルを再利用してテーブルの乱立を防ぐ、方法を考えました。 このアプローチの実現にはいくつか制約があります。この記事では、直面している課題、アプローチの利点、そしてdbtを用いた実装方針について記載していきます。 この手法が着目している課題 データメッシュと言うと、大企業におけるデータマネジメントに近い印象を持つと思います。 上記の記事では、大企業における部署のような単位をドメインとしているので、組

                                                                        小さな分析チームで始めるマイクロデータメッシュ
                                                                      • 全社横断データ基盤へdbt導入を進めている話 - Sansan Tech Blog

                                                                        こんにちは。研究開発部 Architectグループの中村です。 本記事は Sansan Advent Calendar 2023 の16日目の記事です。 今回は、私達のチームで開発&運用している全社横断データ分析基盤のデータレイヤの再設計、及びdbtの導入を進めているという事例について紹介します。 既存のデータ基盤に対して、dbtの導入を検討されている方の参考になれば幸いです。 (本稿ではdbtとはについては触れませんので、ご了承ください) TL;DR 歴史的経緯 全社横断データ基盤が生まれる前 全社横断データ基盤 立ち上げ期 課題 立ち上げ期に作られたデータマートがカオスに・・・ 課題の解決に向けて データレイヤの再設計 Transformツールの選定 dbtへの移行戦略 その他dbt移行におけるTips チームでの開発の標準化 Cosmosの導入検証 データカタログのホスティング まと

                                                                          全社横断データ基盤へdbt導入を進めている話 - Sansan Tech Blog
                                                                        • 【初心者向け】TOEIC600点を最短1ヶ月で取る勉強法と短期間で600点を目指す勉強時間

                                                                          TOEICの対策をするのに、1ヶ月という期間は短いです。できるだけ無駄な勉強は省いて、600点獲得に必要な勉強を集中的に行いましょう。大変かもしれませんが、一緒に頑張りましょうね! TOEIC 600点の英語レベル 「そもそもTOEIC600点ってどれくらいのレベルなの?」と思う方も多いでしょう。 TOEIC試験を実施している一般財団法人国際ビジネスコミュニケーション協会(IIBC)によると、TOEIC600点はCEFRでいうB1レベルとされています。 ※ CEFRとは、外国語学習者の習熟度レベルを表すガイドラインのこと。 CEFRのB1レベルは、具体的に以下の英語レベルだと公表されています。 仕事、学校、娯楽などで普段出会うような身近な話題について、標準的な話し方であれば、主要な点を理解できる。その言葉が話されている地域にいるときに起こりそうな、たいていの事態に対処することができる。身近

                                                                            【初心者向け】TOEIC600点を最短1ヶ月で取る勉強法と短期間で600点を目指す勉強時間
                                                                          • 【連載】データ分析基盤をdbt・Snowflakeに移行する【設計・実装編】 - Algoage Tech Blog

                                                                            こんにちは、Ops-dataチームの上村(@contradiction29) です。以前、弊社内で運用されているデータ分析基盤を移行するにあたり、設計の方針を練る記事を投稿しました。 tech.algoage.dmm.com 今回はその続きとして、移行プロジェクトの実際の進行に焦点を当てて記事を書いていきたいと思います。 はじめに これまでのあらすじ:運用していく中でつらみがたまってきた弊社のデータ分析基盤。開発しづらいし、運用もつらいし、何よりこのまま運用を続ければ確実に停止してしてしまう。End of Service Life (EOSL) は目前に迫っています。移行するしかない状況です。 とはいっても、単純に移行するだけでは、現場のアナリストやエンジニア、社内ユーザー、そしてその先にあるクライアントのニーズに応え、事業価値に貢献することはできません。真の「価値」に貢献するためには「思

                                                                              【連載】データ分析基盤をdbt・Snowflakeに移行する【設計・実装編】 - Algoage Tech Blog
                                                                            • DATAFLUCT Tech Blog

                                                                              2022-08-27 データ抽出に特化したAirbyteによるEL(T) 環境構築の実践 データ基盤 Airbyte ELT こんにちは。今回は、データ基盤の構築の一部を実際に体験してみたいと思います。 データ基盤を作成するにあたり、まずは、社内に眠る様々なデータを集めてくる必要があります。前回の記事では、その機能を「収集」と紹介していました。 データ基盤とは何か… データ基盤 データ分析基盤 実践 2022-08-18 Metaflowでモデルの学習をpipeline化するまで MLOps Metaflow Pipeline 皆さんは「MLOps」について取り組んでいらっしゃるでしょうか。私は2018年頃からデータクレンジングや機械学習モデルの構築や運用をしてきましたが、当時の日本で私の耳にはMLOpsという言葉が入ってくることはありませんでした。 ただMLOpsの元となった「Dev…

                                                                                DATAFLUCT Tech Blog
                                                                              • マーケター自身がデータを管理するために、広告運用にdbtを導入した経緯と効果 - MonotaRO Tech Blog

                                                                                こんにちは、マーケティング部門広告グループの小林です。この記事ではオンライン広告運用に使っているデータ変換処理をdbtに移行した過程と得られた効果についてご紹介します。 モノタロウでは、全社的なデータ活用研修などにより、マーケティングのようなビジネス系の部署でも、SQLを自身で書いてデータ抽出を行い、数字に基づいた意思決定を行っています。その一方で、集計後の数値のズレやドメイン固有のデータの品質管理など、活用が進んだ企業ならではの課題というのも表面化してくるようになってきました。 オンライン広告運用においては、投下した費用など配信実績のレポーティング、広告媒体へのデータ送信などのいわゆるELTを安定的に回す仕組みが必要になりますが、処理の自動化やデータの品質まで求められるようになると、「データが抽出できる」だけでは限界が見えてきていました。そこで今回、マーケター自身がデータを管理する立場に

                                                                                  マーケター自身がデータを管理するために、広告運用にdbtを導入した経緯と効果 - MonotaRO Tech Blog
                                                                                • Terraformとdbtを活用してデータ基盤整備の生産性が向上した話

                                                                                  はじめに 私が所属しているライフイズテックのデータ基盤グループで、ここ2年ほどでdbtとterraformを活用してDataOpsを進め、データ基盤の整備の生産性が向上した話をまとめます。 導入前の状況と課題 弊社のデータ基盤ではデータ基盤が綺麗に整備されていることよりも、プロダクトや事業に貢献できているかを重要と考え、まずデータを使える状態にすることを目指したサービスの導入や基盤構築を行いました。 考え方としてはこちらの DWHにおけるデータモデリングで大事にしている考え方に書かれている内容に近い考え方になります。 そのため、データモデリングの前にRedashやCRM AnalyticsというBIツール向けにデータレイクからデータマートを先に構築していました。 terraformとdbt導入前は、図のような流れで SQLでSnowflake上にDBやスキーマなどを作成 ELTサービスとし

                                                                                    Terraformとdbtを活用してデータ基盤整備の生産性が向上した話