Google Cloudのサーバレスなサービスでデータ基盤を作った話.
Google Cloudのサーバレスなサービスでデータ基盤を作った話.
はじめまして。デジタル庁ファクト&データユニット所属、データエンジニアの長谷川です。 本記事ではデジタル庁内でデータ活用を推進するための組織と分析基盤についてご紹介します。 これまでのデジタル庁noteと比べると、技術寄りの話題が多い記事となりますが、庁内のデータ活用に興味のある方はぜひご覧ください。 デジタル庁のデータ活用組織「ファクト&データユニット」ファクト&データユニットとはデジタル庁の特徴の一つに、デジタル分野において各種の専門性をもつ「民間専門人材」が多く所属していることが挙げられます。 民間の専門人材は、デザイン、プロダクトマネジメント、エンジニアリングなど、領域ごとに「ユニット」と呼ばれる組織を構成しており(参考:デジタル庁 - 組織情報)、必要に応じてさまざまなプロジェクトにアサインされて業務を遂行する、人材プールのような役割を果たしています。 ファクト&データユニットも
バッチ処理は既に先人の方々が多くのナレッジを公開してくれていますが、それでもなお難しさが変わらないテーマだと思っています。 この記事は、筆者がこれまでの開発経験で気づいたバッチ処理の実装ナレッジを整理し、体系化を目指して文章にしました。 ここでの内容が、より良い課題解決に貢献できれば幸いです。 自身の断片的な思考整理(メモ書き)の延長で内容を整理したため、一部書き振りが統一されておらず、読みにくいかもしれません。ご了承ください。🙏 バッチ処理の難しさバッチ処理は難しい。 人によっては簡単なテーマかもしれませんが、自分は難しいテーマだと思っています。 「難しさの根源は何か?」を考えると、1. 考慮点が多様にあること 2. 解決する課題によって答えが大きく変わること に整理できました。 この2点は、どのソフトウェア開発にも当てはまる項目ではありますが、ことバッチ処理においては顕著に現れます。
By Bo Lei, Guilherme Pires, James Shao, Kasturi Chatterjee, Sujay Jain, Vlad Sydorenko BackgroundRealtime processing technologies (A.K.A stream processing) is one of the key factors that enable Netflix to maintain its leading position in the competition of entertaining our users. Our previous generation of streaming pipeline solution Keystone has a proven track record of serving multiple of our ke
近年、デジタル技術を用いた取引が利用者の市場アクセスを飛躍的に向上させ、中でもデジタルプラットフォームは重要な役割を担っています。他方、デジタルプラットフォームを巡っては、取引の透明性や公正性などについての懸念なども見られます。 こうした背景を踏まえ、経済産業省では、デジタルプラットフォームを巡る市場のルール整備や、取引上の課題を関係者間で共有するための仕組みづくり、変化が激しいデジタル市場についての包括的な調査等を実施しています。 デジタルプラットフォーム取引透明化法 デジタルプラットフォームにおける取引の透明性と公正性の向上を図るために、「特定デジタルプラットフォームの透明性及び公正性の向上に関する法律」が令和2年5月27日に成立し、同年6月3日に公布されました。 同法では、デジタルプラットフォーム提供者に対し、取引条件等の情報の開示、運営における公正性確保、運営状況の報告を義務付け、
LINE株式会社は、2023年10月1日にLINEヤフー株式会社になりました。LINEヤフー株式会社の新しいブログはこちらです。 LINEヤフー Tech Blog はじめに こんにちは、Data Platform室IU Devチームの島村です。 Data Platform室では、約400ペタバイトのデータ分析基盤を運用しております。このData Platformは、「Information Universe」(以下、IU) と呼ばれており、LINEの様々なアプリケーションから生成されるデータをLINE社員が活用できるように、データの収集、処理、分析、可視化を提供しています。私が所属するIU Devチームでは、「IU Web」を開発しています IU Webは、IUのデータを安全にかつ効率的に活用できるようにするData Catalog機能を提供しており、LINEグループのあらゆるサービスか
こんにちは、エムスリー エンジニアリンググループ の鳥山 (@to_lz1)です。 ソフトウェアエンジニアとして 製薬企業向けプラットフォームチーム / 電子カルテチーム を兼任しています。 ソフトウェアエンジニアという肩書きではありますが、私は製薬企業向けプラットフォームチームで長らくデータ基盤の整備・改善といったいわゆる "データエンジニア" が行う業務にも取り組んできました。 本日はその設計時に考えていること / 考えてきたことをデータ基盤の設計パターンという形でご紹介しようかと思います。多くの企業で必要性が認識されるようになって久しい "データ基盤" ですが、まだまだ確立された知見の少ない領域かと思います。少しでもデータエンジニアリングを行う方の業務の参考になれば幸いです。 データ基盤の全体像 収集部分の構成 RDBデータ ログデータ 活用部分の構成 データマートの実例 「データ基
Analytics Infra チームの@hizaです。 この記事ではメルカリの分析環境を改善した事例を紹介します。 今回は「運用に課題があってリプレースしたいが、業務への影響が大きすぎてリプレースできない」そんな板挟みな状況を解決した事例です。 また、その紹介を通じてメルカリのData Architectがどんな仕事をしているのかその一部を感じてもらえる記事をめざしました。 メルカリのデータ活用の現状 メルカリには様々な職種でデータを活用する文化があります。 AnalystやML Engineerの他にも、PdMやCustomer Supportなども業務にデータを活用しています。結果として社内のBigQueryユーザー数は月間800名を超えるほどになりました。 こういった環境ではデータが良く整備されている事が事業の成果に大きく影響しえます。例えば、使いやすいDWHがあれば多数の社員の業
「メルカリのデータドリブン文化を支える、データプラットフォームとデータマネジメントの話」の発表資料です https://mercari.connpass.com/event/207191/
技術部データ基盤グループの青木です。 ここ1、2年はなぜか成り行きでBFFをでっちあげたり、 成り行きでiOSアプリリニューアルのPMをしたりしていたので あまりデータ基盤の仕事をしていなかったのですが、 今年は久しぶりに本業に戻れたのでその話をします。 突然の1人チーム、そして0人へ…… 今年のデータ基盤チームは消滅の危機から始まりました。 間違いなく去年末は5人のチームだったと思うのですが、 メンバーがイギリスへグローバルのデータ基盤チームを作りに行ったり、 山へ検索システムを直しに行ったり、川へレシピ事業の分析業務をやりに行ったり、 海へ広告のエンジニアリングをしに行ったりするのをホイホイと気前よく全部聞いていたら、 なんと4月から1人だけのチームになってしまいました。 事はそれで終わりません。 恐ろしいことに10月にはわたし自身も育休に入ることになったので、 10月はデータ基盤が0
2020年11月25〜27日の3日間、LINE株式会社が主催するエンジニア向け技術カンファレンス「LINE DEVELOPER DAY 2020」がオンラインで開催されました。そこで LINEのフェローであり、Data Science and Engineeringセンターに所属する並川淳氏が、「LINEではどのようにサービス横断でのデータ活用を実現しているのか」というテーマで、LINEにおけるデータの扱い方について共有しました。 LINEにおけるデータ活用の取り組み 並川淳氏(以下、並川):本日は「LINEではどのようにサービス横断でのデータ活用を実現しているのか」というタイトルで、並川が発表いたします。私は、LINEではふだん機械学習に関わる開発全般を担当しています。ですが、今日は機械学習に限らず、LINEにおけるデータ活用の取り組みについて幅広く紹介させてもらえればと思っています。よ
1[INPUT] 2 Name tail 3 Tag tail.01 4 Path /var/log/system.log 5[OUTPUT] 6 Name s3 7 Match * 8 bucket your-bucket 9 region us-east-1 10 store_dir /home/ec2-user/buffer 11 total_file_size 50M 12 upload_timeout 10m 13[OUTPUT] 14 Name splunk Fluent Bit enables you to collect logs and metrics from multiple sources, enrich them with filters, and distribute them to any defined destination. Optimized data
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く