並び順

ブックマーク数

期間指定

  • から
  • まで

1 - 40 件 / 120件

新着順 人気順

パーティション分割の検索結果1 - 40 件 / 120件

  • Microsoft の「クラウドアプリケーションのベストプラクティス」が良かったので紹介したい | DevelopersIO

    こんにちは。CX事業本部MAD事業部のYui(@MayForBlue)です。 最近調べものをしている中で見つけたドキュメントが良かったのでご紹介したいと思います。 先にまとめ Microsoft の RESTful Web API の設計 のドキュメントが API 設計を考える上で勉強になった 関連する クラウド アプリケーションのベスト プラクティス のドキュメントもアプリケーションを設計する際の指標として良さそう RESTful Web API の設計 最近 API 設計やパス設計について考える機会があったのですが、これという正解がなかったり、人によって思想やこだわりが違ったりして結構難しいなと感じていました。 そんな中で下記のドキュメントを見つけてひとつの指標として良いなと思ったのでご紹介します。 内容(項目) REST とは何か リソースを中心とした API 設計の整理 HTTP

      Microsoft の「クラウドアプリケーションのベストプラクティス」が良かったので紹介したい | DevelopersIO
    • BigQueryでクエリ一撃で29万円溶かしたけど助かった人の顔

      SolanaのPublic DataをBigQueryで取得したかった# えー、お笑いを一席. ブロックチェーンSolanaのデータがGoogle Cloud BigQueryで使えるようになったというニュースをたまたまネット推薦記事でみかけた1. おや, 面白そうだ. ちょっとやってみようかな… BigQueryはさわるのが1年以上つかってないかも, どうやるんだっけ… とりあえずカラムとかサンプルでちょっとデータをみたいよな, こんな感じだっけか? とりあえず動かしてみよう, ポチッとな. … 5秒でレスポンスが帰ってくる. おー、速い. えーっと, あれ課金データ309TB?! いちげきひっさつ、ハサンギロチン2. BigQueryでクエリ一撃5 秒で29万円溶かした人の顔# 話題の画像生成AI, DALL・Eをつかって BigQueryでお金溶かした人の顔を表現してもらった3. あ

      • はてなブログをECSに移行してリリース頻度も改善した話 - Hatena Developer Blog

        この記事ははてなエンジニア Advent Calendar 2022の26日目のエントリです。 こんにちは id:cohalz です。はてなブログでは2022年7月にインフラをAmazon EC2からAWS ECS(AWS Fargate)に移行するプロジェクトが完了しました。 プロジェクトは2021年9月から始まったので約10ヶ月間という大きなプロジェクトでした。 プロジェクト完了までに行ってきたことのうち、特に面白かったところなどをこの記事で実施した順に振り返ってみます。 はてなブログのインフラのこれまで アプリケーションを動かせるようにする ALBを追加する 検証環境を用意だけしておく プロキシの設定埋め込み 証明書の配信 アクセスログを配送できるようにする アクセスログの形式を新しくする EC2でもFirehoseを経由するように タイムゾーンをUTCに統一 FirehoseのLa

          はてなブログをECSに移行してリリース頻度も改善した話 - Hatena Developer Blog
        • AWS×IaC本 『クラウド破産を回避するInfrastructure as Code実践ガイド』 を出します #技術書典 - 憂鬱な世界にネコパンチ!

          AWSアカウントセキュリティをIaCで実装する『クラウド破産を回避するInfrastructure as Code実践ガイド』という本を出します。 BOOTHと技術書典9から購入できます。 booth.pm techbookfest.org どんな本? 本書のテーマはAWSアカウントセキュリティとInfrastructure as Codeです。 実装技術にはTerraform・Serverless Framework・Go言語を採用し、サンプルコードは150以上用意しています。 特に次のような人にオススメです。 クラウド破産の記事を見るたびにドキドキする AWSアカウントを安心して運用できるよう、セキュリティを向上させたい セキュリティでもInfrastructure as Codeを実践したい AWSアカウントセキュリティの実装スキルを効率よく習得したい TerraformやServe

            AWS×IaC本 『クラウド破産を回避するInfrastructure as Code実践ガイド』 を出します #技術書典 - 憂鬱な世界にネコパンチ!
          • データエンジニアリングの基礎

            データエンジニアリングとは、組織内外で日々生成されるデータを蓄積し分析するためのデータシステムを構築し維持管理することであり、急速に注目を集めている分野です。近年ではデータエンジニアリングを支えるツールやクラウドサービスが成熟し、組織へのデータ利活用の導入は容易になりましたが、明確な指針のないままデータシステムの構築を進めると費用と時間を無駄に費やすことになります。本書は「データエンジニアリングライフサイクル」を軸にデータシステムの要件を整理することで、組織の「データ成熟度」に応じたデータシステム構築の指針を与えます。またデータエンジニアの立ち位置を明確にし、組織内でデータエンジニアが果たすべき役割を示します。 まえがき Ⅰ部 データエンジニアリングの基礎と構成要素 1章 データエンジニアリング概説 1.1 データエンジニアリングとは何か 1.1.1 データエンジニアリングの定義 1.1.

              データエンジニアリングの基礎
            • BigQueryでのデータ追記処理における冪等化の取り組み - ZOZO TECH BLOG

              こんにちは、MA基盤チームの田島です。私達のチームではMAIL、LINE、PUSH通知といったユーザへの配信をしています。その中でもマス・セグメント配信という一斉に行う配信では、配信対象者のセグメント抽出にBigQueryを利用しています。また、配信前に必要なデータをBigQueryに連携しデータマートの集計をしたり、配信後には配信実績の登録などの更新処理をしています。 そのような処理を定期的に行っているため、ネットワークの問題やサーバーの不調などにより処理が途中で失敗することがあります。そこで、リトライを容易にするため、すべての処理を冪等にしました。今回その中でも、BigQueryの追記処理に絞ってどのように冪等化したのかについて紹介します。 目次 目次 マス・セグメント配信基盤の紹介 課題 冪等化 BigQuery追記処理に関する冪等化の取り組み 冪等にならないケース INSERT 初

                BigQueryでのデータ追記処理における冪等化の取り組み - ZOZO TECH BLOG
              • コンテナストレージに Amazon EFS を使用するためのベストプラクティス | Amazon Web Services

                Amazon Web Services ブログ コンテナストレージに Amazon EFS を使用するためのベストプラクティス 数万社におよぶ企業がペタバイト規模のデータを Amazon Elastic File System (Amazon EFS) に保存しており、その多くが EFS を使ってコンテナ化したアプリケーションのデータです。Amazon EFS ファイルシステムは、Amazon Elastic Container Service (ECS) と Elastic Kubernetes Service (EKS) の両方で起動したコンテナに接続できます。Amazon EFS はコンテナインフラストラクチャと同様に、データの追加や削除の際に設定が簡単でかつ柔軟なスケーリングが可能な完全マネージド型のサービスであるため、コンテナストレージにうってつけの選択肢です。さらに、ペタバイト

                  コンテナストレージに Amazon EFS を使用するためのベストプラクティス | Amazon Web Services
                • PostgreSQL の行レベルのセキュリティを備えたマルチテナントデータの分離 | Amazon Web Services

                  Amazon Web Services ブログ PostgreSQL の行レベルのセキュリティを備えたマルチテナントデータの分離 Software as a Service (SaaS) プロバイダーには、基本的にテナントデータの分離を適用する責任があります。テナントの 1 つが別のテナントのデータにアクセスした場合、信頼はなくなり、ビジネスのブランドに永久的な損害を与える可能性があるだけでなく、さらにひどい場合には、ビジネスを失う可能性があります。 リスクが非常に大きいため、効果的なデータの分離を計画することが重要です。マルチテナントアーキテクチャは、各テナントのリソースをレプリケートするのではなく、すべてのテナントのデータストレージリソースを共有することで、俊敏性と運用コストを節約します。しかし、共有モデルで分離を適用することは難しいため、マルチテナントデータモデルで妥協して、テナント

                    PostgreSQL の行レベルのセキュリティを備えたマルチテナントデータの分離 | Amazon Web Services
                  • BigQuery上のデータマートをクラスタ化したらクエリコストが9割カットできた話 - エムスリーテックブログ

                    こんにちは、エンジニアリンググループ、データ基盤チームの木田です。 最近我が家では手作りピザがブームになっており、週末になると度々生地をこねては家庭内ピザパーティーを開催しております。 息子が盛り付けた手作りピザ (本文とは特に関係ありません) さて、エムスリーではBigQueryをメインのデータウェアハウスとして活用していますが、費用最適化の取り組みの 1つとして一部のデータマートでクラスタ化テーブルの活用を始めました。本日はその導入効果をご紹介できればと思います。 この記事は【データ基盤チーム ブログリレー4日目】です。データ基盤チーム設立の経緯についてはブログリレー1日目の鳥山の記事をぜひご覧ください。 www.m3tech.blog はじめに 費用最適化のアプローチ クラスタ化テーブルとは クラスタ化テーブルの作成方法 実際に速く・安くなるのか 複合キーによるクラスタリング クラス

                      BigQuery上のデータマートをクラスタ化したらクエリコストが9割カットできた話 - エムスリーテックブログ
                    • はてなブックマークで利用しているCloudFrontのAWSアカウントを移行した - Hatena Developer Blog

                      こんにちは、id:cohalzです。2023年4月に実施したはてなブックマークのメンテナンスではCloudFrontを別のAWSアカウントに移行しました。 この記事ではCloudFrontを別のAWSアカウントに移行した背景とどのように移行したのかを説明します。 はてなブックマークのインフラのこれまで 移行したいモチベーションが出てきた理由 切り替えで設定が変わらないように気を付ける キャッシュポリシーに移行する 移行方法について検討する AWS CLIでCloudFrontを移行する手順を作成する アクセスログを配送する部分も移行する まとめ はてなブックマークのインフラのこれまで はてなブックマークのインフラはこのようにCloudFrontと関連リソースだけ別のAWSアカウントで利用していました。 移行前 この状況になっていた経緯をまず説明すると、はてなブックマークでは2018年からオ

                        はてなブックマークで利用しているCloudFrontのAWSアカウントを移行した - Hatena Developer Blog
                      • 「Steam Deck」は2022年最強の小型ゲームPCか? 競合製品と比べながら特徴を細かく紹介

                        「Steam Deck」は2022年最強の小型ゲームPCか? 競合製品と比べながら特徴を細かく紹介 ライター:池 紀彦 カメラマン:佐々木秀二 携帯ゲーム機風のゲーマー向け小型PCが登場し,ここ数年盛り上がりを見せているが,その真打ちとなりそうな製品が,Steamでお馴染みのValveが開発した携帯型ゲームPC「Steam Deck」だ。東京ゲームショウ2022での展示では,入場待ちの行列が絶えないほどの人気で注目を集めており(関連記事),国内でもそろそろ出荷が始まるかと思われる。 そこで今回は,Steam Deckと対抗馬となりそうな小型ゲームPC「AYANEO AIR」と「ONEXPLAYER mini Ryzen版」(以下,ONEXPLAYER mini)との比較を中心に,特徴や実力をチェックしてみよう。 AYANEO AIR(左手前),Steam Deck(左奥),ONEXPLAY

                          「Steam Deck」は2022年最強の小型ゲームPCか? 競合製品と比べながら特徴を細かく紹介
                        • BigQuery 上でデータ変換パイプラインを構築するための SQL の書き方 | terashim.com

                          昨年12月に Dataform の Google Cloud 加入が発表 されて以来, 関心を持って調べています. Dataform は BigQuery などのデータウェアハウス上で SQL を中心としたデータ変換パイプラインを構築するための仕組みです. 先日は Dataform で Google Analytics 4 の BigQuery Export データ を変換するパイプラインを作ってみたりもしました(GitHub: terashim/dataform-google-analytics-4-example). Dataform は非常に強力なツールで, 簡単な SELECT 文を書けば CREATE TABLE 文や MERGE 文などデータ更新用のクエリを自動生成してくれます. しかし詳しく調べていくにつれて, より本格的なパイプラインを構築するにはやはり BigQuery

                            BigQuery 上でデータ変換パイプラインを構築するための SQL の書き方 | terashim.com
                          • クラウドコストの最適化のためのベスト プラクティス | Google Cloud 公式ブログ

                            ※この投稿は米国時間 2020 年 4 月 21 日に、Google Cloud blog に投稿されたものの抄訳です。 クラウドを運用する最大の利点の 1 つとして、必要に応じてスケールアップまたはスケールダウンして運用支出を節減できる点が挙げられます。この利点は、顧客のニーズに予期せぬ変化が見られるときには、特に大きくなります。 Google Cloud では、お客様がクラウドの運用費用を適正に管理できるよう、ソリューション アーキテクチャのチームが一丸となってサポートしています。長年にわたって大規模なユーザーをサポートしてきた経験を通じ、コストを最適化するうえで一般的に見落とされがちな共通事項がいくつか特定されたので、ここに紹介します。以下に挙げるベスト プラクティスは、お客様のクラウドのコストをビジネスのニーズに適合させ、今日のように先の見えない難しい状況を乗り越えるうえでも大いに

                              クラウドコストの最適化のためのベスト プラクティス | Google Cloud 公式ブログ
                            • マイクロサービスアーキテクチャ 第2版

                              2014年にThoughtworksのマーチン・ファウラーとジェームス・ルイスによって提唱された「マイクロサービス」は、いまではすっかり市民権を得て、さまざまな手法やツールが開発されています。著者は、マイクロサービスに「賛成」でも「反対」でもないという中立的な立場から、マイクロサービスの仕組み、特徴、長所、短所、課題を丁寧に説明しています。Thoughtworks在籍中から数多くのマイクロサービスプロジェクトに携わっていた著者が共有する、自身の実体験から得た多くの知見は、システム設計、開発、デプロイ、テストといった技術的側面のみならず、人材をどのように活かし、生産性を上げるかといった組織面にも多くの示唆を与えてくれるものです。組織に適したアーキテクチャを選択し、信頼性が高く、堅牢性、安全性、柔軟性に優れたシステムを設計する上で指針となる一冊です。 はじめに 第Ⅰ部 基礎 1章 マイクロサー

                                マイクロサービスアーキテクチャ 第2版
                              • Amazon ES、Amazon Athena、および Amazon QuickSight を使用して AWS WAF ログを分析する | Amazon Web Services

                                Amazon Web Services ブログ Amazon ES、Amazon Athena、および Amazon QuickSight を使用して AWS WAF ログを分析する これで AWS WAF に、サービスによって検査されたすべてのウェブリクエストをログに記録する機能が追加されました。AWS WAF は同じリージョンの Amazon S3 バケットにこれらのログを保存できますが、ほとんどのお客様は、アプリケーションをデプロイする場合はいつでも、複数のリージョンにわたって AWS WAF をデプロイします。ウェブアプリケーションのセキュリティを分析するとき、組織はデプロイされたすべての AWS WAF リージョンにわたって全体像を把握する能力を必要とします。 この記事では、AWS WAF ログを中央データレイクリポジトリに集約するための簡単なアプローチを紹介します。これにより、

                                  Amazon ES、Amazon Athena、および Amazon QuickSight を使用して AWS WAF ログを分析する | Amazon Web Services
                                • 野球のビッグデータをGCPとPySparkでいい感じに使いやすくしてみた - DataprocとGCFを使った緩いデータ基盤 - Lean Baseball

                                  最近の野球界隈の出来事が斜め上すぎて驚いてるマンです.*1 本業の仕事および, 本業じゃない個人開発や趣味プログラミングにおいて, データの量が多くて 単位やフォーマットが不揃いで それでも仕事(もしくは趣味の分析)をこなすため, いい感じの使いやすいデータセットにしないと(使命感) という機会は非常に多いです. いや, 機会が多いというより多かれ少なかれ毎日戦っている気がします. 今回は, ちょっとした分析とお遊びのため, メジャーリーグの公式データサイト「Baseball Savant」のデータを使ったBigQueryデータベースを作りたくなったので, クローラーでBaseball Savantのデータを取ってCSVにして CSVからデータを集計したり整えたりしていい感じの単位にして BigQueryから使えるようにしてみたよ! というタスクをGoogle Cloud Platform

                                    野球のビッグデータをGCPとPySparkでいい感じに使いやすくしてみた - DataprocとGCFを使った緩いデータ基盤 - Lean Baseball
                                  • PostgreSQL 11 の新機能を詳しくご紹介 | Amazon Web Services

                                    Amazon Web Services ブログ PostgreSQL 11 の新機能を詳しくご紹介 初期のPostgreSQL プロジェクトは 1986 年に大学のプロジェクトとしてスタートしました。1996 年に PostgreSQL プロジェクトはオープンソースコミュニティが引き継ぎ、毎年メジャーバージョンを定期的にリリースしています。ソフトウェアの複雑さを考えると、このような早急なリリーススケジュールには、主要な機能を小さく基本的な要素に分割する必要があります。こうした小規模で基本的な機能を組み合わせることで、最新リリースの PostgreSQL 11 を含む PostgreSQL のすべてのメジャーリリースが行われています。PostgreSQL 11 は、Amazon RDS for PostgreSQL および PostgreSQL と互換性のある Amazon Aurora の

                                      PostgreSQL 11 の新機能を詳しくご紹介 | Amazon Web Services
                                    • Amazon Aurora MySQL 3 の MySQL 8.0 互換版が一般提供 | Amazon Web Services

                                      Amazon Web Services ブログ Amazon Aurora MySQL 3 の MySQL 8.0 互換版が一般提供 Amazon Aurora は、クラウド向けに構築された MySQL および PostgreSQL 互換のリレーショナルデータベースです。Aurora は、従来のエンタープライズデータベースのパフォーマンスと可用性と、オープンソースのデータベースのシンプルさとコスト効率を持ち合わせています。Amazon Aurora MySQL は MySQL 5.7 と互換性に加え、 MySQL 8.0 とも互換性があります。MySQL 8.0 互換の Aurora MySQL 3 が一般提供されています。 Aurora MySQL 3 は、共通テーブル式 (CTE) のサポート、ロールベースの認証、レプリケーションの強化、ウィンドウ関数、インスタント DDL など、いく

                                        Amazon Aurora MySQL 3 の MySQL 8.0 互換版が一般提供 | Amazon Web Services
                                      • BigQuery スロット需給バランスの改善 〜クエリのパフォーマンス改善の事例から〜|Mercari Analytics Blog

                                        メルカリ Analytics Infra チームの na0 です。この記事では、メルカリにおける BigQuery クエリの改善によるスロット需給バランスの改善について紹介します。 2023-03-30 には、新料金体系 BigQuery Editions も発表されています。こちらには、読み取りデータ量課金(オンデマンド モデル)の値上げも含まれており、スロット量課金(BigQuery Editions)との損益分岐点の変化から、クエリのパフォーマンスについて意識する組織は増えていくことでしょう。 今回紹介するクエリの改善は、データ利用者が意識することで、メリットとなる施策です。この記事をきっかけに、BigQuery 利用者がパフォーマンスを意識してクエリを書くことや、必要に応じて詳しい人に相談できるようになることを期待しています。 「クエリが遅い!」問題メルカリ社内の BigQuery

                                          BigQuery スロット需給バランスの改善 〜クエリのパフォーマンス改善の事例から〜|Mercari Analytics Blog
                                        • AWS GlueでApache Sparkジョブをスケーリングし、データをパーティション分割するためのベストプラクティス | Amazon Web Services

                                          Amazon Web Services ブログ AWS GlueでApache Sparkジョブをスケーリングし、データをパーティション分割するためのベストプラクティス AWS GlueはApache Spark ETLジョブでのデータ分析・データ処理を行うために、様々なデータソースから大量のデータセットを準備(抽出および変換)し、ロードするサーバーレスな環境を提供します。この投稿のシリーズでは、Apache SparkアプリケーションとGlueのETLジョブの開発者、ビッグデータアーキテクト、データエンジニア、およびビジネスアナリストが、AWS Glue上で実行するデータ処理のジョブを自動的にスケールするのに役に立つベストプラクティスについて説明します。 まず最初の投稿では、データ処理を行うジョブのスケーリングを管理する上で重要な2つのAWS Glueの機能について説明します。1つ目は、

                                            AWS GlueでApache Sparkジョブをスケーリングし、データをパーティション分割するためのベストプラクティス | Amazon Web Services
                                          • BigQueryと上手に付き合う4つのTips

                                            この記事は Google Cloud Japan Customer Engineer Advent Calendar 2019 の 20日目の記事です。 はじめにこんにちは、20日目の記事は、僕も大好きな BigQuery について書いてみたいと思います。BigQuery はサーバーレスでスケーラビリティに優れたデータ ウェアハウスです。インフラストラクチャの管理が不要なため、すぐに使い始めることができます!2日目の記事で keiji-san が BigQuery について書いてくれてますので、BigQueryとはなんぞやという方はご参考ください。 このブログでは既に BigQuery を使い始めたユーザーのみなさんがより BigQuery を使いこなしていくための Tips を 4つ厳選してご紹介します! カスタム割り当てを利用して、コストをコントロールする。承認済みビューを利用して、ビ

                                              BigQueryと上手に付き合う4つのTips
                                            • AWS SUMMIT TOKYO 2019 参加レポ - Qiita

                                              (株)いい生活 サーバープラットフォームチーム の @es-y-tada です。 サーバサイドエンジニアとして、最近では EKS を基盤とした新規APIの開発を行っています。 今回は先日行われた AWS SUMMIT TOKYO 2019 のセッションのなかから、個人的に印象的だったセッションのいくつかについてレポートをします。 注目のセッション 「サービスメッシュは本当に必要なのか?何を解決するのか?」 アマゾン ウェブ サービス ジャパン株式会社 技術統括本部 ソリューションアーキテクト 原 康紘 Abstract AWS 上でのマネージド・サービスメッシュを実現する AWS App Mesh や、Kubernetes ワークロードとの親和性が高い Istio など、サービスメッシュの世界には数々のプロダクトやソリューション、アイデアが生まれつつあります。本セッションでは、マイクロサー

                                                AWS SUMMIT TOKYO 2019 参加レポ - Qiita
                                              • WSL 2 で Linux ディスクのマウントを開始する

                                                Windows でサポートされていない Linux ディスク フォーマットにアクセスする必要がある場合は、WSL 2 を使用してディスクをマウントし、そのコンテンツにアクセスすることができます。 このチュートリアルでは、WSL 2 にアタッチするディスクとパーティションを識別する手順、それらをマウントする方法、それらにアクセスする方法について説明します。 外部ドライブを接続していて、これらのマウント手順で成功しない場合は、「USB デバイスを接続する」場合の手順を試してみてください。 現在 wsl --mount コマンドは、USB、フラッシュ ドライブ、SD カード リーダーをサポートしていません (この問題の詳細については、こちらを参照してください)。 Note WSL 2 にディスクをアタッチするには、管理者アクセス権が必要です。 WSL 2 の mount コマンドでは、現在使用さ

                                                  WSL 2 で Linux ディスクのマウントを開始する
                                                • Amazon AthenaのPartition Projectionを使ったALBのアクセスログ解析環境をTerraformで構築する | Recruit Tech Blog

                                                  こんにちは。スタディサプリ ENGLISH SREグループの木村です。 はじめに 障害調査などでALBのアクセスログを解析したいというときが皆あると思います。 私はあります。 今回はAthenaを使ってALBのログを解析する方法と新機能で発表されたPartition Projectionを利用するとどのようなメリットがあるのか説明したいと思います。 ALBのアクセスログ ALBには標準でアクセスログを出力する機能があり、有効化することで自動でS3にアクセスログを保存することができます。 しかし、標準でアクセスログはgz形式で出力されており、通常解析するにはS3からダウンロードをしてきて、その後にgzを解凍してから、別途ツールを使って分析するなどの面倒な作業が発生してしまいます。 また、アクセスログはデータが大量になることも多く、DLして利用する場合でも一度に多くの範囲を分析するのは困難です

                                                    Amazon AthenaのPartition Projectionを使ったALBのアクセスログ解析環境をTerraformで構築する | Recruit Tech Blog
                                                  • PostgreSQL: PostgreSQL 12 Press Kit

                                                    Contents Original Press Release About PostgreSQL More About The Features Where to Download Documentation Licence Contacts Images and Logos Corporate Support Original Press Release PostgreSQL 12がリリースされました! PostgreSQLグローバル開発グループは本日、世界で最も先進的なオープンソースデータベースの最新バージョンであるPostgreSQL 12のリリースを発表しました。 PostgreSQL 12の機能強化には、特に大規模なデータセットでのクエリパフォーマンスと、全体的なスペース使用率の大幅な改善が含まれます。 このリリースは、アプリケーション開発者に、SQL/JSONパス式のサポート、

                                                    • dbt と Dataform を比較して Dataform を利用することにしました | MoT Lab (GO Inc. Engineering Blog)

                                                      タクシーアプリ「GO」、法人向けサービス「GO BUSINESS」、タクシーデリバリーアプリ「GO Dine」の分析基盤を開発運用している伊田です。今回、dbt と Dataform を比較して Dataform を利用することにしましたので、導入経緯および Dataform の初期構築を紹介します。 ※ 本記事の対象読者はELTツールを利用している方を対象にしています これは MoT Engineer Challenge Week 2022 Spring の記事です。 はじめに本記事では、まず、dbt および Dataform というツールについて簡単に説明させて頂き、次に現在データ分析チームが抱えている課題について取り上げます。その後、2つのツールについて検証した内容を紹介し、その結果、Dataform の導入に至った経緯を説明します。また、最後に Dataform の初期構築で工夫し

                                                        dbt と Dataform を比較して Dataform を利用することにしました | MoT Lab (GO Inc. Engineering Blog)
                                                      • Linuxシステム管理入門(LFS201-JP)-LinuxFoundation-トレーニング

                                                        おもなテーマ 第1章 イントロダクション 第2章 Linuxファイルシステムのツリーレイアウト 第3章 プロセス 第4章 シグナル 第5章 パッケージ管理システム 第6章 RPM 第7章 DPKG 第8章 yum 第9章 zypper 第10章 APT 第11章 システム監視 第12章 プロセス監視 第13章 メモリ:モニタリングの使用とチューニング 第14章 I/Oのモニタリングとチューニング 第15章 I/Oのスケジューリング 第16章 LinuxのファイルシステムとVFS 第17章 ディスクのパーティション分割 第18章 ファイルシステムの機能:属性、作成、チェック、マウント 第19章 ファイルシステムの機能:スワップ、クォータ、使用 第20章 ext2/ext3/ext4ファイルシステム 第21章 XFSおよびbtrfsファイルシステム 第22章 ディスクの暗号化 第23章 論理ボ

                                                        • Athenaで気軽にS3のデータを集計する - Qiita

                                                          S3のJSONを気軽にAthenaで集計したいと思い、安く済ます方法を調べた。 事前の印象では結構なお値段かかってしまうものだと思っていたが、小さいデータを最低コストで集計する分にはかなり安く済みそうだった。 ということで、ここでやりたいのは、 S3の小さいデータを 気軽に 安く SQLで集計する ということで、RDSなど立てるのはもってのほかである。 前提知識 パーティション データをパーティション分割することで、各クエリでスキャンするデータの量を制限し、パフォーマンスの向上とコストの削減を達成できます。Athena では、データのパーティション分割に Hive を使用します。すべてのキーでデータをパーティション化できます。一般的な方法では、時間に基づいてデータをパーティション分割します。これにより、通常、複数レベルのパーティション構成となります。たとえば、1 時間ごとに配信されるデータ

                                                            Athenaで気軽にS3のデータを集計する - Qiita
                                                          • 食べログのレストラン検索を支える Debezium と Apache Kafka - Qiita

                                                            こんにちは。食べログシステム本部技術部マイクロサービス化チームの @weakboson です。 今年の Advent Calendar では食べログに Debezium と Apache Kafka (以下 Kafka) を導入してレストラン検索インデックス同期システムのパフォーマンスを爆上げした事例を紹介します。 マイクロサービス化チームとは? 私の所属するマイクロサービス化チームには「巨大なモノリシックサービスにおける開発の辛さを解消し、少人数のチームが自律的に意思決定しながら開発するためのシステム基盤を作る」というミッションがあります。 食べログは2007年に Ruby on Rails でリプレイスしてから約15年の長期にわたって抜本的なアーキテクチャ刷新なしに開発と運用を継続しており、モノリシックで巨大なコード、かつ巨大なデータを持つ状態になっています。正直なところ現在の開発効率

                                                              食べログのレストラン検索を支える Debezium と Apache Kafka - Qiita
                                                            • エムスリーでのクラウド費用監視 - エムスリーテックブログ

                                                              こんにちは!エンジニアリンググループ、コア SRE の平岡です。 この記事はエムスリー SRE がお届けするブログリレーの3日目です。 エムスリーでは現在、クラウドプラットフォームとして AWS と GCP を採用しています。プロダクトを開発している各チームには、そのプロダクトを適切に実装できるプラットフォームを自由に選んでもらっています。 そんな中、エムスリーではここ数年、 SRE の役割をプロダクト開発チームに分散・移譲する取り組みを進めています(リレーの前記事にあった「チームSRE」の体制づくりです)。その結果、プロダクトの開発に伴うインフラ構築・管理のほとんどが各チームに一任されるようになっています。 というわけでこの記事では、エムスリーでチームSREの体制づくりを推進する中での、クラウド利用における費用監視の仕組みについてご紹介します。 中で何かが起きてそうな雲・・・ チームSR

                                                                エムスリーでのクラウド費用監視 - エムスリーテックブログ
                                                              • BigQuery で DML が無制限で利用可能に | Google Cloud 公式ブログ

                                                                ※この投稿は米国時間 2020 年 3 月 4 日に、Google Cloud blog に投稿されたものの抄訳です。 Google Cloud のエンタープライズ データ ウェアハウスである BigQuery でデータ操作言語(DML)ステートメント(INSERT、UPDATE、DELETE、MERGE など)を使用すると、BigQuery に保存されているデータを追加、変更、削除できるようになります。BigQuery の DML では、単一のジョブでテーブル内の多数の行の挿入、更新、削除がサポートされています。 BigQuery チームでは、DML 機能を継続的に改良して、パフォーマンス、スケーラビリティ、ボリュームの向上を目指しています。このたび、BigQuery で DML オペレーションの割り当て制限がすべて撤廃され、テーブルに対して数に制限なく DML ステートメントを実行でき

                                                                  BigQuery で DML が無制限で利用可能に | Google Cloud 公式ブログ
                                                                • 【超図解】簡単、安心のパーティション管理は本当だった!!おすすめのパーティション管理ソフト「EaseUS Partition Master」をレビュー - Life. Half of the rest ?

                                                                  パーティション管理ソフトのおすすめ こんにちは、おっちゃんブロガーのじんのん(@deep_sea1)です。 「パソコンにCドライブしかなくて、OSやアプリ、保存データの管理が煩雑~!」 「Cドライブが容量いっぱいで動作が遅い~!」 そんな時はちょっと待ってください。 今回、簡単にパーティション管理ができると噂の「EaseUS Partition Master」を入手しましたので、皆さんと情報共有したいと思います。 それでは、パーテーション管理ソフト「EaseUS Partition Master」のレビューをご覧ください。 PCにおけるCドライブ(起動ドライブ)の困りごとを考えてみる 「EaseUS Partition Master」の入手先 「EaseUS Partition Master」の仕様について 「EaseUS Partition Master」のインストール Cドライブのパー

                                                                    【超図解】簡単、安心のパーティション管理は本当だった!!おすすめのパーティション管理ソフト「EaseUS Partition Master」をレビュー - Life. Half of the rest ?
                                                                  • 第750回 LXDとUbuntuサーバーで、RAID障害時の再構築の予行演習と監視について確認する | gihyo.jp

                                                                    Ubuntu Weekly Recipe 第750回LXDとUbuntuサーバーで、RAID障害時の再構築の予行演習と監視について確認する 今回はmdraidを使ったソフトウェアRAID環境における「再構築(リビルド)」を試してみましょう。RAIDにおける再構築とは、簡単に言うと「ストレージ障害の回復作業中にもう一台を壊す、もしくは実は壊れていたことに気づく」仕組みです。きちんと運用されていたら、壊れることになくシステムが回復する可能性は高いのですが、実際のところは作業者のKarma値ないしLuck値次第となります。1%の確率で起きる事象を100%ひいてしまう人が世の中にはいるのです。 そこで今回は少しでも再構築作業がスムーズに進むように、その予行演習を行いましょう。今回もLXDで構築した仮想RAID環境を利用します。LXDを用いてソフトウェアRAID環境を構築する方法は、次の回を参考にし

                                                                      第750回 LXDとUbuntuサーバーで、RAID障害時の再構築の予行演習と監視について確認する | gihyo.jp
                                                                    • BigQueryってなんだっけ? そんな君たちに教えたい本見つけた�のでまとめてみる。 - Qiita

                                                                      対象読者 データ分析基盤を作ってみたいけど、分析基盤の作り方がわからない BigQueryって聞いたことあるけど、実際に使ったことがない。興味ある。 BigQueryって使おうと思ってググってみたけどあんまりまとまった情報がない そのような気持ちを持つ方が読者想定です。 自身もこの本に出会う前には、同じようなBigQuery童貞でした。 (結論)イイタイコト BigQuery初心者や、これから導入考えてる人が、読むべき本を見つけました!! Google Cloud Platform実践ビッグデータ分析基盤開発 ストーリーで学ぶGoogle BigQuery です。 あまりBigQueryの本がなく、半信半疑で読みましたがBigQueryの全体像が捉えられる良書でした。 この本のイイところ この本のイイところは3つあります。 BigQueryの概要が難しすぎず、ちょうどかゆいところに手が届く

                                                                        BigQueryってなんだっけ? そんな君たちに教えたい本見つけた�のでまとめてみる。 - Qiita
                                                                      • オラクル、インメモリー分散DB「MySQL HeatWave」の運用をマシンラーニングで自動化 | IT Leaders

                                                                        IT Leaders トップ > テクノロジー一覧 > データベース > 新製品・サービス > オラクル、インメモリー分散DB「MySQL HeatWave」の運用をマシンラーニングで自動化 データベース データベース記事一覧へ [新製品・サービス] オラクル、インメモリー分散DB「MySQL HeatWave」の運用をマシンラーニングで自動化 2021年8月11日(水)日川 佳三(IT Leaders編集部) リスト 米オラクルは2021年8月10日(米国時間)、クラウド型データベース「MySQL HeatWave」に運用自動化機能「MySQL Autopilot」を追加したと発表した。MySQL HeatWaveのチューニングをマシンラーニング(機械学習)で自動化する。MySQL HeatWaveユーザーは追加費用なく利用できる。 米オラクル「MySQL Database Servic

                                                                          オラクル、インメモリー分散DB「MySQL HeatWave」の運用をマシンラーニングで自動化 | IT Leaders
                                                                        • ログ分析の向上におすすめする 5 つの手段 | Google Cloud 公式ブログ

                                                                          ※この投稿は米国時間 2019 年 12 月 6 日に、Google Cloud blog に投稿されたものの抄訳です。 Stackdriver Logging は Google Cloud の運用管理ツールセットの 1 つで、大規模なログ管理や分析に適しており、ハイブリッド クラウド環境のトラブルシューティングやアプリケーションの分析情報の取得などにご利用いただけます。ただし、マシンが生成するデータを大量に使用すると、ログの検索が難しくなることがあります。 Google が Stackdriver Logging ユーザーの協力を得て長年取り組んできた、必要な値をログから引き出す簡単かつ最適な方法がようやく形になりました。Google が収集した、ログ分析の効率向上やすばやいトラブルシューティングに役立つヒントを紹介します。これには検索内容の保存、クエリ ライブラリ、BigQuery へ

                                                                            ログ分析の向上におすすめする 5 つの手段 | Google Cloud 公式ブログ
                                                                          • BigQueryのパーティションとクラスタリングについての解説 - G-gen Tech Blog

                                                                            G-genの杉村です。Google Cloud (旧称 GCP) の誇るデータウェアハウスサービスである BigQuery には、パフォーマンスの向上に当たり パーティション と クラスタリング という重要な概念があります。 それぞれの仕組みや使い分けを解説していきます。 パーティション パーティションとは パーティションフィルタ要件 (Partition filter requirements) メリット パーティションの分割基準 時間の列 取り込み時間 整数範囲の列 パーティションの管理 クラスタリング クラスタリングとは クラスタ化に指定する列 自動再クラスタリング パーティション VS クラスタリング パーティションとクラスタリングの違い パーティションとクラスタリングの使い分け パーティション・クラスターのレコメンデーション その他 注意点 参考情報 パーティション パーティショ

                                                                              BigQueryのパーティションとクラスタリングについての解説 - G-gen Tech Blog
                                                                            • SaaSテナント分離をAWS IAMとABACで実装する方法 | Amazon Web Services

                                                                              Amazon Web Services ブログ SaaSテナント分離をAWS IAMとABACで実装する方法 この記事は、How to implement SaaS tenant isolation with ABAC and AWS IAMを訳したものです。 マルチテナントアプリケーションにおいては各テナントのリソースが他のテナントからアクセスできないように設計を行う必要があります。AWS Identity and Access Management (IAM) は多くの場合、この目的を達成するための重要な要素となりえます。一方で、IAMを用いることによる課題の一つとして、テナント分離を実現するのに必要な IAM ポリシーの数と複雑さが急速に拡大することにより分離モデルの規模と管理性に影響を与えることが挙げられます。IAM の 属性ベースのアクセスコントロール (ABAC) の仕組みはこ

                                                                                SaaSテナント分離をAWS IAMとABACで実装する方法 | Amazon Web Services
                                                                              • AthenaでHIVE_PARTITION_SCHEMA_MISMATCHが発生 GlueカタログのTableとPartitionの間のスキーマに不整合直して解消 - YOMON8.NET

                                                                                掲題のエラーに当たってサポートに対応教えてもらったのでメモ。 事象 原因 パーティションの例 テーブルのスキーマ パーティション毎のスキーマ 対応 参考 事象 CSVをGlueを使ってパーティション分割して、AthenaでプレビューしてみたらHIVE_PARTITION_SCHEMA_MISMATCHというエラーが発生しました。 SELECT * FROM "tablename" limit 10; Your query has the following error(s): HIVE_PARTITION_SCHEMA_MISMATCH: There is a mismatch between the table and partition schemas. The types are incompatible and cannot be coerced. The column 'drop

                                                                                  AthenaでHIVE_PARTITION_SCHEMA_MISMATCHが発生 GlueカタログのTableとPartitionの間のスキーマに不整合直して解消 - YOMON8.NET
                                                                                • re:Invent 2019 12月3日のまとめ | Amazon Web Services

                                                                                  Amazon Web Services ブログ re:Invent 2019 12月3日のまとめ みなさん、こんにちは。アマゾン ウェブ サービス ジャパン、プロダクトマーケティング シニアエバンジェリストの亀田です。re:Invent 2019 2日目(12月3日)が終了しました。本日はAndy JassyのKeynoteがあり、非常に多くのサービスが発表されました。re:Invent2019らしい一日でした。 またJapan Nightもおこなわれ会場は大きく盛り上がりました。弊社代表取締役社長の長崎による始球式 (ストライクチャレンジ中) 司会を務めさせていただくのもなんと4年目となりました。今年は会場も広く音量も適切で安心しました。 それでは早速本日のまとめです。 Amazon Kendraが発表されました 機械学習を活用した非常に正確で使いやすい新しいエンタープライズ検索サービス

                                                                                    re:Invent 2019 12月3日のまとめ | Amazon Web Services