デフォルトの Executor プラグインで、Embulk を実行したホストのリソースを使用してバルクロード処理を行う。その他の Executor プラグインとしては MapReduce Executor プラグインが存在し、そちらではHadoop上でバルクロード処理を実行することができたりする。
モチベーション & ターゲット 既に出尽くされているであろうGoogle BigQueryのテーブル設計について改めて考えてみます。 特にこれからBQを使おうという方や、データサイズがそれほど大きくなく特に検討する必要がなかった (ただし、これから大きなデータ扱うかも)という方向けという感じです。あと自分の備忘録としてメモ的に書いています (私見なので間違いもあります、ご指摘いただければ幸いです) 取り扱うアーキテクチャ データを転送したい「元」はサービスやDB・ストレージなどを想定します(要は何でもOK) 転送するためのサービスはembulkを使用するイメージ 転送先はDWHを想定し、今回はGoogle BigQueryをチョイス 特にそれぞれの何が良い/悪いみたいな話は割愛します 転送元で考えること BigQueryに入れるので、基本的には構造化なデータが取得できるサービスやシステムを
in: type: file path_prefix: {{env.INPUT_FILEPATH}} parser: type: csv # 以下省略 out: type: bigquery # 以下焼灼 2019-06-07 13:57:01.374 +0900 [INFO] (2600@[0:sample]+daily-1+send_user_summary^sub+loop-0+embulk) io.digdag.core.agent.OperatorManager: sh>: embulk run ./embulk/send_bq.yml.liquid 2019-06-07 13:57:01.708 +0900: Embulk v0.9.17 2019-06-07 13:57:02.298 +0900 [WARN] (main): DEPRECATION: JRuby org.jr
AWSシステムマネージャー (SSM) SSM(AWS Systems Manager)は、AWS、オンプレミス、その他のクラウドなど、あらゆるインフラでサーバを管理するためのエージェントベースのプラットフォームです。EC2インスタンスを管理するために、Amazonはリモートコマンドを実行するEC2 Run Commandや、Chef Agentによる構成管理を行うAWS OpsWorksといった、緩やかに連携したサービスを提供していた。しかし、すべてのサーバーを簡単かつ効率的に管理するためのソリューションがない、というギャップがありました。そこで、その穴を埋めるべく登場したのがSSMです。 SSMの特徴 Run Command これにより、管理対象サーバーに対してアドホックなリモートコマンドを実行できるようになりました。以前は、Ansible、Bastion Hosts、その他の類似サー
はじめに 目的 現在の会社ではEmbulk関連の問い合わせを受けることが多い。この記事は自身の備忘録を兼ねて書いている。 Embulkって何? EmbulkはFluentdやMessage Packで有名な古橋さんが開発した、バルク処理用のOSS。Fluetdだと細かくデータを転送するのには向いているが(いわゆるストリーミング処理)、データベースのテーブルまるごとや巨大なログ・ファイルの転送には向いておらず、Embulkはその課題を解決するためのもの。(バルク処理) Embulkを使うメリット 自動的にInput fileの形式を推測してくれる機能(あくまで推測する機能) ビックデータを並行処理・分散処理してくれる トランザクション処理があり、中途半端にデータが投入されている危険性をなくしてくれる。(All-or-Nothing) 途中から再開できる。 Embulkの使い方について 前提条
概要 embulk+digdagでデータベースのコピーを行い、コピーしたデータベースをmetabaseで閲覧できるようにしたデータ分析基盤を構築しました。 その際embulkを使ってMySQLにデータをコピーする時にいろいろハマったので、その解決方法を紹介します。 embulkとは? 今回利用したembulkとは、以下のように紹介されています。 Embulk(エンバルク)とは、オープンソースの並列データ転送フレームワークです。 「fluentd」のバッチ版のようなバルク処理に特化したプラグインベースのデータローダーです。 大規模データセットのバルクインポートを行えます。 引用元:https://www.ossnews.jp/oss_info/Embulk 詳細は他のサイトに譲りますが、このようにembulkとはデータ転送を行うためのフレームワークで、これを利用することでymlファイルを作成
一切皆苦。ドイツ語には、Leben ist Leidenつまり「生きることは苦しむこと」と訳されます。 もう少し控えめに解釈すれば、この世に生まれるのも、歳を取るのも、病気して死ぬのも、どれも自分の意志でするわけではない。また、自分で選んだこの人生に対して「ああ、ほかの人生ではなく、この生老病死でちょうどよかった!」と思うこともまずない。「生きることは苦しむこと」が言い過ぎなら、生きることはなんとなく物足りないと言えば仏教の脱出ゲームに参加したくなる人も多くなるのではないでしょうか。 もちろん、仏教の脱出ゲームに参加したくない人や、そもそもその意味が分からないという人もいるでしょう。たとえば、こういう反論が予想されます。 ①「生老病死のうちの老い、病と死に関してはなるほど、あまり楽しいイメージはない。しかし、その根本にある『生』は違う。僕は生まれたこと自体に文句はない。人生って、総じて考え
本連載の第五回、第六回とこれまで二回にわたって、坐禅の割り稽古を進めていくうえで最も基礎になると思われる二つの力量、すなわち ①自分の身体の形や、サイズ、位置や構造を概念的にではなく、感覚を通して直接に正しく知る力 、そして ②刻々に変化する身体的な感覚をリアルタイムで繊細にとらえられる力 について論じ、それを育成するための具体的なワークをいくつか紹介した。 しばしば、坐禅は「動と静」という二元論的な分類に基づいて静のカテゴリーに入れられることが多いが、私は坐禅を止まるという「運動」として考えている。あるいは、動か静かの状態の二者択一ではなく、粗大な動からより微細な動へと向かうプロセスであると考えている。つまり、現在進行形で動から静へと向かいつつあるダイナミックな状態なのであるから、それは動でもなく静でもないと言えるし、また動でもあり静でもあると言える。まさに「動中に静あり、静中に動あり」
概要 AWSリソースにIAMポリシー権限を渡すときはIAMポリシーがアタッチされているIAMロールを作成し、そのIAMロールをAWSリソースに付与することで付与されたAWSリソースは他のリソースへの操作権限が与えられます。 ですがEC2を作成する画面にIAMロールをアタッチする箇所がなく、IAMインスタンスプロファイルを設定する箇所が存在します。 AWS CLIでもパラメータにIamInstanceProfileという項目があり、Arnにもinstance-profileと記載されています。 aws ec2 describe-instances --query "Reservations[].Instances[].IamInstanceProfile.Arn" [ "arn:aws:iam::XXXXXXXXXXXX:instance-profile/Yuta20210911" ] この
こんにちは!イーゴリです。 前回の記事に続き、今回の記事では、Amazon Elastic Container Service (EC2 Linux + ネットワーキング)をご紹介したいと思います。(ちなみに、次の記事では、サーバーレース(Fargate)方法をご紹介します) ECSクラスターの作成 タスク定義の作成 タスク定義の起動 正常性確認 ECSクラスターの作成 [サービス]>[Elastic Container Service]>ECSの[クラスター]>[クラスターの作成]をクリックします。 [EC2 Linux + ネットワーキング]を選択し、[次のステップ]をクリックします。 [クラスター名]を入力します。 [空のクラスターの作成]はFargateのために使用されているため、チェックを入れないまま次に進みます。 [プロビジョニングモデル]で[オンデマンドインスタンス]を選択し
はじめに ECSには4つのIAM Roleが出てきます。それぞれAWS Management Consoleや公式ドキュメントには説明がありますが、実際の設定・挙動と突き合わせてどうなっているか分かりにくいため、整理しました。 なお、本稿では情報過多を避けるため、一旦、Service IAM role (Service-Linked Role) の説明は省いています。 3つのIAM Role ECSで稼働するコンテナの動作には、主に以下の3つのIAM Roleが関わってきます。それぞれの役割、利用されるタイミングを説明します。 Container Instance IAM Role Task Execution Role Task Role TL;DR ※ Launch Typeによる挙動の違い 参照。 解説 Container Instance IAM Role Fargateを利用しな
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く