タグ

2017年3月7日のブックマーク (6件)

  • Digdag + EmbulkによるTSVファイルのS3→Redshiftロード #digdag | DevelopersIO

    はじめに こんにちは、yokatsukiです。 先日6月18日、第五回ゲームサーバ勉強会に参加してきました。 そこで、トレジャーデータのサポートエンジニアマネージャー高橋様から、直前の6月15日にオープンソース化されたばかりのDigdagの説明がありました。その時の発表スライドは下記です。 Digdagは弊社でも何名かが既に触ってブログで公開(下記)しているので、名前と目的は知ってましたが、説明とデモを見るうちに自分でも試してみたくなりました。 Embulk界隈で話題になっている分散ワークフローエンジン「DigDag」について調べてみた #digdag Treasure Data社のOSSワークフローエンジン『Digdag』を試してみた #digdag|Developers.IO という訳で、簡単ではありますが共有します。 テーブル定義の無いTSVファイルをRedshiftへロードする 通

    Digdag + EmbulkによるTSVファイルのS3→Redshiftロード #digdag | DevelopersIO
    kma83
    kma83 2017/03/07
  • embulk-input-s3/README.md at master · embulk/embulk-input-s3

    kma83
    kma83 2017/03/07
  • 並列化で3倍以上速くなるembulk v0.8 - Qiita

    2015-12-25 17:17:48.617 +0900 [INFO] (transaction): Using local thread executor with max_threads=48 / output tasks 24 = input tasks 1 * 24 これらの意味はつぎのようになるようです。 input tasks 1: inputタスクの数(fileの場合読み込んだファイル数) 24: min_output_tasksの値(初期値: CPUの数) output tasks 24: inputタスクの数 x min_output_tasks max_threads=48: max_threadsの数(初期値: CPUの数x2) ※ 上記CPUの数は、Linuxで言うところの/proc/cpuinfoのprocessorの数です。 検証 検証したハードウェア CPU

    並列化で3倍以上速くなるembulk v0.8 - Qiita
    kma83
    kma83 2017/03/07
  • Embulk: Configuration

    Embulk configuration file format Embulk uses a YAML file to define a bulk data loading. Here is an example of the file: in: type: file path_prefix: ./mydata/csv/ decoders: - {type: gzip} parser: charset: UTF-8 newline: CRLF type: csv delimiter: ',' quote: '"' escape: '"' null_string: 'NULL' skip_header_lines: 1 columns: - {name: id, type: long} - {name: account, type: long} - {name: time, type: ti

    kma83
    kma83 2017/03/07
    null文字の扱いとか
  • ステータスチェックに失敗した Linux インスタンスのトラブルシューティング - Amazon Elastic Compute Cloud

    Amazon EC2 コンソールを使用して、問題のあるインスタンスを調査するにはAmazon EC2 コンソール (https://console.aws.amazon.com/ec2/) を開きます。 ナビゲーションペインで [インスタンス] を選択し、インスタンスを選択します。 詳細ペインの [ステータスとアラーム] タブを選択して、すべての [システムステータスのチェック] と [インスタンスステータスのチェック] に関する個々の結果を表示します。 インスタンスの復旧アラームを作成します。詳細については、「インスタンスを停止、終了、再起動、または復旧するアラームを作成する」を参照してください。 インスタンスタイプを AWS Nitro システム上に構築されたインスタンスに変更した場合、必要な ENA と NVMe ドライバーがないインスタンスから移行するとステータスチェックは失敗しま

    kma83
    kma83 2017/03/07
  • AWS Solutions Architect ブログ

    こんにちは、ソリューションアーキテクト 焼尾です。 2017/3/1 に開催いたしました AWS Black Belt Online Seminar「Amazon Athena」の資料を公開しました。当日ご参加頂いた皆様からのご質問の回答とあわせて紹介させて頂きます。 Q1. 最大クエリ容量は、S3の容量要件に準拠されるのでしょうか? A1. そう考えていただいて問題はないですが,より現実的な制約として,実行に30分以上かかるクエリはエラーとなりますので,実質的にはこちらが最大クエリ容量に影響するとお考えいただければと思います.なお,クエリの実行時間上限は,緩和申請を行うことが可能です. http://docs.aws.amazon.com/athena/latest/ug/service-limits.html Q2. (S3に用意する)フォルダは、必須でしょうか? A2. S3はオブジ