kma83のブックマーク / 2017年3月7日 - はてなブックマーク

kma83 id:kma83

2017年3月7日のブックマーク (6件)

Digdag + EmbulkによるTSVファイルのS3→Redshiftロード #digdag | DevelopersIO
はじめにこんにちは、yokatsukiです。先日6月18日、第五回ゲームサーバ勉強会に参加してきました。そこで、トレジャーデータのサポートエンジニアマネージャー高橋様から、直前の6月15日にオープンソース化されたばかりのDigdagの説明がありました。その時の発表スライドは下記です。 Digdagは弊社でも何名かが既に触ってブログで公開(下記)しているので、名前と目的は知ってましたが、説明とデモを見るうちに自分でも試してみたくなりました。 Embulk界隈で話題になっている分散ワークフローエンジン「DigDag」について調べてみた #digdag Treasure Data社のOSSワークフローエンジン『Digdag』を試してみた #digdag｜Developers.IO という訳で、簡単ではありますが共有します。テーブル定義の無いTSVファイルをRedshiftへロードする通
kma83 2017/03/07
リンク
embulk-input-s3/README.md at master · embulk/embulk-input-s3
kma83 2017/03/07
リンク
並列化で3倍以上速くなるembulk v0.8 - Qiita
2015-12-25 17:17:48.617 +0900 [INFO] (transaction): Using local thread executor with max_threads=48 / output tasks 24 = input tasks 1 * 24 これらの意味はつぎのようになるようです。 input tasks 1: inputタスクの数(fileの場合読み込んだファイル数) 24: min_output_tasksの値(初期値: CPUの数) output tasks 24: inputタスクの数 x min_output_tasks max_threads=48: max_threadsの数(初期値: CPUの数x2) ※ 上記CPUの数は、Linuxで言うところの/proc/cpuinfoのprocessorの数です。検証検証したハードウェア CPU
kma83 2017/03/07
リンク
Embulk: Configuration
Embulk configuration file format Embulk uses a YAML file to define a bulk data loading. Here is an example of the file: in: type: file path_prefix: ./mydata/csv/ decoders: - {type: gzip} parser: charset: UTF-8 newline: CRLF type: csv delimiter: ',' quote: '"' escape: '"' null_string: 'NULL' skip_header_lines: 1 columns: - {name: id, type: long} - {name: account, type: long} - {name: time, type: ti
kma83 2017/03/07
null文字の扱いとか

embulk
リンク
ステータスチェックに失敗した Linux インスタンスのトラブルシューティング - Amazon Elastic Compute Cloud
Amazon EC2 コンソールを使用して、問題のあるインスタンスを調査するにはAmazon EC2 コンソール (https://console.aws.amazon.com/ec2/) を開きます。ナビゲーションペインで [インスタンス] を選択し、インスタンスを選択します。詳細ペインの [ステータスとアラーム] タブを選択して、すべての [システムステータスのチェック] と [インスタンスステータスのチェック] に関する個々の結果を表示します。インスタンスの復旧アラームを作成します。詳細については、「インスタンスを停止、終了、再起動、または復旧するアラームを作成する」を参照してください。インスタンスタイプを AWS Nitro システム上に構築されたインスタンスに変更した場合、必要な ENA と NVMe ドライバーがないインスタンスから移行するとステータスチェックは失敗しま
kma83 2017/03/07
リンク
AWS Solutions Architect ブログ
こんにちは、ソリューションアーキテクト焼尾です。 2017/3/1 に開催いたしました AWS Black Belt Online Seminar「Amazon Athena」の資料を公開しました。当日ご参加頂いた皆様からのご質問の回答とあわせて紹介させて頂きます。 Q1. 最大クエリ容量は、S3の容量要件に準拠されるのでしょうか？ A1. そう考えていただいて問題はないですが，より現実的な制約として，実行に30分以上かかるクエリはエラーとなりますので，実質的にはこちらが最大クエリ容量に影響するとお考えいただければと思います．なお，クエリの実行時間上限は，緩和申請を行うことが可能です． http://docs.aws.amazon.com/athena/latest/ug/service-limits.html Q2. (S3に用意する)フォルダは、必須でしょうか？ A2. S3はオブジ
kma83 2017/03/07
あとで読む
リンク
- 2017年3月8日
- 2017年3月7日
- 2017年3月6日