タグ

batchに関するslay-tのブックマーク (17)

  • AWS S3バッチオペレーションのちょっとしたtipsなどのご紹介 - たきざわの日記

    このエントリは、はてなエンジニアAdvent Calendarの9日目の記事としてかかれました。 AWS S3にはバッチオペレーションというマネージドサービスがあって、これは指定したバケット/オブジェクトに対して一括で何かしらの操作ができる。例えば「バケット内のすべてのオブジェクトを別バケットにコピーしたい」とかそういう時に使うと便利。 aws.amazon.com その一括操作ではLambdaを利用することもできる。Lambdaを使うとかなり柔軟な操作ができるようになるが、ドキュメントを見ただけでは最初どうしたらいいかわからなかった上に、利用する機会もそんなに無いので覚えられない。その他にも最初に知ってたらよかったみたいなのが細々とあるので、そういうのを少しまとめておく。 なお、このエントリではS3 バッチオペレーション自体のジョブの登録のやり方自体は割愛する。まずS3バッチオペレーショ

    AWS S3バッチオペレーションのちょっとしたtipsなどのご紹介 - たきざわの日記
  • Cloud Composerによるデータバリデーション ~常に正確なデータ集計を実現するために~ - ZOZO TECH BLOG

    こんにちは。ECプラットフォーム部データエンジニアの遠藤です。現在、私は推薦基盤チームに所属して、データ集計基盤の運用やDMP・広告まわりのデータエンジニアリングなどに従事しています。 以前、私たちのチームではクエリ管理にLookerを導入することで、データガバナンスを効かせたデータ集計基盤を実現しました。詳細は、以前紹介したデータ集計基盤については以下の過去記事をご覧ください。 techblog.zozo.com 記事では、データ集計基盤に「データバリデーション」の機能を加えて常に正確なデータ集計を行えるように改良する手段をお伝えします。 データバリデーションとは バリデーション導入後のデータ集計基盤 ジョブネット構築 テンプレートによる効率的なDAGの作成 DAG間の依存関係の設定方法 バリデーションDAGのタスク構成 まとめ データバリデーションとは データバリデーションとはデータ

    Cloud Composerによるデータバリデーション ~常に正確なデータ集計を実現するために~ - ZOZO TECH BLOG
  • Rails/ActiveRecord バッチ処理の最適化 - Hack Your Design!

    目次 検証環境前提条件オリジナルコード ベンチマーク最適化1: 簡単な最適化 ベンチマーク最適化2: where & each を使う ベンチマーク最適化3: find_each を使う ベンチマーク最適化4: in_batches & update_all を使う ベンチマーク最適化5: where & update_all ベンチマーク最終結果「ActiveRecordデータ処理アンチパターン」で発表します参考リンクRailsのバッチ処理最適化の記事書いたら需要あるかな — toshimaru (@toshimaru_e) December 2, 2017ということで今日はRailsバッチ処理の最適化について書いてみたいと思います。 検証環境コードの検証に使った環境は下記の通りです。 macOS High Sierra (2.3 GHz Intel Core i5 / メモリ8G)Ru

    Rails/ActiveRecord バッチ処理の最適化 - Hack Your Design!
  • 25K request/secをさばいた「LINEのお年玉」のアーキテクチャの裏側 - LINE ENGINEERING

    みなさんこんにちは、LINEのサーバーサイドエンジニアの長谷部です。普段は、最近でいうとLINE Login や LINE Customer Connect などの開発を担当しています。 2018年の年始に LINEのお年玉 というイベントを実施し、その開発を担当しました。今回の記事では、LINEのお年玉のアーキテクチャの紹介や、当日実際に発生した問題(サービス過負荷起因のkafka consumer遅延)などの振り返りについて書こうと思います。 LINEのお年玉とは お年玉イベント期間中に、お年玉とLINEスタンプをセットで「お年玉つきスタンプ」として販売しました。対象スタンプを購入したユーザーさんは、スタンプ購入数 x 10個 のお年玉が付与されます。 こういったメッセージが受信されます ユーザーは自分がもっているお年玉を友だちに直接送ったりグループに送信することができ、お年玉を受け取

    25K request/secをさばいた「LINEのお年玉」のアーキテクチャの裏側 - LINE ENGINEERING
  • AWS Batchを本番導入するにあたって考えたことアレコレ - nisshieeのブログ

    この記事は Speeeアドベントカレンダー2017の1日目です!よければ購読してやってください。 qiita.com Speee DEVELOPER BLOGもよろしくね! TL; DR AWS Batchを番導入したよ 結構クセはあるが、それを補って余りあるメリット(特にスケーラビリティ) 現状はAWS Batchの活かし方の知見を貯めている段階だが、今後適切な用途があれば積極的に使いたい AWS Batchとは 一言で言うと、「ECSクラスタの薄いラッパー + ちょっと賢いJOB Queue + 賢いAutoScaling(オプション)」て感じ。 ベースにあるのはECSクラスタなので、DockerImageを用意して、ジョブをDockerContainerの実行として定義して、ジョブを発行するという流れはECSと同じ。 ECSはクラスタの各インスタンスが持っている計算リソースと、事前

    AWS Batchを本番導入するにあたって考えたことアレコレ - nisshieeのブログ
  • Amazon ECS ScheduledTaskで実現するスマートなDockerベースのバッチ実行環境 - コネヒト開発者ブログ

    こんにちは。インフラエンジニアの永井(shnagai)です。 コネヒトでは、開発環境に続き、続々と番サービスにもDockerを導入しています。 今回は、中々運用が大変なcronでスケジュール管理するような定期的なバッチ処理を、Amazon ECSのScheduledTaskを使ってDocker駆動な環境で構築した話です。 他の方法との比較やどのように実現しているのかについて紹介したいと思います。 今回対象とするバッチの種類 今回対象とするバッチ処理は、俗に言うスケジュール系のバッチ処理で、毎日00時00分や10分毎にサイクル起動等、事前に定義した時間に正確に動くことが期待されているものです。 ※ジョブキュー形式のバッチだと、AWS BatchやEBのWorkerもしくは、SQS + Cron on EC2で処理するほうがスマートかと思います。 実行方式の選定 上記要件のバッチを実現する基

    Amazon ECS ScheduledTaskで実現するスマートなDockerベースのバッチ実行環境 - コネヒト開発者ブログ
  • Digdag 入門 - GMOインターネットグループ グループ研究開発本部

    D. M. です。レガシーの crontab が肥大化して困っています。今日はそのリプレイス候補である Digdag を使ってみた話です。 やりたいこと crontab は Linux のスケジューラの仕組みで定期バッチの実行用途でよく利用されますが低機能です。順序の依存関係やアラートは毎回独自に作りこまなければいけません。そのため近年は代替スケジューラを利用するケースが多いです。その候補のひとつである Digdag について検証したいと思いました。 Digdag を使うべき人 一般的にバッチスケジューラに求められる要件的には以下のようなものがあります。 ・スケジュール実行 ・複数バッチの順番の制御(ワークフロー) ・GUIでの管理 ・失敗時のアラート ・SLA 機能(長時間実行していたらアラートを飛ばす) ・分散実行 などなど 代替として広く知られているものですと Jenkins でのワ

    Digdag 入門 - GMOインターネットグループ グループ研究開発本部
  • Linuxのschedのpriorityとリアルタイムシステムについて - Qiita

    はじめに Linuxでいわゆるリアルタイムシステムを指向するときはsched(7)のpriority値を意識することになるが、個人的にいつもpriorityの値を相対的にしか見られず、絶対的にかつどっちが上・下かについてわからなくなってしまうので、そんな自分のためにメモ書きしておくことにした・・・つもりが、なにか途中から趣旨を間違えた記事になってしまった。当は「priority一覧表」がほしかっただけだったのに... なお、Linux-4.10くらい、procps-ng-3.3.12くらい、util-linux-2.29.2くらいを見ています。 schedのpolicyとpriority値 Linuxでは、ユーザプログラム・kernelスレッド問わず、タスクにsched policyを設定できる。下記の上3つがいわゆるリアルタイムスケジューリング、下3つがいわゆるタイムシェアスケジューリ

    Linuxのschedのpriorityとリアルタイムシステムについて - Qiita
  • 府大生が趣味で世界一の認識精度を持つニューラルネットワークを開発してしまった論文を読んだ - Qiita

    Deep Learning Advent Calendar 2016の20日目の記事です。 ConvNet歴史とResNet亜種、ベストプラクティスに関連スライドがあります(追記) 背景 府大生が趣味で世界一の認識精度を持つニューラルネットワークを開発してしまったようです。 M2の学生が趣味でやっていたCIFAR10とCIFAR100の認識タスクで,現時点での世界最高性能の結果を出したそうだ…趣味でっていうのが…https://t.co/HKFLXTMbzx — ニーシェス (@lachesis1120) 2016年12月7日 府大のプレスリリース 一般物体認識分野で、府大生が世界一の認識精度を持つニューラルネットワークを開発 黄瀬先生の研究室の学生さんだそうです。凄いですね! ちょうどResNet系に興味があったので、読んでみます。この論文を理解するには、ResNet, (Wide

    府大生が趣味で世界一の認識精度を持つニューラルネットワークを開発してしまった論文を読んだ - Qiita
  • TensorFlowによるアイドル顔識別器の話 - 2016.12.13 TensorFlow User Group #2 - Qiita

    自己紹介 すぎゃーん (id:sugyan) Web系エンジニア ドルヲタ TensorFlowで機械学習に入門 (2015.11〜) はてなブログ書いてます すぎゃーんメモ http://memo.sugyan.com/ アジェンダ アイドル顔識別について 自作識別器の紹介 データセット・学習の話 可視化 前回のあらすじ TensorFlowによるアイドル顔識別器の話 (2016.9.28) 学習用データセットの収集・作成 …の苦労話 モデルの評価と実験 収集したデータを使った顔画像生成 など アイドル顔識別について 問題設定 (やりたいこと) 「入力した画像に対し、写っているのが『どのアイドル(人物)か』を機械学習により自動判定する」 画像に対する 物体検出 + 分類 顔検出は今のところCloud Vision API任せ 検出された領域を抽出した個々の顔画像に対する分類がメイン LI

    TensorFlowによるアイドル顔識別器の話 - 2016.12.13 TensorFlow User Group #2 - Qiita
  • AWS Batch – AWSでバッチ処理ジョブを実行する | Amazon Web Services

    Amazon Web Services ブログ AWS Batch – AWSでバッチ処理ジョブを実行する 私は1978年秋に大学に入学しました。モンゴメリー・カレッジのコンピュータ・サイエンス部門は、強力な(当時の)IBM 370/168メインフレームを中心に構築されました。 Keypunchマシンを使用してカードデッキを準備する方法、実際のコードの前にジョブの名前と優先順位を設定し、FORTRAN、COBOL、またはPL / Iコンパイラを呼び出す暗黙のジョブ制御言語(JCL) 。デッキを提出ウィンドウに持ってきて、ジョブIDと引き換えにオペレーターに渡してから、数時間後に戻って印刷出力とカードデッキを回収します。私はその印刷物を慎重に研究しましたが、仕事に就いて数時間を待ってから、実際の稼動時間はほんの数秒であったことに気付いていました。仲間の学生と私がすぐに学んだように、学校のIT

    AWS Batch – AWSでバッチ処理ジョブを実行する | Amazon Web Services
  • [速報]「AWS Batch」発表。AWS上でスケーラブルなバッチ処理を実現。AWS re:Invent 2016

    こうした膨大なデータ処理にはバッチ処理が用いられるが、サーバクラスタのプロビジョニングやバッチ処理ソフトウェアのインストール、ジョブの管理やスケジューリングなど、困難が多いとVogels氏は指摘。 そこで発表されたのが「AWS Batch」です。どんなスケールのバッチ処理もフルマネージドで提供するサービス。 動的にリソースを配分し、スポットインスタンスを利用したコストの最適化、キューの管理やスケジューリングなどを行ってくれます。

    [速報]「AWS Batch」発表。AWS上でスケーラブルなバッチ処理を実現。AWS re:Invent 2016
  • Web系の自分が想像と障害で学んだバッチ処理・設計の基本 - コンポツさん

    バッチ処理というのはそれ単体で勉強しようとするとなかなか何を勉強したらいいのかわからないことが多い。 特に経験がWeb系ばっかりだと、いざバッチ処理を実装しようとした時に基的なノウハウを知らないままに書いてしまうことが多い。 バッチ処理というのは実態を整理すると「何らかのトリガーを期に起動し、データをロード・加工・変換・集計してから、出力する」という事になる。 まぁ、INがあって処理してOUTがあるという点では関数だと考えてもいいだろう。 システムの利用者(人に限らない)のアクションとは直接関係ない処理であったり、利用者のアクションをトリガーとしていても、即時にレスポンスがいらないor返せない場合に バッチ処理を選択する事が多い。 実現方式はシェルスクリプト、LL言語、実行可能バイナリだったりするし、デーモンとして立ち上げる場合もある。 利用者の操作に対して対話的・同期的な処理はオンライ

    Web系の自分が想像と障害で学んだバッチ処理・設計の基本 - コンポツさん
  • 多い日も安心設計 - Qiita

    アプリケーションエンジニアの多くは、眠れない夜を過ごしたことがあるでしょう。特に月に一度の…「月末締めバッチ」の日は。 そんなデータ量の多い日や、初モノのバッチが動く日でも安心して眠れるためのバッチ設計を考えてみます。 ログの設計 まず何はなくともログです。きちんとしたメッセージを出せていれば、専任の人がリカバリ可能にもなるってものです。 Audit用のログなど業務要件の強いものを除いては、だいたい3種類に分けるようにしています。 プログレスログ リカバリログ 例外ログ(調査のため) この分類でファイル単位も分けます。ログを必要とする人が、それぞれ異なるからです。 プログレスログ プログレスログは、特に長時間かかるバッチに対して、現在どのくらいまで処理が出来ているのかを目的として出力します。 トラブル発生時や、大規模移行作業時には、バッチの定期的なモニタリングと報告の必要が出てきます。「あ

    多い日も安心設計 - Qiita
  • バッチ処理、ジョブ管理について書いてみる - wyukawa's diary

    僕はHive, Pythonでバッチ処理を書いてAzkabanでジョブ管理するシステムを構築、運用した経験が2年ほどあるので今日はバッチ処理、ジョブ管理について書いてみようと思います。 僕の経験上Hadoop特有の部分、例えばテスト環境が作りづらいとかバッチサーバーはジョブをsubmitするだけなので負荷はそんなにかからないとか、はあるけれど割と汎用的なのではないかと思います。そもそもバッチ処理、ジョブ管理について書かれたものはほとんど見た事がないので参考になれば嬉しいし、こういう良い方法もあるよ!とかあれば是非ブログ等に書いてほしいと思っております。 最初に言っておくとバッチ処理、ジョブ管理において重要なのは障害時のリカバリのしやすさです。正常時はまあいいでしょ。 なので例えば引数に日付を持てないようなバッチ書いたら辛いですし、LL言語で書く方がコンパイル、パッケージングとか楽です。CP

    バッチ処理、ジョブ管理について書いてみる - wyukawa's diary
  • cronジョブの多重起動を MySQLの汎用ロック機能で回避する - ブログ - ワルブリックス株式会社

    MySQLのロック機能を使って楽に cronジョブの多重実行回避をしようという話 たかがロック、されどロック システムで非同期にキューの処理などを行う場合、cronを使って短い間隔でバッチジョブを起動してキューを処理するという方法がよく取られるが、キューの混み具合によってはバッチジョブにかかる時間が長くなってしまうため、前に実行されたジョブがまだ走っているかどうかチェックして、もし走っている場合は処理を実行せずにそのまま終了するといった制御が必要になる。 たまにこの制御をしていないバッチジョブが溜まりに溜まってシステムをハングさせているのを見かける。 適当な空のファイルを作成してこれを flockするとか、システムコールレベルでアトミックに作成できることになっているオブジェクト(シンボリックリンクなど)を駆使してロックの代わりにするとかといったテクニックが典型的に利用されるが、これらを真面

    cronジョブの多重起動を MySQLの汎用ロック機能で回避する - ブログ - ワルブリックス株式会社
  • [AWS Summit 2012] クラウドデザインパターン#5 CDP バッチ処理編

    This document provides information about an AWS webinar on AWS CodeStar and AWS CodePipeline held on November 11, 2020. It includes an agenda that covers the need for CI/CD, an overview of AWS CodeStar features, an overview of AWS CodePipeline features, common questions, and a conclusion. The presenter is Hiroki Yamaguchi from Amazon Web Services Japan. Attendees can ask questions during the webin

    [AWS Summit 2012] クラウドデザインパターン#5 CDP バッチ処理編
  • 1