タグ

関連タグで絞り込む (1)

タグの絞り込みを解除

バッチに関するwanijiのブックマーク (4)

  • バッチ処理の実装方法 - wyukawa's diary

    僕はHive, Pythonでバッチ処理を書いてAzkabanでジョブ管理するシステムを構築、運用してかれこれ2年経つのでその経験をもとにバッチ処理の実装方法を書いてみようかと思う。 バッチ処理、ジョブ管理について書いてみる - wyukawa’s blogでは主にジョブ管理について書いたので今回はバッチそのもののに焦点をあてる。 ジョブ管理のときはつらつら書いて読みにくかったように思うので今回は箇条書きする。 バッチ処理は以下のように実装すると良いと思ってる。なおここではHadoopのようなIOメインな処理を前提としている。 ・LL言語で実装する コンパイルがいらないからね。もしJavaで実装したらコンパイル、パッケージングしてデプロイしないといけない。バッチなんてどうせデータ処理がメインだからローカルでは実装しづらいことが多いし、どうせサーバー上で直接作業するでしょ。障害時は特にね。

    バッチ処理の実装方法 - wyukawa's diary
  • 並列データ転送ツール『Embulk』リリース! - Blog by Sadayuki Furuhashi

    こんにちは。古橋です。 先日の*1 データ転送ミドルウェア勉強会で、新しいオープンソースツール Embulk をリリースしました。 Embulk, an open-source plugin-based parallel bulk data loader from Sadayuki Furuhashi Embulk は、リアルタイムなログ収集では常識となった fluentd のバッチ版のようなツールで、ファイルやデータベースからデータを吸い出し、別のストレージやデータベースにロードするためのコンパクトなツールです。 fluentd と同様にプラグイン型のアーキテクチャを採用 しているため、RubyJavaで簡単なコードを書くことで、様々なファイルフォーマットやストレージに対応することができます。一方で fluentd とは異なり、高速性やトランザクション制御、スキーマを使ったデータのバリ

    並列データ転送ツール『Embulk』リリース! - Blog by Sadayuki Furuhashi
  • オープンソースのバルクデータローダー「Embulk」登場。fluentdのバッチ版、トレジャーデータが支援

    オープンソースのバルクデータローダー「Embulk」登場。fluentdのバッチ版、トレジャーデータが支援 何ギガバイトもあるCSVをデータベースに読み込ませるようなバルクデータをバッチ処理するためのツール「Embulk」がオープンソースで公開されました。 コミッターとして開発しているのは、ログ収集ツールとして知られるfluentdなどの開発者として知られる古橋貞之氏、西澤無我氏、中村浩士氏らで、3人が所属するTreasure Dataも開発を支援しています。 古橋氏はEmbulkについて「簡単に言うとfluentdのバッチ版です」と説明。1月27日に行われた「データ転送ミドルウェア勉強会」で、Embulkの紹介を行いました。 Embulkはプラグインベースのバルクデータローダー 古橋氏はまず、例えばCSVファイルをPostgreSQLに読み込ませようとすると、CSVの日付のフォーマットが

    オープンソースのバルクデータローダー「Embulk」登場。fluentdのバッチ版、トレジャーデータが支援
  • 手動で実行するバッチ処理を書く。 - パルカワ2

    決まった時間に実行するなどは、基的に自動化されるが「一度しか実行されないもの」または「何度も実行するが、いつ実行されるか決まっていない」場合は自動化したくてもしようがない。なので、手動で実行する。 一度しか実行しないバッチは、「データベースのカラムを追加、変更したのでデータを追加/修正したい」など。 何度も実行するバッチは、「問題が発生した場合、ユーザーに対する補填(いわゆる詫び石付与)」などが考えられる。 そして、この2つのバッチの対象者は、多い場合と少ない場合がある。 実行のオプションを付けない限り、dryrun 人間なのでついうっかり番で動かしちゃったとかあるので、それを防止する。 動かそうと思って動かすのと動かすつもりがなくて動くのは全然違う。 スクリプトファイルにベタでコードを書かない 例えばPerlだと.plにコード書くのはあまりしなくて、.pmに分けたりする。 そうするこ

    手動で実行するバッチ処理を書く。 - パルカワ2
  • 1