タグ

azkabanに関するmanabouのブックマーク (7)

  • Workflow Engines Meetup #1 に参加してきた #wfemeetup - 試纏

    Workflow Engines Meetup #1 - connpass 2017/03/09 Workflow Engines Meetup #1 #wfemeetup - Togetterまとめ ビッグデータ基盤周りの業務に携わっている者にとって『ワークフローエンジン』は非常に重要な位置を占める"関心事"です。OSSから商用のものまでこの分野のツールやプロダクトは数多く存在し、多かれ少なかれ皆さん苦労しながらもそれぞれの利用ノウハウを蓄積している状況の様です。そんな中、そのものズバリの勉強会が企画されていたので速攻で申し込み、この日参加してきました。 イントロ セッション内容 Digdag:Digdagの特徴とQuick Start Jenkins:Jenkins 2.0 Pipeline & Blue Ocean Luigi:Luigiを使っている話 Azkaban:Azkaban

    Workflow Engines Meetup #1 に参加してきた #wfemeetup - 試纏
  • OSSプロダクトにissue登録する - wyukawa's diary

    僕は今見ている社内のログ分析基盤に数多くのOSSプロダクトを使っています。 具体的に言うと、Fluentdでログ収集してHadoopに書き込んでAzkaban経由でHiveバッチを動かしてデータを加工してPresto, Prestogres経由でみたりしています。 また最近はKafkaやElasticsearch, Kibanaといったものも使っていますし、Prometheus, Grafanaを使ってモニタリングするようになっています。 このように数多くのOSSプロダクトを使っている理由は、部品一つ一つを自前実装していたら時間がいくらあっても足りないからです。OSSプロダクトを活用することにより、レバレッジを効かせることができます。 そしてまたOSS界隈の進化のスピードが速いので、仮に自前実装したとしてもすぐに陳腐化してしまう危険性がある。であれば最初からOSSプロダクトを使って巨人の肩

    OSSプロダクトにissue登録する - wyukawa's diary
  • 爽快!分析基盤の紹介 #6 : batch の cron を azkaban に移行した話 - sekaie engineers' blog

    はじめに おはようございますこんにちはこんばんわ。 健康診断で身長が 1cm 伸びてました。佐々木です(体重は 10kg 増えてました) 今日は cron を azkaban に移行した話をしようかと思います。 今までの batch 管理 弊社の分析基盤の batch の管理は crontab で管理していました。 というのも、分析基盤が出来立てということもあって batch の数も依存も少なく crontab で特に問題がなかったからです。 しかし最近は社内利用者も増えてきて batch がコケてて、見えるべき数字が見えなかったりとか影響もそれなりに出てきたのでちゃんと batch を管理しようと思い立ったのが最近の話です。 そこでジョブ管理ツールを導入しようと試みました。 選定 ジョブ管理ツールもたくさんあるのでどのツールを使うか選ぶところから始まりました。 今回の選定基準は以下のとお

    爽快!分析基盤の紹介 #6 : batch の cron を azkaban に移行した話 - sekaie engineers' blog
  • データ分析におけるワークフローツール - Qiita

    はじめまして、普段はサービス開発やら収集したデータをごちゃごちゃ整形したりしているakito1986です。 この記事はIDCフロンティア Advent Calendar 2015の7日目の記事です。 さてあれよあれよという間に7日目もあと残すところ一時間! 担当した日に公開しないとあまり意味がないと思い、さっと書けそうで最近興味があり必要性を感じているワークフローについて調べたことを書きます。 はじめに 冒頭に書いた収集したデータをごちゃごちゃ整形の部分の話。 サービス事業者でエンジニアをしていると、「このデータとこのデータをがっちゃんこして、こういう形式のデータにして欲しい」と頼まれることが多いのではないでしょうか? 私も頼まれることがあり、「定期的に送られてくるCSVをテーブルにインポートしてクエリで集計してその結果を出力するだけでいいんでしょ?」という最初は軽い気持ちで引き受けたので

    データ分析におけるワークフローツール - Qiita
  • OSSのJob管理ツールを使ってみた感想 - Qiita

    先日ラスベガスで開催されたre:Inventに参加し、その際にデータ分析基盤系のセッションはほぼ参加したのですが、Job管理ツールの話がかなり出ていたのが印象的でした。 AWSにはData PipelineというJob管理サービスがあるのですが、それではなくOSSのJob管理ツールを使っているところが多い印象でした。 日では自分の観測範囲だとまだ使っているところがあまり多くない印象ですが(実際自分もほとんど使ったことない)、いくつか候補を絞って触って見たので感想を書きます。 あくまでJenkinsしか使ったことがないような個人の感想としてお読みください。。 Airflow Airbnbが開発元 re:Inventでは多くのセッションで紹介されており、一番勢いがある印象を受けた。 依存関係はPythonで書く タスクの登録はUIからやるのではなく、コマンドラインから登録 Python力を前

    OSSのJob管理ツールを使ってみた感想 - Qiita
  • Azkaban

    Azkaban is a batch workflow job scheduler created at LinkedIn to run Hadoop jobs. Azkaban resolves the ordering through job dependencies and provides an easy to use web user interface to maintain and track your workflows. Features Compatible with any version of Hadoop Easy to use web UI Simple web and http workflow uploads Project workspaces Scheduling of workflows Modular and pluginable Authentic

  • Azkabanについて書く - wyukawa's diary

    ちまたではAirflow(https://github.com/airbnb/airflow)が話題のようですが、Azkaban(http://azkaban.github.io/)を使っている身としてはやはりAzkabanについて書かねばならないと思ったので書きます。別にAzkabanを使ってほしいという意味ではないです。むしろAirflowの運用エントリとか読みたいです。 AzkabanJavaで実装されたジョブ管理ツールです。開発が若干停滞気味ではありますが、細々と進んでいます。 特徴としては、下記の通りです。 インストールが簡単(バイナリは古いものしか無いのでソースビルドが必要だがgradlewなので簡単) ジョブの依存関係をグラフィカルに見る事ができる。 APIがある ジョブが失敗した時でもボタン一つで失敗したジョブだけ再実行できる TTLがあるけどジョブの実行ログをブラウザか

    Azkabanについて書く - wyukawa's diary
  • 1