wyukawaのブックマーク / 2015年12月7日

wyukawa id:wyukawa

2015年12月7日のブックマーク (5件)

Treasure Data Update 2015 - Hadoop - Qiita
Treasure DataのHadoop Treasure Dataでは長年Hadoop1(CDH4)を使用してきましたが、太田の投稿にもあるように今年、徐々にHadoop2(HDP2)に移行してきました。Hadoop1でのユーザも残り数社となり、いよいよHadoop1とのお別れも近いこととなりました。そこでどんなことをやったかを振り返りで書いてみようと思います。いろいろな問題発生 Plazma Treasure Dataでは既にいろんなところに既に出てはいますが、HDFSを使用せず(正確には中間処理には使用している)ストレージはPlazmaというカラムナDBを使用しています。この部分ではHiveの仕様が変わったせいもありIndex Push Downが上手く機能しないなんていう問題も起こりました。 Deadlock and Livelock Treasure Dataはマルチテナントで
wyukawa 2015/12/07
大変そうだ。。。

Treasure Data

Hadoop
リンク
Luigi によるワークフロー管理 - Qiita
Workflow Hacks! #1 が開催されるなど、データ分析のワークフロー管理が見直されつつある今日この頃ですが、Treasure Data 社内ではこれまでのところ Luigi を主なツールとして利用しています。ここでは Luigi を使ったワークフローがどのようなものであるかを紹介します。（追記: 2016-09-18）その後、社内ワークフローは Digdag（主にSQLのクエリ実行に利用）、及び Airflow（主にスクリプトの実行に利用）へと置き換わり、Luigi を利用することはほぼなくなりました。ワークフロー管理ツールとは？データ分析における「ワークフロー管理ツール」とは、データ処理の過程で必要となる一連のタスク(データのロードや、クエリの実行など)を自動化し、管理するために設計されたソフトウェアです。例えば、毎日決まったタスクをスケジュール実行したり、問題が起きた
wyukawa 2015/12/07
く、詳しい。。。

Luigi
リンク
第9回［最終回］　データパイプラインのためのワークフロー管理 | gihyo.jp
基本KPIや応用KPIが決まり、実際に、毎日の運用の中で定期的にデータを更新して、可視化するためには、一連の処理を自動化する必要があります。今回は、データパイプラインを扱うためのワークフロー管理ツールを紹介していきます。データパイプラインとワークフロー管理データパイプライン（⁠以下、パイプライン）とは、データ処理を行なう小さなタスク（1回のファイルコピーや、SQLの実行など）を順次実行することにより、最終的に求める結果を得るための一連のプロセスを指します。狭義には、単体のシステム内で完結するパイプラインを指します（SparkやGoogle Cloud Dataflow、など⁠）⁠。また、広義には、複数のシステムを組み合わせて大きなパイプラインを構成することもあります（MySQLから取り出したデータをRedshiftで集計する、など⁠）⁠。今回、取り上げるパイプラインとは、広義のパイ
wyukawa 2015/12/07
タスクの並列実行って実はあんまりイメージわかないな。その辺はhadoop任せだし。

ワークフロー
リンク
ドリコムを支えるデータ分析基盤がTD+AWSに移行した話 - かにぱんのなく頃に
はじめにこれはドリコムAdventCalendar の7日目です 6日目は、keiichironaganoさんによる iTunes 使用許諾更新のとき一旦キャンセルしてほしい話です【その2】ドリコム Advent Calendar 2015 もあります自己紹介 @ka_nipan 去年のドリコムを支えるデータ分析基盤に引き続き、今年もドリコムのデータ分析基盤を担当しています。分析基盤をTreasure Dataに移行オンプレ環境の Hadoop からTreasure Data に移行しました。また、ジョブ管理ツールやBIツールといったサーバーもAmazon EC2 に移行しており、徐々にオンプレ環境を離れつつあります。背景オンプレ環境で Hadoop を運用して3年も経つと考えなければならないのが HW の寿命です。さてどうしようかとなった時に、ほぼ迷いなく外部
wyukawa 2015/12/07
“金を出した分だけ楽ができる”

ドリコム

Treasure Data
リンク
FluencyというYet another fluent Java loggerを作った話 - komamitsu.log
この記事は、Fluentd Advent Calendar 2015 - Qiita の七日目の記事です。先日、komamitsu/fluency · GitHub というFluentd (in_forward) 用のJava loggerを作ってみました。元々、fluent/fluent-logger-java · GitHub の開発を見ていたのですが、Fluentd MLで色々と要望があって機能を拡張したい欲が高まったものの既存の実装的に面倒臭そうな感じだったので、ついカッとなってゼロから書いてしまいました。特徴特徴としては以下のものがあります。通常 (fluent/fluent-logger-java · GitHub) より三倍速い fluency_benchmark.md · GitHub 参照 (後述するPackedForwardを利用した場合) Fluentdへの
wyukawa 2015/12/07
fluentd
リンク
- 2015年12月8日
- 2015年12月7日
- 2015年12月6日