タグ

2015年12月7日のブックマーク (5件)

  • Treasure Data Update 2015 - Hadoop - Qiita

    Treasure DataのHadoop Treasure Dataでは長年Hadoop1(CDH4)を使用してきましたが、太田の投稿にもあるように今年、徐々にHadoop2(HDP2)に移行してきました。Hadoop1でのユーザも残り数社となり、いよいよHadoop1とのお別れも近いこととなりました。そこでどんなことをやったかを振り返りで書いてみようと思います。 いろいろな問題発生 Plazma Treasure Dataでは既にいろんなところに既に出てはいますが、HDFSを使用せず(正確には中間処理には使用している)ストレージはPlazmaというカラムナDBを使用しています。この部分ではHiveの仕様が変わったせいもありIndex Push Downが上手く機能しないなんていう問題も起こりました。 Deadlock and Livelock Treasure Dataはマルチテナントで

    Treasure Data Update 2015 - Hadoop - Qiita
    wyukawa
    wyukawa 2015/12/07
    大変そうだ。。。
  • Luigi によるワークフロー管理 - Qiita

    Workflow Hacks! #1 が開催されるなど、データ分析のワークフロー管理が見直されつつある今日この頃ですが、Treasure Data 社内ではこれまでのところ Luigi を主なツールとして利用しています。ここでは Luigi を使ったワークフローがどのようなものであるかを紹介します。 (追記: 2016-09-18)その後、社内ワークフローは Digdag(主にSQLのクエリ実行に利用)、及び Airflow(主にスクリプトの実行に利用)へと置き換わり、Luigi を利用することはほぼなくなりました。 ワークフロー管理ツールとは? データ分析における「ワークフロー管理ツール」とは、データ処理の過程で必要となる一連のタスク(データのロードや、クエリの実行など)を自動化し、管理するために設計されたソフトウェアです。例えば、毎日決まったタスクをスケジュール実行したり、問題が起きた

    Luigi によるワークフロー管理 - Qiita
    wyukawa
    wyukawa 2015/12/07
    く、詳しい。。。
  • 第9回[最終回] データパイプラインのためのワークフロー管理 | gihyo.jp

    KPIや応用KPIが決まり、実際に、毎日の運用の中で定期的にデータを更新して、可視化するためには、一連の処理を自動化する必要があります。今回は、データパイプラインを扱うためのワークフロー管理ツールを紹介していきます。 データパイプラインとワークフロー管理 データパイプライン (⁠以下、パイプライン)とは、データ処理を行なう小さなタスク(1回のファイルコピーや、SQLの実行など)を順次実行することにより、最終的に求める結果を得るための一連のプロセスを指します。狭義には、単体のシステム内で完結するパイプラインを指します(SparkやGoogle Cloud Dataflow、など⁠)⁠。 また、広義には、複数のシステムを組み合わせて大きなパイプラインを構成することもあります(MySQLから取り出したデータをRedshiftで集計する、など⁠)⁠。今回、取り上げるパイプラインとは、広義のパイ

    第9回[最終回] データパイプラインのためのワークフロー管理 | gihyo.jp
    wyukawa
    wyukawa 2015/12/07
    タスクの並列実行って実はあんまりイメージわかないな。その辺はhadoop任せだし。
  • ドリコムを支えるデータ分析基盤がTD+AWSに移行した話 - かにぱんのなく頃に

    はじめに これは ドリコムAdventCalendar の7日目です 6日目は、keiichironaganoさんによる iTunes 使用許諾更新のとき一旦キャンセルしてほしい話 です 【その2】ドリコム Advent Calendar 2015 もあります 自己紹介 @ka_nipan 去年の ドリコムを支えるデータ分析基盤 に引き続き、今年もドリコムのデータ分析基盤を担当しています。 分析基盤をTreasure Dataに移行 オンプレ環境の Hadoop からTreasure Data に移行しました。 また、ジョブ管理ツールやBIツールといったサーバーもAmazon EC2 に移行しており、 徐々にオンプレ環境を離れつつあります。 背景 オンプレ環境で Hadoop を運用して3年も経つと考えなければならないのが HW の寿命です。 さてどうしようかとなった時に、ほぼ迷いなく外部

    ドリコムを支えるデータ分析基盤がTD+AWSに移行した話 - かにぱんのなく頃に
    wyukawa
    wyukawa 2015/12/07
    “金を出した分だけ楽ができる”
  • FluencyというYet another fluent Java loggerを作った話 - komamitsu.log

    この記事は、Fluentd Advent Calendar 2015 - Qiita の七日目の記事です。 先日、komamitsu/fluency · GitHub というFluentd (in_forward) 用のJava loggerを作ってみました。 元々、fluent/fluent-logger-java · GitHub の開発を見ていたのですが、Fluentd MLで色々と要望があって機能を拡張したい欲が高まったものの既存の実装的に面倒臭そうな感じだったので、ついカッとなってゼロから書いてしまいました。 特徴 特徴としては以下のものがあります。 通常 (fluent/fluent-logger-java · GitHub) より三倍速い fluency_benchmark.md · GitHub 参照 (後述するPackedForwardを利用した場合) Fluentdへの

    FluencyというYet another fluent Java loggerを作った話 - komamitsu.log