タグ

2015年12月7日のブックマーク (9件)

  • Treasure Data Update 2015 - Hadoop - Qiita

    Treasure DataのHadoop Treasure Dataでは長年Hadoop1(CDH4)を使用してきましたが、太田の投稿にもあるように今年、徐々にHadoop2(HDP2)に移行してきました。Hadoop1でのユーザも残り数社となり、いよいよHadoop1とのお別れも近いこととなりました。そこでどんなことをやったかを振り返りで書いてみようと思います。 いろいろな問題発生 Plazma Treasure Dataでは既にいろんなところに既に出てはいますが、HDFSを使用せず(正確には中間処理には使用している)ストレージはPlazmaというカラムナDBを使用しています。この部分ではHiveの仕様が変わったせいもありIndex Push Downが上手く機能しないなんていう問題も起こりました。 Deadlock and Livelock Treasure Dataはマルチテナントで

    Treasure Data Update 2015 - Hadoop - Qiita
    sonots
    sonots 2015/12/07
    独自パッチあててるから辛み大きそうだなー
  • Luigi によるワークフロー管理 - Qiita

    Workflow Hacks! #1 が開催されるなど、データ分析のワークフロー管理が見直されつつある今日この頃ですが、Treasure Data 社内ではこれまでのところ Luigi を主なツールとして利用しています。ここでは Luigi を使ったワークフローがどのようなものであるかを紹介します。 (追記: 2016-09-18)その後、社内ワークフローは Digdag(主にSQLのクエリ実行に利用)、及び Airflow(主にスクリプトの実行に利用)へと置き換わり、Luigi を利用することはほぼなくなりました。 ワークフロー管理ツールとは? データ分析における「ワークフロー管理ツール」とは、データ処理の過程で必要となる一連のタスク(データのロードや、クエリの実行など)を自動化し、管理するために設計されたソフトウェアです。例えば、毎日決まったタスクをスケジュール実行したり、問題が起きた

    Luigi によるワークフロー管理 - Qiita
    sonots
    sonots 2015/12/07
    Luigi さん
  • nginx-lua から fluentd へログを送信する - Qiita

    nginx Advent Calendar 2015 7日目 兼 fluentd Advent Calendar 2015 6日目のエントリです。 nginx-lua (https://github.com/openresty/lua-nginx-module) から fluentd にログを送信する方法を紹介します。 Lua から fluentd へログを送信するライブラリとして fluent-logger-lua というものがありますが、これは LuaSocket ライブラリを使用しているため nginx-lua では使いづらいので、ngx.socket.tcp を使用して自前で送信してみましょう。 fluentd の forward protocol は3パターンの入力フォーマットがあるのですが、一番単純なフォーマットは [tag, time, event] の形式で、この形に Me

    nginx-lua から fluentd へログを送信する - Qiita
    sonots
    sonots 2015/12/07
    へー、なるほど
  • RubyKaigi 2015参加者向け直前情報 - Qiita

    みなさんこんにちは。RubyKaigi 2015 Organizerの一人の高橋征義です。これはRuby Advent Calendar 2015 7日目の記事になります。 さて、今週末の12月11日〜13日は、いよいよRubyKaigi 2015が開催されます。この時期に何かを書くとなれば、やはりRubyKaigiに触れざるをえません(というかそれ以外のことを書く心の余裕があまりありません)。 というわけで、記事はRubyそのものについての紹介ではなく、RubyKaigiについてのご紹介になります。ご了承ください。 細かい諸注意 RubyKaigi 2015に参加するにあたって、忘れられそうな細かい点について、最後に書くと読み飛ばされそうな気もするので最初に書いておきます。 会場への道順について 「ベルサール汐留」という会場名を聞くと汐留駅から行くのが一番かと思われるかもしれませんが、

    RubyKaigi 2015参加者向け直前情報 - Qiita
    sonots
    sonots 2015/12/07
  • ActiveRecordのように振る舞うオブジェクトでJSON生成を高速化 - Qiita

    こんにちは、freee ソフトウェアエンジニア @terashi58 です。 この記事は freee Engineers Advent Calendar 2015 7日目です。 ActiveRecord のパフォーマンス Rails の ActiveRecord 便利ですよね。 私はまだ Rails 一年生ですが、日々お世話になっています。 個人的には has_many とかの Relation と where に始まる QueryMethods が特にいい感じです。 しかしこの ActiveRecord、便利機能満載のためか非常に遅いことがしばしば。 プロファイルを取ると、たいていはコンストラクタの呼び出しが重いです。 特に index 処理では大量の AR オブジェクトを生成するためボトルネックになります。 index (show) 処理、特に出力がJSONの場合は、DB の値をほとん

    ActiveRecordのように振る舞うオブジェクトでJSON生成を高速化 - Qiita
    sonots
    sonots 2015/12/07
  • RubyでBoolClassではなくTrueClass/FalseClassな理由を理解する - Qiita

    @mattn_jp BoolClassを入れるとkind_of?でチェックしたくなってduck typingを阻害するから。 — Yukihiro Matsumoto (@yukihiro_matz) 2015, 12月 4 30回くらい読みなおしたけど何のことを言っているのか分からなかったので、周りのRubyistに質問して理解を深めたメモ。 まずDuck Typingというのは、Wikipediaによると ダック・タイピング(duck typing)とは、Smalltalk、PythonRubyなどのいくつかの動的型付けオブジェクト指向プログラミング言語に特徴的な型付けの作法のことである。それらの言語ではオブジェクト(変数の値)に何ができるかはオブジェクトそのものが決定する。つまり、オブジェクトがあるインタフェースのすべてのメソッドを持っているならば、たとえそのクラスがそのインタフェ

    RubyでBoolClassではなくTrueClass/FalseClassな理由を理解する - Qiita
    sonots
    sonots 2015/12/07
  • ドリコムを支えるデータ分析基盤がTD+AWSに移行した話 - かにぱんのなく頃に

    はじめに これは ドリコムAdventCalendar の7日目です 6日目は、keiichironaganoさんによる iTunes 使用許諾更新のとき一旦キャンセルしてほしい話 です 【その2】ドリコム Advent Calendar 2015 もあります 自己紹介 @ka_nipan 去年の ドリコムを支えるデータ分析基盤 に引き続き、今年もドリコムのデータ分析基盤を担当しています。 分析基盤をTreasure Dataに移行 オンプレ環境の Hadoop からTreasure Data に移行しました。 また、ジョブ管理ツールやBIツールといったサーバーもAmazon EC2 に移行しており、 徐々にオンプレ環境を離れつつあります。 背景 オンプレ環境で Hadoop を運用して3年も経つと考えなければならないのが HW の寿命です。 さてどうしようかとなった時に、ほぼ迷いなく外部

    ドリコムを支えるデータ分析基盤がTD+AWSに移行した話 - かにぱんのなく頃に
    sonots
    sonots 2015/12/07
    TDに移ったのか〜
  • embulk-filter-column および embulk-filter-row プラグインのご紹介 - Qiita

    Embulk Advent Calendar 2015の7日目の記事です。 こんにちは @sonots です。淡々と拙作のプラグインの紹介をしていこうと思います。文量が多くなったのと明日、明後日が空いていたので、記事を分けて 7日目: embulk-filter-column および embulk-filter-row 8日目: embulk-output-vertica 9日目: embulk-parser-none および embulk-filter-stdout のように紹介していこうと思います。 URL: https://github.com/sonots/embulk-filter-column カラムの絞り込みをするための filter プラグインです。 弊社での Embulk のユースケースは、主に HDFS に格納されているログを Vertica に移し替えるという作業なの

    embulk-filter-column および embulk-filter-row プラグインのご紹介 - Qiita
    sonots
    sonots 2015/12/07
    embulk advent calendar の記事書いた。淡々と拙作プラグインを紹介していく
  • Ruby コミッターになりました : sonots:blog

    Ruby コミッターになりました : sonots:blog
    sonots
    sonots 2015/12/07
    書きました