タグ

ETLに関するtorazukaのブックマーク (3)

  • Announcing Suro

    To make the best business and technical decisions, it is critical for Netflix to reliably collect application specific data in a timely fashion. At Netflix we deploy a fairly large number of AWS EC2 instances that host our web services and applications. They collectively emit more than 1.5 million events per second during peak hours, or around 80 billion events per day. The events could be log mes

    Announcing Suro
  • Amazon Redshiftの分析対象とするデータの設計/加工のポイント

    ……とは言うものの、今回はまだRedshiftに格的には踏み込みません。Redshift分析環境にインポートし、実際に分析対象としてアクセスする『データ』(ファイル)に関する部分について、やらなければいけないこと、気を付けるべき点を中心に話を進めていきます。分析環境の構築と同様に大事な点であり、労力を掛けるべき点であると個人的に考えている部分です。 分析テーマをピックアップ 今回のようなビッグデータ分析環境を構築するとなった場合、まず間違いなく分析環境を構築するための『元ネタ』ありきで話が進んでいるものと思われます。『現在稼働中の△△△システムで日々生成されている◯◯データや※※※のログをこういう風に見てみたい/分析して業務に役立てたい』『今度リリースする◯◯のシステムで、こういう情報が取得、生成されるのでそのデータを分析してみたい』などです。 そのような環境の場合、先行してまずは1つ『

    Amazon Redshiftの分析対象とするデータの設計/加工のポイント
    torazuka
    torazuka 2014/08/05
    Redshift取り込み前のデータの整形やテーブル定義について。項目ごとに公式サイトへのリンクもあって分かりやすい。
  • Data Integration Solutions: A Unified View for Trusted Data

    Connect all your data sources into a clean, complete, and compliant source of truth Talend Data Integration lets you connect and manage all your data, no matter where it lives. Use more than 1,000 connectors and components to connect virtually any data source with virtually any data environment, in the cloud or on premises. Easily develop and deploy reusable data pipelines with a drag-and-drop int

    Data Integration Solutions: A Unified View for Trusted Data
  • 1