タグ

ETLに関するmonnalisasmileのブックマーク (2)

  • Amazon Redshiftの分析対象とするデータの設計/加工のポイント

    ……とは言うものの、今回はまだRedshiftに格的には踏み込みません。Redshift分析環境にインポートし、実際に分析対象としてアクセスする『データ』(ファイル)に関する部分について、やらなければいけないこと、気を付けるべき点を中心に話を進めていきます。分析環境の構築と同様に大事な点であり、労力を掛けるべき点であると個人的に考えている部分です。 分析テーマをピックアップ 今回のようなビッグデータ分析環境を構築するとなった場合、まず間違いなく分析環境を構築するための『元ネタ』ありきで話が進んでいるものと思われます。『現在稼働中の△△△システムで日々生成されている◯◯データや※※※のログをこういう風に見てみたい/分析して業務に役立てたい』『今度リリースする◯◯のシステムで、こういう情報が取得、生成されるのでそのデータを分析してみたい』などです。 そのような環境の場合、先行してまずは1つ『

    Amazon Redshiftの分析対象とするデータの設計/加工のポイント
  • 初めてのPentaho Data Integration 4 良く使うStep

    良く使うStepたち。 具体的な使い方はSampleやCommunity Siteを参照して下さい。 使用頻度は扱うデータと目的に大きく依存しますので参考程度にして下さい。 入力 CSV input 1ファイルの読み込み。 Text file input 複数のファイルの読み込み ファイル名に例えば*.txtなどの正規表現も使える Generate Rows 空や定数の入力を作る Get File Names フォルダ内のファイル名を取得 その後、フィルターを通してファイルを読み込んだりする事が多い Data Grid Generate Rowsと異なり、Row毎に異なる値を設定出来る テストの時にダミーデータを作るのに便利 Table input データベースからの読み込み 出力 Table output データベースへの書き込み テーブルの入れ替えと追加だけ出来、変更は出来ない Upd

  • 1