[B! ETL] monnalisasmileのブックマーク

monnalisasmile id:monnalisasmile

ETLに関するmonnalisasmileのブックマーク (2)

Amazon Redshiftの分析対象とするデータの設計／加工のポイント
……とは言うものの、今回はまだRedshiftに本格的には踏み込みません。Redshift分析環境にインポートし、実際に分析対象としてアクセスする『データ』（ファイル）に関する部分について、やらなければいけないこと、気を付けるべき点を中心に話を進めていきます。分析環境の構築と同様に大事な点であり、労力を掛けるべき点であると個人的に考えている部分です。分析テーマをピックアップ今回のようなビッグデータ分析環境を構築するとなった場合、まず間違いなく分析環境を構築するための『元ネタ』ありきで話が進んでいるものと思われます。『現在稼働中の△△△システムで日々生成されている◯◯データや※※※のログをこういう風に見てみたい／分析して業務に役立てたい』『今度リリースする◯◯のシステムで、こういう情報が取得、生成されるのでそのデータを分析してみたい』などです。そのような環境の場合、先行してまずは1つ『
monnalisasmile 2014/10/01
amazon redshift

amazon

BI

ETL

redshift

分析
リンク
初めてのPentaho Data Integration 4 良く使うStep
良く使うStepたち。具体的な使い方はSampleやCommunity Siteを参照して下さい。使用頻度は扱うデータと目的に大きく依存しますので参考程度にして下さい。入力 CSV input 1ファイルの読み込み。 Text file input 複数のファイルの読み込みファイル名に例えば*.txtなどの正規表現も使える Generate Rows 空や定数の入力を作る Get File Names フォルダ内のファイル名を取得その後、フィルターを通してファイルを読み込んだりする事が多い Data Grid Generate Rowsと異なり、Row毎に異なる値を設定出来るテストの時にダミーデータを作るのに便利 Table input データベースからの読み込み出力 Table output データベースへの書き込みテーブルの入れ替えと追加だけ出来、変更は出来ない Upd
monnalisasmile 2014/08/05
はい超便利―

java

community

data

database

pentaho

pdi

ETL

*WebAnalytics
リンク
1