……とは言うものの、今回はまだRedshiftに本格的には踏み込みません。Redshift分析環境にインポートし、実際に分析対象としてアクセスする『データ』(ファイル)に関する部分について、やらなければいけないこと、気を付けるべき点を中心に話を進めていきます。分析環境の構築と同様に大事な点であり、労力を掛けるべき点であると個人的に考えている部分です。 分析テーマをピックアップ 今回のようなビッグデータ分析環境を構築するとなった場合、まず間違いなく分析環境を構築するための『元ネタ』ありきで話が進んでいるものと思われます。『現在稼働中の△△△システムで日々生成されている◯◯データや※※※のログをこういう風に見てみたい/分析して業務に役立てたい』『今度リリースする◯◯のシステムで、こういう情報が取得、生成されるのでそのデータを分析してみたい』などです。 そのような環境の場合、先行してまずは1つ『
『ファイルの文字コードを変換する』ー この作業はいつの時代でも我々を悩ませる問題です。日本語を扱う場合であれば尚更。システムでデータをインポートする際に文字コードを指定する(環境側で指定されている)場合はこの問題に対して対処していく必要があります(例えば、Amazon Redshiftに於いては、その構造上utf-8を文字コードとして使用・統一せざるを得ない環境となっています)が、生成され、環境へ投入する事になる各種ファイルのエンコードが投入先の環境と異なる場合、都度変換処理を噛まさなければならなくなります。容量が軽く対処個数が少なければ手動でエディタでファイルを開き、所定のエンコードで保存し直す...という手法も考えられなくは無いですが、ファイル容量が大きい・数が膨大になる...というケースになった場合は早々に破綻する事は明らかです。 当エントリでは、その問題をより効果的・効率的な手法で
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く