こんにちは佐々木です。 いろいろなところで口を酸っぱくして言っているのは、データレイクとDWHを分離しろと。とりあえずDWHに放り込むという考えはあるけど、DWHに入れる時点でデータの整形が行われて、情報の欠損がでてくる。だから、その前にデータレイクに生のままに入れること— Takuro SASAKI (@dkfj) 2021年5月1日 データレイクとDWHの分離について呟いたら、それなりの反響を頂きました。せっかくの機会なので、もう少ししっかりと解説してみます。何故、データレイクとDWHを分離する必要があるのか、格納するデータの構造と、データレイク・DWHの役割の観点から考えてみましょう。まずは、データの種類として、構造化データや非構造化データの説明をします。その次に、データレイクとDWHなどの用語・役割の説明をし、最後にアーキテクチャを考えてみます。 構造化データと半構造化データ、非構
![データ分析基盤構築の肝は、データレイクとDWHの分離 - NRIネットコムBlog](https://cdn-ak-scissors.b.st-hatena.com/image/square/c81a941703f74b56ec38d9b58aabf04d55a8502d/height=288;version=1;width=512/https%3A%2F%2Fcdn-ak.f.st-hatena.com%2Fimages%2Ffotolife%2Ft%2Ftakurosasaki%2F20210504%2F20210504161950.png)