経緯 最近、私はデータウェアハウスの構築や選定について色々と調査している。 時間を経て成長してきた組織では、年月を経て様々なデータベースが存在することが普通である。 それらのデータベースには特性や得手不得手や所在の差異 (OLAP, OLTP, KVS, ドキュメントストア, クラウド, オンプレミス...) があり、それぞれの差異には合理的な意味がある。 一方で、データ分析者にとっては、それら各データベースに存在するデータをあたかも 1 つのデータベースとみなして分析できるほうが都合が良い。 異なるデータベースを 1 つのデータベースとして扱う方法 Embulk を活用して、データウェアハウスとなる DB にデータを定期的にインポートする。 Presto を活用して、複数のデータベースに分散クエリを走らせ Presto Server 上で結合処理する PostgreSQL の FDW を