Glueのデータカタログ機能て、すごい便利ですよね。 Glueデータカタログとは、DataLake上ファイルのメタ情報を管理してくれるHiveメタストア的なやつで、このメタストアを、AthenaやRedshift Spectrumから簡単に参照出来ます。マネージドサービスとなるので、メタ情報を格納用データベースはAWS側が用意してくれており、メタ情報に関しても、自動的に取得する機能(Glue crawler機能)を持っています。ファイル単位で、Hive DDL文を書かなくとも、S3上ファイルのメタ情報を管理/更新できるのです。便利だ。 ただし、ファイルのメタ情報を正確に読み取るには、厳格なフォーマットがあります。たとえば、以下のようなCSVファイルの場合(カンマ後に半角スペースがあり、値がダブルクォーテーションで囲まれている)、 "voiceroid_id", "name", "japan