初めに やりたいことはすごく簡単なはずなのに、いろんなドキュメント見てもぱっと見て実装出来そうな良いのが無かったので書きます。 やりたいこと(背景) Hadoopに入ってるアクセスログをHiveで抽出して、Google Cloud Storage(GCS)に上げる。 それをGoogle Cloud Platform(GCP)の解析基盤に流してよしなにする。 このフローにおける前者の部分をサクッとバッチ化しました。 PHPのクライアントライブラリを利用しています。 1. 取り敢えずHiveからファイル出力する 別にHiveの話したいわけじゃないので割愛します。 こんなかんじ。 sudo -u hdfs hive -e "$query" | grep -v WARN > $filename 1.7GBくらいのファイルを走査して350MBくらいのファイルを吐きます。 30秒位で終わる。優秀!(自