いま、仕事で郵便番号のデータをデータベースのテーブルに登録するツールを作成している。登録するデータは日本郵便のサイトからダウンロードしてきたファイル(いわゆるKEN_ALL.CSV)を使用している。最初は 毎月1回、自動でダウンロード 圧縮ファイルを解凍 システムが必要とする項目だけを抜き出して別のCSVファイルに落としシェルか何かで適当にテーブルにインポートと思っていたが・・・。ダウンロードするのはいいが、ファイルのダウンロードが成功したか、途中で失敗したかどうやって判定したらいいのかわからない。md5のファイルなどが別途用意されていればいいが、当然、日本郵便はそんな細かい仕事はやってくれない。 圧縮の形式がLZHはいかがなものか。zipじゃだめなの? データフォーマットがひどい。KEN_ALL.CSVのデータフォーマットのひどさについては、郵便番号データの落とし穴を参照なのだが、問題は