2009年5月15日のブックマーク (1件)

  • 「郵便番号データの落とし穴」に落ちてしまいました。 - 日記

    いま、仕事郵便番号のデータをデータベースのテーブルに登録するツールを作成している。登録するデータは日郵便のサイトからダウンロードしてきたファイル(いわゆるKEN_ALL.CSV)を使用している。最初は 毎月1回、自動でダウンロード 圧縮ファイルを解凍 システムが必要とする項目だけを抜き出して別のCSVファイルに落としシェルか何かで適当にテーブルにインポートと思っていたが・・・。ダウンロードするのはいいが、ファイルのダウンロードが成功したか、途中で失敗したかどうやって判定したらいいのかわからない。md5のファイルなどが別途用意されていればいいが、当然、日郵便はそんな細かい仕事はやってくれない。 圧縮の形式がLZHはいかがなものか。zipじゃだめなの? データフォーマットがひどい。KEN_ALL.CSVのデータフォーマットのひどさについては、郵便番号データの落とし穴を参照なのだが、問題は

    kogawam
    kogawam 2009/05/15