タグ

郵便番号に関するasaneのブックマーク (4)

  • 「郵便番号データの落とし穴」に落ちてしまいました。 - 日記

    いま、仕事郵便番号のデータをデータベースのテーブルに登録するツールを作成している。登録するデータは日郵便のサイトからダウンロードしてきたファイル(いわゆるKEN_ALL.CSV)を使用している。最初は 毎月1回、自動でダウンロード 圧縮ファイルを解凍 システムが必要とする項目だけを抜き出して別のCSVファイルに落としシェルか何かで適当にテーブルにインポートと思っていたが・・・。ダウンロードするのはいいが、ファイルのダウンロードが成功したか、途中で失敗したかどうやって判定したらいいのかわからない。md5のファイルなどが別途用意されていればいいが、当然、日郵便はそんな細かい仕事はやってくれない。 圧縮の形式がLZHはいかがなものか。zipじゃだめなの? データフォーマットがひどい。KEN_ALL.CSVのデータフォーマットのひどさについては、郵便番号データの落とし穴を参照なのだが、問題は

  • 郵便番号データは自分で加工しない - daily dayflower

    結論を先に。 細かい要件がない場合,zipcloud さんの提供している加工済データを使う (日郵便さんの提供している原ではなく) ライセンスが不明だけど Web API の利用規約とかみると商用利用等も OK と思われる わりきって Web API を使う (よそにまかせる) というのも手かも いろいろあるし。前述の zipcloud さん自身も検索 API を提供している。 以下各論。 いわゆる ken_all.csv を (必要フィールドだけ) そのままデータベースにつっこむなんてのは (わかってやってる場合はともかく) やってはいけない 複数行に分割されているレコードがあるため,マージする必要がある 明文化されていない仕様などがありマージやクリーニングを自力でおこなうのは大変 (バッドノウハウのかたまり) 参照: http://www.f3.dion.ne.jp/~elemen

    郵便番号データは自分で加工しない - daily dayflower
  • 郵便番号から住所を検索するサービスにまともなものがない - ぐるぐる~

    郵便番号から住所を検索するサービスにまともなものがないのは一体どういうことかと。 その原因は、どのサービスでも利用している元ネタにある。 ここからダウンロードできるCSVファイル、人間様には分かるだろうけど、コンピュータにとって分かりやすく出来てないのだ。 単一レコードの複数行分割 例えば、066-0005を探してみる*1と、こんなデータ*2が拾える。 "北海道","千歳市","協和(88−2、271−10、343−2、404−1、427−" "北海道","千歳市","3、431−12、443−6、608−2、641−8、814、842−" "北海道","千歳市","5、1137−3、1392、1657、1752番地)" 全国一括 このように、単一レコードが複数行に渡って記述されている。 これを3レコードとして扱うサービスは論外だが、これを1レコードとして認識するサービスでも、そこからさら

    郵便番号から住所を検索するサービスにまともなものがない - ぐるぐる~
  • 郵便番号データのダウンロード - zipcloud

    サービス概要 サービスは、日郵便のWebサイトで公開されている郵便番号データを再配信するサービスです。 LZH形式ではなく、ZIP形式でダウンロード可能 ダウンロードしたらすぐに使える「加工済バージョン」も公開中 郵便番号データが更新されたらメールでお知らせ 郵便番号検索機能をWebサービスで利用可能 日郵便のWebサイトで公開されている郵便番号データを、ZIP形式で圧縮しています。 ZIP形式に標準で対応しているOSであれば、LZHの解凍ソフトなしで郵便番号データをご利用いただけます。 ※解凍後のCSVファイルの仕様については、日郵便のWebサイトをご確認ください。 ※差分データは、1つの圧縮ファイル中に「新規追加データ」と「廃止データ」を含んでいます。 ※公開しているデータは、「読み仮名の促音・拗音を小書きで表記するもの」になります。

  • 1