タグ

ブックマーク / quzee.hatenablog.com (1)

  • 超簡易的な住所文字列の処理系を作った - QuzeeBlog@Hatena

    住所文字列の表記揺れを目視で確認する作業が発生して、衝動に任せて作った代物です。コードを読んでいただけばわかりますけど抜けだらけです(ジオコーダ作るときの指標ぐらいにはなるかも)。 このコードは住所文字列のCSVを読み込んで、都道府県/市区町村/大字/町丁目/それ以外 の列として切り出します。必要なものは市区町村、大字、町丁目の辞書データです(これは./address_base/以下に格納)。また、表記揺れを解消するための辞書を読み込む機能を作っています。これは作業フォルダ以下(./WordDictionary/WordDictionary.csv)においてあり、修正前文字列/修正後文字列をCSVの形で持っています(「粕屋郡,糟屋郡」みたいなCSVです)。 出力はExcel形式で、これはPandas使って吐きだししています。最近Pandasはフォーマット変換のために多用しているなあ。 im

    超簡易的な住所文字列の処理系を作った - QuzeeBlog@Hatena
  • 1