先日、弊社では Community Geocoder というサービスをリリースしました。 Community Geocoder 紹介記事 さて、このジオコーダーは、住所を正規化してそれを「大字町丁目コード」という12桁の数字に変換し、そのコードをファイル名として GitHub ページ上に大量においた JSON ファイルにアクセスして緯度経度を取得するということをやっています。 つまり、住所の正規化からコードに変換する部分がとても重要で、そもそも正規化に失敗してしまうとどうしようもないという仕様なんです。 さいわい先日経産省が公開した IMI コンポーネントツール である程度のことをやってくれるのですが(というかそうであることを期待したのですが)、いろいろ調べ始めると住所という仕組みはほんとに複雑で、Facebook で絡んでくださった @hfu さんいわくまさに「自然言語処理そのもの」であ
![日本の住所の正規化に本気で取り組んでみたら大変すぎて鼻血が出た。 - Qiita](https://cdn-ak-scissors.b.st-hatena.com/image/square/1af6a41aec33205d13e9d41cd6b2e0ef298919a0/height=288;version=1;width=512/https%3A%2F%2Fqiita-user-contents.imgix.net%2Fhttps%253A%252F%252Fcdn.qiita.com%252Fassets%252Fpublic%252Farticle-ogp-background-412672c5f0600ab9a64263b751f1bc81.png%3Fixlib%3Drb-4.0.0%26w%3D1200%26mark64%3DaHR0cHM6Ly9xaWl0YS11c2VyLWNvbnRlbnRzLmltZ2l4Lm5ldC9-dGV4dD9peGxpYj1yYi00LjAuMCZ3PTk3MiZoPTM3OCZ0eHQ9JUU2JTk3JUE1JUU2JTlDJUFDJUUzJTgxJUFFJUU0JUJEJThGJUU2JTg5JTgwJUUzJTgxJUFFJUU2JUFEJUEzJUU4JUE2JThGJUU1JThDJTk2JUUzJTgxJUFCJUU2JTlDJUFDJUU2JUIwJTk3JUUzJTgxJUE3JUU1JThGJTk2JUUzJTgyJThBJUU3JUI1JTg0JUUzJTgyJTkzJUUzJTgxJUE3JUUzJTgxJUJGJUUzJTgxJTlGJUUzJTgyJTg5JUU1JUE0JUE3JUU1JUE0JTg5JUUzJTgxJTk5JUUzJTgxJThFJUUzJTgxJUE2JUU5JUJDJUJCJUU4JUExJTgwJUUzJTgxJThDJUU1JTg3JUJBJUUzJTgxJTlGJUUzJTgwJTgyJnR4dC1hbGlnbj1sZWZ0JTJDdG9wJnR4dC1jb2xvcj0lMjMxRTIxMjEmdHh0LWZvbnQ9SGlyYWdpbm8lMjBTYW5zJTIwVzYmdHh0LXNpemU9NTYmcz02MDkyYWU2YWY0NWI0N2FmOGY0NGFkZDMwYTA3ZWIzYw%26mark-x%3D142%26mark-y%3D57%26blend64%3DaHR0cHM6Ly9xaWl0YS11c2VyLWNvbnRlbnRzLmltZ2l4Lm5ldC9-dGV4dD9peGxpYj1yYi00LjAuMCZoPTc2Jnc9NzcwJnR4dD0lNDBtaXlhMDAwMSZ0eHQtY29sb3I9JTIzMUUyMTIxJnR4dC1mb250PUhpcmFnaW5vJTIwU2FucyUyMFc2JnR4dC1zaXplPTM2JnR4dC1hbGlnbj1sZWZ0JTJDdG9wJnM9MjdkMTQ0MWE5YjQxYmYyMGVjNmUxYzg3YWM5NzZlMmU%26blend-x%3D142%26blend-y%3D436%26blend-mode%3Dnormal%26txt64%3DaW4gR2VvbG9uaWE%26txt-width%3D770%26txt-clip%3Dend%252Cellipsis%26txt-color%3D%25231E2121%26txt-font%3DHiragino%2520Sans%2520W6%26txt-size%3D36%26txt-x%3D156%26txt-y%3D536%26s%3Dda009982f0e8fa6ffb8790d4efaf72c4)