郵便番号と住所の変換システムを扱うエンジニアの間で悪名高かったKEN_ALL.CSVだが、2023年6月更新分より、文字コードがUTF-8に、フリガナが全角カタカナになり、町域名が長いときも複数レコードに分割されなくなったファイルが新たに追加された模様。従来通りの書式のファイルもダウンロードできる。今後は町域名に含まれている自然言語の注釈(「その他」「※番地」「以下に記載のない場合」など)をフラグに変換する予定もあるようだ(郵便番号データダウンロード)。
日本の住所表記の正規化・名寄せがTwitter上で話題になっている。きっかけとなったのは河野太郎デジタル大臣がテレビ番組で発した「AIを使って表記揺れを判断することがあり得るかもしれない」という言葉。これに対し、ネット上ではさまざまな議論が巻き起こっている。 Twitter上では「住所の揺らぎ程度のことでAIは不要」という意見が見られた。これに対して、ITエンジニアなどからは「住所の表記揺れはすぐ解決できる問題ではない」などと反論の声が上がり、「日本住所のヤバさをもっと知ってほしい」と訴えるユーザーも多数見られた。 そんな中、地図や地図データベースを手掛けるゼンリンもこの話題に反応。そこで住所の表記揺れを直すのがどのくらい難しいのか、またどうすれば解決できるのか。ゼンリンに話を聞いた。 表記ゆれの“ワナ”はいくらでも そもそも住所の表記揺れとは「誤字ではないが、同じ意味、同じ読み方であるに
note.com を読みました。私自身も日本の住所の扱いを何とかしないと業務アプリケーションの運用に支障が出ると感じ、2003年に「住所正規化コンバータ」というソフトウェアをリリースし、20年が経過しました。現在は国際航業株式会社様に取り扱っていただいています。 www.kkc.co.jp このブログにあるような指摘にどこまで応えられただろうかということで、社内で試してみました。利用したバージョンは最新の R7.2.0 で、住所マスタは2022年秋版と組み合わせました。その結果を公開します。 住居表示 丁目表記と地番表記の混在に対応しています。 浦安市舞浜2-1-1 郵便番号 都道府県 市区町村 町域 小字・丁目 番地・号 マッチレベル 2790031 千葉県 浦安市 舞浜 2 1-1 号レベル 浦安市舞浜2-11 郵便番号 都道府県 市区町村 町域 小字・丁目 番地・号 マッチレベル 2
はじめに 郵便番号と住所の割当についての注意点 郵便番号データのカラム定義 複数行に分割されるレコード 町域名の編集 "以下に掲載がない場合" "・・の次に番地がくる場合" "・・一円" カンマ区切りされた町域名 地割 町域名がカッコ付きで補足されるパターン (全域),(丁目)(各町)(番地)(無番地)(その他) (○○屋敷) ビルの記載 (地階・階層不明)(X階) ・・を除く) ・・を含む) ・・その他) ・・以下) ・・以上) ・・以内) ・・以降) ・・以外) ・・」以外 ・・番地以上 カッコの取り扱い JPostal はじめに 郵便番号の入力に応じて、都道府県や市区町村を入力補完したい、というユースケースは良くあります。 日本郵便の公開する郵便番号データ ken_all.csv は、このようなユースケースのための辞書データ候補に挙げることができます。 しかし郵便番号データ ken_
日本ではその土地の地形や歴史等によって住所の整備方法が異なり、それによりさまざまな住所表記が存在します。 今回は、筆者が業務上で遭遇した一風変わった住所を紹介していきたいと思います。 参考となる住所も記載しますので、興味があれば実際に住所を調べてみてください。 1.京都の通り名 まず有名なのは京都の通り名ではないでしょうか。 碁盤の目状に道路が整備された京都では、町の位置を表すために通り名が用いられています。 参考の住所として、以下の住所を例にあげます。 京都府京都市中京区松屋町 この住所は通り名を使った場合、以下のような表現方法があります。 (1) 間之町通二条上る松屋町 (2) 二条通間之町西入松屋町 (3) 二条通間之町東入松屋町 (4) 二条通高倉西入松屋町 (5) 二条通東洞院東入松屋町 (6) 東洞院通二条上る松屋町 中京区に「松屋町」はひとつしか存在しませんが、複数の通り名で
「住所の揺らぎ程度のことにAIを使いたいだとかデジタル音痴」だの「住所の正規化なんてExcelで2時間あれば作れそう」だの、たいへんフットワークの軽やかな言説の数々に、位置情報界隈のみならず住所の正規化や名寄せに少しでも関わったことのあるエンジニアが総立ちでマサカリを投げていたのも記憶に新しい今日この頃ですが(2023年6月6日)、この手の騒動は周期的に起こってる印象です。 ということはつまり いつまで経っても解消されない、解決が困難な課題である その困難さが界隈以外に共有されていない であるわけで、その都度Twitterにトリビアが投下されてはTLが賑わい華やかではありますが、そろそろ自分の整理としてもどれだけ日本の住所システムがカオスで、その計算機的な処理がいかに困難かをメモっておこうかと思いました。 なおこの件については既にQiitaにGeoloniaの宮内さんが鼻血の出そうな良エン
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く