本物の KEN_ALL.csv の処理が簡単に出来る Parse::JapanesePostalCode をリリースした 空前の KEN_ALL.csv ブームが凄かったのが記憶に新しいばかりですが、この郵政さんが公開している郵便番号ファイルをカジュアルにパース出来るモジュールを作りました。 https://metacpan.org/release/Parse-JapanesePostalCode https://github.com/yappo/p5-Parse-JapanesePostalCode 使い方はとても簡単で use Parse::JapanesePostalCode; my $parser = Parse::JapanesePostalCode->new( file => 'KEN_ALL.csv' ); while (my $obj = $parser->fetch_ob
郵便番号と住所の変換システムを扱うエンジニアの間で悪名高かったKEN_ALL.CSVだが、2023年6月更新分より、文字コードがUTF-8に、フリガナが全角カタカナになり、町域名が長いときも複数レコードに分割されなくなったファイルが新たに追加された模様。従来通りの書式のファイルもダウンロードできる。今後は町域名に含まれている自然言語の注釈(「その他」「※番地」「以下に記載のない場合」など)をフラグに変換する予定もあるようだ(郵便番号データダウンロード)。
はじめに 郵便番号と住所の割当についての注意点 郵便番号データのカラム定義 複数行に分割されるレコード 町域名の編集 "以下に掲載がない場合" "・・の次に番地がくる場合" "・・一円" カンマ区切りされた町域名 地割 町域名がカッコ付きで補足されるパターン (全域),(丁目)(各町)(番地)(無番地)(その他) (○○屋敷) ビルの記載 (地階・階層不明)(X階) ・・を除く) ・・を含む) ・・その他) ・・以下) ・・以上) ・・以内) ・・以降) ・・以外) ・・」以外 ・・番地以上 カッコの取り扱い JPostal はじめに 郵便番号の入力に応じて、都道府県や市区町村を入力補完したい、というユースケースは良くあります。 日本郵便の公開する郵便番号データ ken_all.csv は、このようなユースケースのための辞書データ候補に挙げることができます。 しかし郵便番号データ ken_
この記事は Vim Advent Calendar 2020 25日目の記事です。 はじめに 年末ですね。年賀状ですね。インターネットが普及した現代、若い世代の人達においては年賀状を交わす事は少なくなってしまったかもしれません。しかし田舎育ちの僕やある程度年配の方々の世界線では年賀状は未だ変わらず有効なコミュニケーション手段として採用されており「アイツん家の子、大きくなったな」「アイツ随分老けたな」といった思い出回帰の方法としても使われています。 さて皆さんは年賀状をどの様に作っておられますか?手書きですか?それとも「筆○2020」等といった年賀状作成専用ソフトをお使いだったりしますか?僕は毎年 LibreOffice の宛名書き印刷を使っています。 LibreOfficeで宛名印刷(縦書き/連名): ひろろろぐ LibreOffice で差し込み印刷する記事は沢山あるのですが、連名がちゃ
はじめに地雷を撤去しておきましょう 結果論から行くと use ZIPDB select code, count(code) as count from dbo.zipcode_master group by code having count(code) > 1 order by count(code) desc みたいなクエリを実行してみたら、重複レコードがある郵便番号が1525件も居やがります。orz なのでまちがっても、 郵便番号をPrimary Keyにしてはいけません! 郵便番号マスタテーブルをつくっておく こんなクエリを実行すれば良いかと。 USE [ZIPDB] GO SET ANSI_NULLS ON GO SET QUOTED_IDENTIFIER ON GO CREATE TABLE [dbo].[zipcode_master]( [code] [nchar](7) C
KEN_ALL.csv はだめだとよく言われます。では何がだめなのでしょうか。 Blogや Twitterなどでよく語られているので、その内容を紹介してみたいと思います。 Blog 「ぐるぐる〜 」 まず、かなり網羅的にまとまっていたのが、下記の ブログ「ぐるぐる〜 」のエントリです。 bleis-tift.hatenablog.com 項目としては、下記のようなものが上げられています。あるあるですね… 単一レコードの複数行分割 「以下に記載がない場合」、「次のビルを除く」を含むレコード 「〜」で範囲を示すレコード 「〜」や「以上」、「以下」を含むレコード 「以外」「を除く」を含むレコード 「その他」を含むレコード 「全域」を含むレコード 「(丁目)」、「(郡)」、「(番地)」などを含むレコード 「を含む」を含むレコード 「地階・階層不明」を含むレコード 複雑な、としか言い表せないレコード
KEN_ALL.csv はだめだとよく言われます。では何がだめなのでしょうか。 Blogや Twitterなどでよく語られているので、その内容を紹介してみたいと思います。 Blog 「ぐるぐる〜 」 まず、かなり網羅的にまとまっていたのが、下記の ブログ「ぐるぐる〜 」のエントリです。 bleis-tift.hatenablog.com 項目としては、下記のようなものが上げられています。あるあるですね… 単一レコードの複数行分割 「以下に記載がない場合」、「次のビルを除く」を含むレコード 「〜」で範囲を示すレコード 「〜」や「以上」、「以下」を含むレコード 「以外」「を除く」を含むレコード 「その他」を含むレコード 「全域」を含むレコード 「(丁目)」、「(郡)」、「(番地)」などを含むレコード 「を含む」を含むレコード 「地階・階層不明」を含むレコード 複雑な、としか言い表せないレコード
[browsershot url=”http://www.post.japanpost.jp/zipcode/download.html” width=”400″ ] 日本郵便はKEN_ALL.CSVという名前で住所と郵便番号のデータを配布している だけど、なにか2段にわたるデータがあったりして使いづらいと評判↓ 「全角となっている町域名の文字数が38文字を超える場合、また、半角カタカナとなっている町域名のフリガナが76文字を越える場合には、複数レコードに分割しています。」 これを成形するモジュールがリリースされていたのでさっそく使ってみた 参照 本物の KEN_ALL.csv の処理が簡単に出来る Parse::JapanesePostalCode をリリースした github.com/yappo/p5-Parse-JapanesePostalCode 環境 ubuntu 11.04 デ
SQL Developerのインポート機能を使用してファイルをテーブルにインポートする場合、その方法をいくつかの選択肢の中から選ぶことが出来る。どれも最終的にはテーブルが作られて*1、そのテーブルにSELECT文などのSQLでアクセス可能になる。ただし、どの方法も違いがあるので、インポートの手順と違いなどを書いていきたい。 環境 Oracle Database Express Edition 11g Release 2をWindows上で動作 Oracle SQL Developer 3.2.20.29 共通な手順 新しいテーブルを作ってそこにデータを入れる場合、下記画像のように「表(フィルタ対象)」のところで右クリック -> データのインポートを選ぶ。 逆に、既存のテーブルにインポートしたい場合は、そのテーブルにフォーカス当たっている状態で右クリック -> データのインポートを選ぶ。 フ
なんかエラーが起きてるなー、と思ったら lzh 形式での配布が終了していたようです。 時の流れを思わずにはいられません。 <お知らせ> 郵便番号データダウンロードにおいて提供しているlzh形式ファイルにつきましては、データ配信を終了いたしました。 引き続きご利用の際は、お手数ですがzip形式ファイルをダウンロードしていただけますようお願いします。 平成27年2月27日更新 http://www.post.japanpost.jp/zipcode/dl/kogaki-zip.html ken_all.zip は引き続き配布されているのでそちらを使いましょう。 というか 2015 年ですし embulk とかで何とかしていけたらいいですね。
「やじうまの杜」では、ニュース・レビューにこだわらない幅広い話題をお伝えします。 【この記事に関する別の画像を見る】 「KEN_ALL.CSV」として知られる日本郵便の郵便番号データが、2023年6月の更新から改善されたそうで、界隈が歓喜の声に包まれています。 新しいデータファイル「utf_all.csv」の改善ポイントは、以下の通り。 ・文字コードが「Shift_JIS」から「UTF-8」に ・読み仮名データが半角カタカナから全角カタカナに ・複数レコードへの分割は廃止。従来は全角町域名の文字数が38文字を超える場合、半角カタカナ町域名のフリガナが76文字を超える場合に複数のレコードに分割されていた 「ぇ、古いのはどうしたの? システム更新しなきゃいけないの?」と思った方はご安心を。従来形式のデータも引き続き利用可能です。 「utf_all.csv」に都道府県別のデータはなく、ファイルサ
KEN_ALL.CSVデータの概要www.post.japanpost.jp/zipcode/dl/readme.html 郵便番号データファイルの形式等全角となっている町域部分の文字数が38文字を越える場合、また半角となっているフリガナ部分の文字数が76文字を越える場合は、複数レコードに分割しています。この郵便番号データファイルでは、以下の順に配列しています。 全国地方公共団体コード(JIS X0401、X0402)……… 半角数字(旧)郵便番号(5桁)……………………………………… 半角数字郵便番号(7桁)……………………………………… 半角数字都道府県名 ………… 半角カタカナ(コード順に掲載) (注1)市区町村名 ………… 半角カタカナ(コード順に掲載) (注1)町域名 ……………… 半角カタカナ(五十音順に掲載) (注1)都道府県名 ………… 漢字(コード順に掲載) (注1,2)
https://github.com/tokuhirom/KEN_ALL Parse::JapanesePostalCode は依存すくないからこういうかんじで1枚岩のスクリプトにしたら、Perl に慣れてない人もつかえて便利なのでは。
Twitter で以下のツイートを見かけました。 まじか。あの郵便番号データ「KEN_ALL.CSV」がバージョンアップして、人の形をしたデータになってる。今後も改善予定のようで楽しみ。 ・町域名が長い場合に複数レコードに分割するのをやめた ・半角カナをやめた ・UTF-8形式に変更 🔗郵便番号データダウンロード|日本郵便https://t.co/OgElcsc5Xc pic.twitter.com/a9AjUdAwSJ — にゃんこそば🌤データ可視化 (@ShinagawaJP) June 30, 2023 マジか! ということで早速日本郵政のサイトを確認してみました。 郵便番号データダウンロード 従来の「住所の郵便番号(CSV形式)」に加えて「住所の郵便番号(1レコード1行、UTF-8形式)(CSV形式)」が掲載されていますね。 郵便番号のデータ利活用の観点から2023年6月更新よ
外部表 - オラクル・Oracleをマスターするための基本と仕組み Oracleの外部表という機能の存在を知ったので、試しに使ってみる。適当なcsvファイルということで、郵便番号データダウンロード - 日本郵便からダウンロードできる、住所の郵便番号一覧であるken_all.csvを使うことにする。 環境 Oracle Database Express Edition 11g Release 2をWindows上で動作 Oracle SQL Developer 3.2 ディレクトリオブジェクトの準備と権限付与 まずcsvを配置するディレクトリオブジェクトをOracleに作成する。ログ出力が要らない場合、ログ出力ディレクトリは作らなくても良い。 CREATE OR REPLACE DIRECTORY EXTERNAL_TABLE_DIR AS 'C:\mydata\oracle\externa
2023/07 追記 長年、改善の雰囲気すらなかったKEN_ALLですが、国会で住所の正規化が話題になった為か、ついに新フォーマットが登場しました! https://forest.watch.impress.co.jp/docs/serial/yajiuma/1514142.html 本記事は旧フォーマットでの話となりますのでご了承ください。 こんにちは。Japan Digital Design のインフラチームに所属している渡邉です。 有志で AdventCalendar をやっており、今回は18日目の記事です。 https://adventar.org/calendars/5160 もう長いことこの業界で働いており、20代のころの仕事はほとんど思い出せないくらい、技術の移り変わりや進歩の速さに追いつけず勉強の日々ですが、昔と変わらぬ懐かしい佇まいで存在し続けるものも中にはあります。それ
機能 KEN_ALL.CSV(日本郵便で公開されている、郵便番号データ)を元に、町域名(半角カタカナ/漢字)部分をスッキリさせる(複数行にわたる括弧部分を削除とか、"以下を除く"等を削除) 変換後のファイルを出力する(必要な列のみ出力するようにすることも簡単な修正で可能) 実行環境 -Windows10 -EmEditor Professional (64-bit) Version 19.8.5 にて確認 使い方 日本郵便の郵便番号データダウンロードページで公開されている郵便番号データ(全国一括)を取得し、"KEN_ALL.CSV"ファイルを準備する(*1) EmEditorで"KEN_ALL.CSV"ファイルを開き、下記マクロを実行する。 KEN_ALL.CSVと同じディレクトリにKEN_ALL_cnv.txtファイルが作成される (KEN_ALL_LOG.txtファイルも出力される)
ケンオール開発チームです。 今回は、ケンオールグッズの紹介と、Swiftクライアントの紹介、そしてケンオールが取り扱う「郵便番号」とは何か、を紹介します。 前号はこちらです。 ケンオールグッズ エコシステムツール紹介 郵便番号データの処理が難しい理由 ケンオールについて ケンオールグッズ すでにTwitterなどでご存じの方もいらっしゃるとは思いますが、ケンオールグッズが完成しました!以下のサイトで購入できます。 https://suzuri.jp/kenall このグッズはケンオールファンの皆様のために作ったものなので、実費のみをいただいて提供しております。弊社の利益は一切発生しません。(将来的に変更する可能性はあります) エコシステムツール紹介 今回は、 @woxtuさんが開発した、Swiftクライアントを紹介します。 https://github.com/woxtu/swift-ke
パッケージ名はken-all。 github.com 郵便番号を渡すと、該当する住所を値として持つpromiseオブジェクトを返す。 import KenAll from 'ken-all'; // [['東京都', '千代田区', '大手町']]; KenAll('1000004').then(res => console.log(res)); 詳しい使い方はドキュメントにて。 作った動機 単純に、自分が欲しかったから。 以前から npm パッケージを作りたいと思っており、題材としてちょうどよかったというのもある。 動くものを作って公開まで持っていけたのは、経験として大きい。 今回得た知識は以下の記事にまとめた。 numb86-tech.hatenablog.com 以前からやりたかった、READMEにバッジをつけるのも無事に出来た。 以下のサービスは、ライブラリのバージョンを自動的に取
CSVファイルの入出力用ライブラリ Volcanus_Csv を使ったシリーズ記事 CSVファイルの入出力処理用ライブラリ Volcanus_Csv を公開しました SilexでVolcanus_CsvとStreamedResponseを使ってCSV出力・Content-Dispositionヘッダの設定方法いろいろ Silex + PDO + Volcanus_CsvでSQLiteに郵便番号データを取り込んでみた Volcanus/Csv/Readerによる zipcloud さん提供の郵便番号データの取り込みは意外と簡単にできたので、今度こそ KEN_ALL.CSV と戦ってみようと思います。 しかし、なにせ敵は総勢12万の大軍ですし、何の準備もなくいきなり戦うのも少々危険です。 そんなわけで、まずはそのままの内容を取り込んで、データの中身を調査してみます。 利用したデータは前回と同じ
こんにちは、ken_all です。 今日は KEN_ALL.csv の魅力についてお話したいと思います。 KEN_ALL.csv とは KEN_ALL.csv のメリット KEN_ALL.csv のデメリット KEN_ALL.csv の魅力 KEN_ALL.csv とは まず、エンジニアであればKEN_ALL.csv をご存知ない方はいらっしゃらないとは思うのですが、簡単に説明しておくと、KEN_ALL.csv は、日本郵便が無料で提供している、日本の郵便番号と住所を網羅したcsvデータになります。 郵便番号データダウンロード - 日本郵便 WEBサービスの住所を入力するフォームで、郵便番号を入力すると住所の欄が自動補填されたり、正しくない郵便番号かどうかをチェックされたりすると思うのですが、その処理を作る際に必要となるデータが KEN_ALL.csv になります。 KEN_ALL.csv
Windows7関連のメモ by 師子乃 (12/15) yumでエラーが出る場合の対処 by kage (02/07) CentOS7(Oracle Linux7)でのLVMパーティション拡張 by kirishima (12/21) HTML要素を動的に追加・削除する by まきすけ (12/03) mysqlで ERROR 1146 (42S02): Table 'mysql.servers' doesn't exist と Access denied for user 'root'@'localhost' by りにょ (09/04) 2022年07月(1) 2021年11月(1) 2020年05月(3) 2020年02月(1) 2016年06月(1) 2014年12月(5) 2014年10月(1) 2014年07月(2) 2014年01月(1) 2013年11月(1) 2012年
はじめに 郵便番号データ改定の経緯 町域名の問題点 郵便番号データの泥臭い編集 まとめ はじめに 2023年6月より、日本郵政の公開する郵便番号データ、通称 ken_all.csv の改定版が公開されました。 旧来の ken_all.csv に加えて、「住所の郵便番号(1レコード1行、UTF-8形式)(CSV形式)」 utf_all.csv が追加されています。 郵便番号のデータ利活用の観点から2023年6月更新より新たな形式でのデータを追加で公表します。 読み仮名データは全角カタカナとなっています。 従前公表のデータについては、全角となっている町域名の文字数が38文字を超える場合、また、半角カタカナとなっている町域名のフリガナが76文字を超える場合には、複数レコードに分割していましたが、今回追加公表するデータについては、1郵便番号データに対し、1行で記載しています。 UTF-8形式で記載
郵便番号を入力して住所変換 Webサイトで住所を入力する際に郵便番号を検索して住所に変換する機能が実装されていることがよくあります。 例えば「1710021」を入力すると「東京都豊島区西池袋」が表示されます。 郵便番号だけで住所の大半が自動入力されるので、現在の住所の入力フォームには実装が必須になっています。 郵便局のutf_ken_all.csvのデータで住所変換 utf_ken_all.csvとは日本郵便が提供する全国の郵便番号データが格納されたCSVファイルです。 このファイルには、全国の都道府県・市区町村・町域レベルの郵便番号情報が含まれています。 utf_ken_all.csvをダウンロードするには郵便番号データダウンロードのWebページにアクセスして、「最新データのダウンロード」のリンクをクリックするか、以下のURLにアクセスすればダウンロードできます。 https://www
津波防災ピクトグラム 2004.03.19 2004.07.29 2004.12.20 2005.01.24 防災ピクトグラム研究会 防災ピクトグラム研究会 http://picto.dpri.kyoto-u.ac.jp/ Copyright C 2004 , PICTO-KEN All Rights Reserved. 津波防災ピクトグラム 1 .津波ピクトグラム ■ 形状と色彩 津 波 ピクトグラム 2004.03.19 防災ピクトグラム研究会 形 状及び色彩は、ISO3864 Safety colours and safety signs(JIS Z9101安全色及び安全標識)に準拠 色 彩 意 味 義 務的行動 指示 対 比色 形 状 意 味 禁止 義務行動 注意、危険 警告(JIS:注意の意) 安全 避難 使用の際は、次のマンセル値を参照くだ
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く