タグ

変換と行政に関するshion214のブックマーク (3)

  • 日本における「名寄せ」と「照合」の黒歴史

    健康保険証、銀行口座、年金記録――個人のマイナンバーに別人の情報がひも付けられるトラブルが後を絶たない。多くの事案に共通するのは、自治体や関係機関の職員が氏名や生年月日などを基にマイナンバーや住民データを照会した際に、誤って同姓同名の人の情報を引き出してひも付けてしまうというケースだ。 こうした情報のひも付けをする際、職員が住民データの照合や突合、人確認に使うのが「氏名」「生年月日」「性別」「住所」、いわゆる基4情報といわれるものだ。 だがこの4情報は、コンピューターによる自動処理とは絶望的に相性が悪い。例えば氏名は「邊」「邉」など旧字・異体字の揺らぎや外字の処理が煩雑なうえ、婚姻による改名もある。よくある氏名の場合、氏名も生年月日も同一というケースが頻発する。住所は時期によって変わるうえ、人によって書き方が「一丁目四番」から「1―4」まで一意ではない。 こうした曖昧な識別符号を代替す

    日本における「名寄せ」と「照合」の黒歴史
  • 行政の統計資料のような非構造化データをGPTで構造化データに変換する|mah_lab / 西見 公宏

    今朝方GPT-4が発表されて、みなさん死ぬほど盛り上がってますねー。 GPT-4を使えば一発でできそうなネタではありますが、GPT-4 APIのお値段は3.5よりもお高めの設定なので、これからはどのように上手くGPTのバージョンを使い分けていくかが問われていくと思います。 というわけで今日は非構造化データを構造化データに変換する話です。 問題の背景行政が定期的に公開している統計資料をご覧になったことはありますでしょうか。ディスる訳ではないですが、以下に示すのは私が住んでいる富士吉田市の統計資料です。 統計ふじよしだ令和元年度版 - 商業 このように分かりやすい表で情報を提供してくれるのはありがたいのですが、数値データにはなっていないので分析に活用することができません。 GPTのパワーを使って、このような非構造化データを構造化データに変換できないか?というのが日のお題になります。 コードP

    行政の統計資料のような非構造化データをGPTで構造化データに変換する|mah_lab / 西見 公宏
  • 行政文書をマークダウン化しよう!ところでマークダウンって何?|METI-DX 経済産業省DXオフィス

    最初に見つけたのがこのユーザー会さんのページです。こちらにマークダウンとは「文章の書き方」とあります。なるほど簡単。軽量マークアップ言語よりは、かなり柔らかくなりました。ただ、むしろ簡単になりすぎて今度は具体的なイメージが沸かないか? 次に見つけたのは、こちらのブログです。 ここでは、「手軽にドキュメントを装飾できるフォーマット」とあります。うんうん、なんとなくイメージしている説明に近づいてきました。 そして最後に見つけたのが https://wa3.i-3-i.info/word16753.html 単なる「ファイルの書き方ルールの1つ」ですよと。これですかね。 人間社会に「日語」「英語」「ドイツ語」などの様々な言語があるように、デジタル世界でも、HTMLとかXMLとかPDFとか、いろいろな言語(ファイルの書き方ルール)がある、そのうちの1つがマークダウンという言語。それ以上でも以下で

    行政文書をマークダウン化しよう!ところでマークダウンって何?|METI-DX 経済産業省DXオフィス
  • 1