並び順

ブックマーク数

期間指定

  • から
  • まで

1 - 12 件 / 12件

新着順 人気順

名寄せの検索結果1 - 12 件 / 12件

  • とにかく日本の住所のヤバさをもっと知るべきだと思います|inuro

    「住所の揺らぎ程度のことにAIを使いたいだとかデジタル音痴」だの「住所の正規化なんてExcelで2時間あれば作れそう」だの、たいへんフットワークの軽やかな言説の数々に、位置情報界隈のみならず住所の正規化や名寄せに少しでも関わったことのあるエンジニアが総立ちでマサカリを投げていたのも記憶に新しい今日この頃ですが(2023年6月6日)、この手の騒動は周期的に起こってる印象です。 ということはつまり いつまで経っても解消されない、解決が困難な課題である その困難さが界隈以外に共有されていない であるわけで、その都度Twitterにトリビアが投下されてはTLが賑わい華やかではありますが、そろそろ自分の整理としてもどれだけ日本の住所システムがカオスで、その計算機的な処理がいかに困難かをメモっておこうかと思いました。 なおこの件については既にQiitaにGeoloniaの宮内さんが鼻血の出そうな良エン

      とにかく日本の住所のヤバさをもっと知るべきだと思います|inuro
    • 基本4情報での名寄せは難しい|MORIDaisuke

      先日は住所の件でお楽しみでしたね。 私も楽しくなってしょうもないツイートをしたところ、@masanorkさんから有用な情報をいただいてしまいました。 異体字に加えて外字も根深いですし、日付型に収まらない住基の生年月日とか、屋号を含んだ個人事業主の口座名義とか、外国人氏名における住民登録のアルファベットと口座名義のカタカナとの解離とか、旧姓併記の例外処理とか、文字列型に刻まれたバッドノウハウの塊ですね https://t.co/GOaytijfst — Masanori Kusunoki / 楠 正憲 (@masanork) June 6, 2023 このとき、私はごく簡単な「名寄せの難しさ」の社内研修資料を作っている最中だったのですが、この情報が大変参考になりました。 一方、私だけが得をしているのがなんとなくムズムズしてきたので、ここにアウトプットしてスッキリしようと思います。 なお、住所

        基本4情報での名寄せは難しい|MORIDaisuke
      • みんなビックデータビックデータって言ってるけど 名寄せとかどうしてんの?

        Social Media Marketing Trends 2024 // The Global Indie InsightsKurio // The Social Media Age(ncy)

          みんなビックデータビックデータって言ってるけど 名寄せとかどうしてんの?
        • スマホアプリとプライバシーの「越えてはいけない一線」 - @IT

          スマートフォンアプリは果たしてどこまで、端末に関する情報を取得してもいいのだろうか。 位置情報と連動してお勧め店舗情報を表示したり、過去の検索履歴を基に商品を提案したりと、端末の情報やユーザーの行動履歴を活用するスマートフォンアプリが登場している。中には便利なものも多いが、一歩間違えれば、ユーザーのプライベートな情報が筒抜けになりかねない。結果として、スマートフォンを活用したビジネスやそれを支える広告市場までもが、否定的な目で見られ、発展を阻害される恐れもある。 この議論が起こったきっかけの1つは、ミログが公開していた「AppLog」と「app.tv」というアプリだ。AppLogはSDKの形で提供され、これを自前のアプリに組み込むと、Android端末にインストールされているアプリの情報やその起動回数を収集し、同社のアプリケーション分析サービスに送信するようになっていた。開発者にはインスト

          • 日本における「名寄せ」と「照合」の黒歴史

            健康保険証、銀行口座、年金記録――個人のマイナンバーに別人の情報がひも付けられるトラブルが後を絶たない。多くの事案に共通するのは、自治体や関係機関の職員が氏名や生年月日などを基にマイナンバーや住民データを照会した際に、誤って同姓同名の人の情報を引き出してひも付けてしまうというケースだ。 こうした情報のひも付けをする際、職員が住民データの照合や突合、本人確認に使うのが「氏名」「生年月日」「性別」「住所」、いわゆる基本4情報といわれるものだ。 だがこの4情報は、コンピューターによる自動処理とは絶望的に相性が悪い。例えば氏名は「邊」「邉」など旧字・異体字の揺らぎや外字の処理が煩雑なうえ、婚姻による改名もある。よくある氏名の場合、氏名も生年月日も同一というケースが頻発する。住所は時期によって変わるうえ、人によって書き方が「一丁目四番」から「1―4」まで一意ではない。 こうした曖昧な識別符号を代替す

              日本における「名寄せ」と「照合」の黒歴史
            • ReaD & Researchmap

              {{ item.PressRelease.angular_publish_start }} — {{ item.CategoriesLanguage.name }} {{ item.PressRelease.research_area_discipline_text }} / {{ item.PressRelease.research_area_item_text }}

              • 高木浩光@自宅の日記 - 技術音痴なIT企業CTOが国のWGで番号制度の技術基盤を歪める

                ■ 技術音痴なIT企業CTOが国のWGで番号制度の技術基盤を歪める 非公開で進められている(傍聴が許されていない)「情報連携基盤技術WG」の配布資料を入手した。しかも、この「情報連携基盤技術WG」には、存在自体が非公表のサブWGがあり、その構成員は、「情報連携基盤技術WG」から中立の有識者らを除いた、ベンダーの人々だけの集まりになっているらしい。入手した資料は、そうしたベンダーの構成員から今月提出されたもののようだ。 入手した資料のうち、一つは重大な問題のある文書であり、他にもう一つ、問題のある文書があった。 「番号制度」は、推進派に言わせれば「国家百年の大計として国の礎を作ることに他ならない」という*1ものであり、ベンダー試算によれば何千億円もの国家予算が必要と言われているものである。しかも、その方式設計は国民のプライバシー影響を左右する重要なものであって、一度不適切な方式を普及させると

                • クッキーより怖いcanvas fingerprintingって何?迂回方法は?

                  クッキーより怖いcanvas fingerprintingって何?迂回方法は?2014.07.28 16:009,047 satomi 問題:ホワイトハウスとYouPornが共通でもってるもの、なーんだ? こたえ:canvas fingerprinting 「canvas fingerprinting(canvasの指紋採取)」というのは、最近大手サイトで採用が広まってる新手のオンライン追跡ツールのことです。クッキーと違って、ユーザー側からは探知もブロックもできないという、とんでもない野郎です。 まさにユーザーの知らぬ間にウェブの閲覧行動がサイトに筒抜け、というマジックミラー状態。その現状をProPublicaが記事にしていますよ。 「canvas fingerprinting」を最初に発見したのはプリンストン大学と英ルーヴェン大学の研究チームです。ここが発表した「The Web Neve

                  • Canvas Fingerprintingはクッキーより怖いのか技術的に調べてみた|TechRacho by BPS株式会社

                    morimorihogeです。最近忙しくて遠征すらおぼつかない状態です。夏イベント資源足りるのかこれ。 なんかはてブ界隈などでCanvas Fingerprintingの話題が出ていて、Cookieより怖い!とか、Adblockみたいに無効にする方法がないのにユーザトラッキングできて怖い!!といったアオリの記事がぽこぽこ出てきているようです。 でも、ざっと調べた限りの日本語のどの記事を読んでも、具体的にどうやってユーザ個々のトラッキングができるようになるのか、技術的に解説されている記事が見つかりませんでした。 というわけで、エンジニアとしてはここは一つキッチリ理解しておきたいと思い、調べた結果をまとめます。 もし僕の読解がおかしくて変なことを言っている部分があれば、はてブやTwitter、コメント欄などで指摘して頂ければ更新していこうと思いますので、マサカリ上等です ;) Canvas F

                      Canvas Fingerprintingはクッキーより怖いのか技術的に調べてみた|TechRacho by BPS株式会社
                    • 編集距離 (Levenshtein Distance) - naoyaのはてなダイアリー

                      昨日 最長共通部分列問題 (LCS) について触れました。ついでなので編集距離のアルゴリズムについても整理してみます。 編集距離 (レーベンシュタイン距離, Levenshtein Distance) は二つの文字列の類似度 (異なり具合) を定量化するための数値です。文字の挿入/削除/置換で一方を他方に変形するための最小手順回数を数えたものが編集距離です。 例えば 伊藤直哉と伊藤直也 … 編集距離 1 伊藤直と伊藤直也 … 編集距離 1 佐藤直哉と伊藤直也 … 編集距離 2 佐藤B作と伊藤直也 … 編集距離 3 という具合です。 編集距離はスペルミスを修正するプログラムや、近似文字列照合 (検索対象の文書から入力文字にある程度近い部分文字列を探し出す全文検索) などで利用されます。 編集距離算出は動的計画法 (Dynamic Programming, DP) で計算することができることが

                        編集距離 (Levenshtein Distance) - naoyaのはてなダイアリー
                      • 第1回 データ・クレンジングと名寄せ技術:ITpro

                        皆さんは,企業のシステムが提供している情報(データ)をどれくらい信用していますか。 例えば,社内の製品担当者に問い合わせをしたい場合,社内システムを使って,製品から担当者を割り出し,担当者名から電話番号を検索,その電話番号に電話をかけてみるでしょう。この場合,社内システムから得られる情報はおおむね信用できるでしょう。製品担当者の変更が更新されていないといったこともあるかもしれませんが,そのような場合は社内であれば引き継ぎ担当者を教えてもらうことで状況を理解できるので,まずは情報を信じて電話をかけてみるのではないでしょうか。 では,社外のお客様へ連絡するときはどうでしょうか。この場合は少し慎重になるでしょう。社内情報を検索するとき以上に各種システムから信用できる必要な情報を慎重に収集し,行動に移すはずです。私の友人のA君もそうでした。 使えないデータたち A君はある電気製品の販売を担当する営

                          第1回 データ・クレンジングと名寄せ技術:ITpro
                        • Google、「サブアカウント」を検出してメインアカウントと紐付ける技術を特許として出願 | スラド IT

                          9月18日、Googleは複数アカウントの使い分けを無意味にするため、米国特許商標庁に新たな特許を出願していたことが分かった。この「Social computing personas for protecting identity in online social interactions」と呼ばれている特許は、複数IDの利用が判明した場合、双方のアカウントを紐付けして一つのアカウントとして処理しようというもの。たとえばサブアカウントを使用していると判断できた場合、それがメインのユーザーアカウントに関連付けられ、ソーシャルネットワーク上で複数のアカウントがあることが分かるようにもできる模様(betanews、本家/.)。 特許は複数のアカウントを識別するためのエンジンや複数アカウントの関連付けエンジン、その情報を統合表示するためもの、紐付けられたアカウントをユーザー側から可視レベル設定に基

                          1