並び順

ブックマーク数

期間指定

  • から
  • まで

1 - 40 件 / 74件

新着順 人気順

名寄せの検索結果1 - 40 件 / 74件

  • 基本4情報での名寄せは難しい|MORIDaisuke

    先日は住所の件でお楽しみでしたね。 私も楽しくなってしょうもないツイートをしたところ、@masanorkさんから有用な情報をいただいてしまいました。 異体字に加えて外字も根深いですし、日付型に収まらない住基の生年月日とか、屋号を含んだ個人事業主の口座名義とか、外国人氏名における住民登録のアルファベットと口座名義のカタカナとの解離とか、旧姓併記の例外処理とか、文字列型に刻まれたバッドノウハウの塊ですね https://t.co/GOaytijfst — Masanori Kusunoki / 楠 正憲 (@masanork) June 6, 2023 このとき、私はごく簡単な「名寄せの難しさ」の社内研修資料を作っている最中だったのですが、この情報が大変参考になりました。 一方、私だけが得をしているのがなんとなくムズムズしてきたので、ここにアウトプットしてスッキリしようと思います。 なお、住所

      基本4情報での名寄せは難しい|MORIDaisuke
    • みんなビックデータビックデータって言ってるけど 名寄せとかどうしてんの?

      Social Media Marketing Trends 2024 // The Global Indie InsightsKurio // The Social Media Age(ncy)

        みんなビックデータビックデータって言ってるけど 名寄せとかどうしてんの?
      • 日本における「名寄せ」と「照合」の黒歴史

        健康保険証、銀行口座、年金記録――個人のマイナンバーに別人の情報がひも付けられるトラブルが後を絶たない。多くの事案に共通するのは、自治体や関係機関の職員が氏名や生年月日などを基にマイナンバーや住民データを照会した際に、誤って同姓同名の人の情報を引き出してひも付けてしまうというケースだ。 こうした情報のひも付けをする際、職員が住民データの照合や突合、本人確認に使うのが「氏名」「生年月日」「性別」「住所」、いわゆる基本4情報といわれるものだ。 だがこの4情報は、コンピューターによる自動処理とは絶望的に相性が悪い。例えば氏名は「邊」「邉」など旧字・異体字の揺らぎや外字の処理が煩雑なうえ、婚姻による改名もある。よくある氏名の場合、氏名も生年月日も同一というケースが頻発する。住所は時期によって変わるうえ、人によって書き方が「一丁目四番」から「1―4」まで一意ではない。 こうした曖昧な識別符号を代替す

          日本における「名寄せ」と「照合」の黒歴史
        • 漏洩が問題なのではない、名寄せが問題なのである - 第3回プライバシーフリークカフェ(前編) (1/7):テクノロジーでビジネスを加速するための実践Webメディア EnterpriseZine (EZ)

          ベネッセ事件の功 ―名簿屋問題を考える 山本 はい、ということで第3回プライバシーフリークカフェ開催いたします。よろしくお願いします。今回も、この3人、新潟大学の鈴木先生と、技術者の高木浩光先生、そして私、山本一郎でお送りしたいと思います。 さて、今月先月もいろんなことがありました。その中でも一番冴えたものは、ベネッセ事件がだいぶ続報が報じられて状況がわかるようになってきたかなあ、と。 高木 ちょうど前回、第2回の次の週に報じられましたか、ベネッセ事件は。 山本 はい。突然、ベネッセ大爆発という非常に素敵な話が出ましたけども、実際、事件の概要そのものはもうかなり報じられてきています。 高木 なんか今日も、ドコモの記者会見がさっき4時からあったそうで… 山本 ええ。法人のデータが、1,100人分くらい出ましたっていう話で終わるのかどうかっていうのが非常に微妙なところかと思うんですけれども、出

            漏洩が問題なのではない、名寄せが問題なのである - 第3回プライバシーフリークカフェ(前編) (1/7):テクノロジーでビジネスを加速するための実践Webメディア EnterpriseZine (EZ)
          • 第1回 データ・クレンジングと名寄せ技術:ITpro

            皆さんは,企業のシステムが提供している情報(データ)をどれくらい信用していますか。 例えば,社内の製品担当者に問い合わせをしたい場合,社内システムを使って,製品から担当者を割り出し,担当者名から電話番号を検索,その電話番号に電話をかけてみるでしょう。この場合,社内システムから得られる情報はおおむね信用できるでしょう。製品担当者の変更が更新されていないといったこともあるかもしれませんが,そのような場合は社内であれば引き継ぎ担当者を教えてもらうことで状況を理解できるので,まずは情報を信じて電話をかけてみるのではないでしょうか。 では,社外のお客様へ連絡するときはどうでしょうか。この場合は少し慎重になるでしょう。社内情報を検索するとき以上に各種システムから信用できる必要な情報を慎重に収集し,行動に移すはずです。私の友人のA君もそうでした。 使えないデータたち A君はある電気製品の販売を担当する営

              第1回 データ・クレンジングと名寄せ技術:ITpro
            • DMPの仕組みを知ろう、オーディエンスデータを統合する「CookieSync」と「名寄せ」

              『MarkeZine』が主催するマーケティング・イベント『MarkeZine Day』『MarkeZine Academy』『MarkeZine プレミアムセミナー』の 最新情報をはじめ、様々なイベント情報をまとめてご紹介します。 MarkeZine Day

                DMPの仕組みを知ろう、オーディエンスデータを統合する「CookieSync」と「名寄せ」
              • 「日本の住所のヤバさ」知れ渡る 正規化・名寄せ問題、Twitterトレンドに

                「日本の住所のヤバさ」が6月7日朝にTwitterトレンドになっている。住所表記の正規化・名寄せがいかに難しいかを解説した、inuroさんのnote記事「とにかく日本の住所のヤバさをもっと知るべきだと思います」がバズっているためだ。 6月4日のテレビ番組で、マイナンバーカードに記載される住所をめぐり、河野太郎デジタル大臣が「将来的にはAIの技術を使って住所の表記揺れを判断することがあり得るかもしれない」と発言し、住所の正規化についてネットで議論になっていたことがきっかけだ。 記事は、「日本の住所システムがカオスで、その計算機的な処理がいかに困難か」を解説する内容だ。 まず、日本にはそもそも、新旧の2つの住所システム(A町1丁目3番2号/A町1234番地)が併存しており、例えば、「浦安市舞浜2」の住所が「舞浜2丁目」「舞浜2番地」の2系統あるケースを紹介。 さらに、まったく同じ住所表記が異な

                  「日本の住所のヤバさ」知れ渡る 正規化・名寄せ問題、Twitterトレンドに
                • もう逃げられない!マイナンバー制度「あなたの財産を丸裸にします」。「恐怖の名寄せ」で一発追徴課税(週刊現代) @gendai_biz

                  もう逃げられない! マイナンバー制度「あなたの財産を丸裸にします」。「恐怖の名寄せ」で一発追徴課税 特集!知っておきたいマイナンバーの裏のウラ② ——親の遺産、株の利益から妻の掛け持ちバイト、隠していた小金まで、一つにまとめ上げて、あなたを吊るす 知らず知らずのうちに導入が近づいていたこの制度。役所での手続きが簡単になれば便利だが、人が番号で管理されるというのはやっぱり気持ちが悪い。逃げ道のない監視社会が、まもなく訪れる。 とにかく、やれ! 「遅い!」 首相官邸の5階にある総理執務室。安倍晋三総理の甲高い怒声が響く。連日のように呼び出され、叱責を受けているのは、マイナンバー制度の実務を担当する内閣官房社会保障改革担当室の宮島俊彦室長だ。 いよいよ10月5日から、日本に住むすべての人に一枚のカードが配られる。12ケタの「マイナンバー」が記された、「通知カード」である。 いったい、いつのまに—

                    もう逃げられない!マイナンバー制度「あなたの財産を丸裸にします」。「恐怖の名寄せ」で一発追徴課税(週刊現代) @gendai_biz
                  • 名寄せって難しいのよね - novtan別館

                    同姓同名同生年月日くらいだったら「便宜上」同一人物として扱っているシステムは結構多いと思うよ。 事故の経緯に関し、銀行側の説明をまとめると、次のようになります。 寝屋川支店では、死者の親族からの要請を受けて、死者の銀行口座を閉じた。この際、三井住友銀行の全国の顧客の口座一覧の中で、死者と同姓同名、同じ生年月日の人物を、住所を確認せずに閉じた。 http://21432839.at.webry.info/201601/article_4.html その人がどの支店に属する人かが重要であった時代ならともかく、今銀行にとってリテールのお客さんの住所は富裕層ならともかくそうじゃなければそれほど大きな意味合いを持っていないことも多いでしょう。 銀行についてはペイオフの絡みでずい分昔に名寄せのシステムは整えたんですが、実際のところ、システム的な名寄せを全て信じて何かをすることは難しいので名寄せされた人

                      名寄せって難しいのよね - novtan別館
                    • 覚えておきたい!「名寄せ」の基本 - ITpro

                      “システムを作成するときには考慮されていなかった観点でデータを使おうとしたとき”に「使えないデータたち」は発生します。しかし,使えないデータだからと言って捨ててしまうことはできないでしょう。なぜなら,そのデータは今まで使っていたデータであり,これからも使うデータだからです。 では,使えないデータを使えるデータにするにはどうすれば良いのでしょうか。その作業は「データ・クレンジング(Data Cleansing)」と呼ばれます。データ・クレンジングに似た言葉として「名寄せ」というものがあります。名寄せはデータ・クレンジングをした結果,データ間の関連性を導き出す行為です。重複データを特定するという観点では,名寄せはデータ・クレンジングの一環です。 この連載は,名寄せ技術について,個人データの例をとりあげて具体的に説明します。データを扱うソフト技術者/開発者にとって,名寄せは必須知識の一つと言って

                        覚えておきたい!「名寄せ」の基本 - ITpro
                      • Wikipediaを元にした日本語の名寄せデータセットを作成しました - Sansan Tech Blog

                        こんにちは、DSOC 研究開発部の奥田です。以前の私のブログ記事ではコーギーの動画を見ていると書きましたが、とうとうコーギーを家族として迎え入れ、現在生後6ヶ月の子犬と暮らしております。 さて私たちDSOCでは、SansanやEightの価値を高めるために様々な自然言語処理のタスクに取り組んでおります。例えばニュース記事からの固有表現抽出では、私たちのサービスに特化した固有表現を対象に研究開発しています。その他にも様々あるなかで、特に重要かつ困難とされているものの一つに「名寄せ」というタスクがあります。AIや人工知能と呼ばれるものが発達した現代においても、人間には当たり前にできるタスクが機械には難しいことがまだまだ存在します。 今回は、その「名寄せ」というタスクにおける日本語でのデータセットを作成してみました。これをきっかけに、日本語での名寄せというタスクの研究が進み分野が活性化することを

                          Wikipediaを元にした日本語の名寄せデータセットを作成しました - Sansan Tech Blog
                        • 無情社会と番号制度~ビクトル・ユーゴー「ああ無情」に見る名寄せの危険性 | gihyo.jp

                          最近、「⁠国民ID制度」やら「番号制度」というキーワードが世間を賑やかせている。この制度の導入によって、年間1兆円の特需が恒久的に続くなどといって、株価が上がる企業まで出る始末だ。 この「番号制度⁠」⁠、番号を人に振って行政効率をあげると共に、必要な人に必要な援助を差し伸べようという大変結構な話だ。IT戦略本部の電子行政に関するタスクフォースなどを見ている限りでは、分野別の利用番号と、名寄せのキーとして使う番号を峻別して、後者は見えない番号にするというような妥当な形で進んでいる。ところが、それを取り巻く報道などを見ると、そうではなくて「見える不変の汎用番号」を人に振ろうという話が散見される。 私自身、業務効率化のために「不変の番号」を導入するのにはやぶさかではない。だが、名寄せによるプライバシー侵害などの副作用を生むから、それは見えてはいけないし、必要ならば変更も可能でなければならないと思

                            無情社会と番号制度~ビクトル・ユーゴー「ああ無情」に見る名寄せの危険性 | gihyo.jp
                          • 高精度名寄せシステムを支える テキスト処理 (の、ほんのさわり)

                            2017.11.14 開催 golang.tokyo #10にてLT発表 Golangを用いたテキスト処理を行う際に気をつける部分、ライブラリの選定方針、テキスト処理のための基礎的なfunctionの作成について紹介しました。

                              高精度名寄せシステムを支える テキスト処理 (の、ほんのさわり)
                            • SQLによる条件付き重複データの抽出と単純な名寄せ

                              CodeZine編集部では、現場で活躍するデベロッパーをスターにするためのカンファレンス「Developers Summit」や、エンジニアの生きざまをブーストするためのイベント「Developers Boost」など、さまざまなカンファレンスを企画・運営しています。

                                SQLによる条件付き重複データの抽出と単純な名寄せ
                              • 無情社会と番号制度〜ビクトル・ユーゴー「ああ無情」に見る名寄せの危険性

                                どうも最近、「国民ID」やら「番号制度」やらというキャッチフレーズで「見える不変の汎用番号」を人に振ろうという話が巷で盛り上がってきている。これによって、年間1兆円の特需が恒久的に続くなどといって、株価が上がる企業まで出る始末だ。 名寄せを効率化することによって業務効率が劇的に改善するというのだが、議論が荒すぎて危惧を覚える。私自身、業務効率化のために「不変の番号」を導入するのにはやぶさかではない。だが、名寄せによるプライバシー侵害などの副作用を生むから、それは「見えてはいけない」と思っている。 しかし、この名寄せの脅威、なかなか一般にはご理解いただけないようだ。 曰く「名寄せがプライバシーの脅威と批判されても。番号制がもたらす脅威とは具体的にどのようなものか?」 「プライバシーとは何か」から説き起こした情報モデル的解説は、12月19日(日)の堀部シンポ 資料(当日公開)に詳しく書いたので

                                  無情社会と番号制度〜ビクトル・ユーゴー「ああ無情」に見る名寄せの危険性
                                • 住所の名寄せの問題で「住所なんてやめて緯度経度で管理しようぜ」という人がいるけど地震で数メートル範囲でズレるのでそれはそれで大変そうという話

                                  金太ωまひえもん🦥 @mahiemonu 東日本大震災は5m でした。僕も断層のずれのことを覚えていたのでいささかオーバーに書きすぎました、すみません:『牡鹿半島周辺で、水平方向で5mを超える地殻変動が観測されました』: 国土地理院 特集・平成23年(2011年)東北地方太平洋沖地震から10年 gsi.go.jp/kanshi/h23touh… 2023-06-07 19:29:22

                                    住所の名寄せの問題で「住所なんてやめて緯度経度で管理しようぜ」という人がいるけど地震で数メートル範囲でズレるのでそれはそれで大変そうという話
                                  • 不明年金問題は社会保険庁による「人災」〜5000万件というとほうもない数の「名寄せ」の失敗を放置してきた社会保険庁 - 木走日記

                                    ●不明年金全額追い払い 領収書以外も対応 政府・与党 今日(26日)の朝日新聞紙面一面トップ記事から。 不明年金全額追い払い 領収書以外も対応 政府・与党 2007年05月25日23時40分 政府・与党は25日、年金記録が宙に浮いたり、消えたりしている問題の対策を明らかにした。本来の年金額を受給していなかった場合、現行制度では差額を受け取れるのは過去5年分だけだが、時効をなくして全額受け取れるような特別立法を議員立法の形で行う。さらに安倍首相は衆院厚生労働委員会で、領収書以外の証拠でも年金を支払う考えを示した。与党はこうした対策と引き換えに同日夕、社会保険庁改革法案の採決を強行し、与党の賛成多数で可決した。野党は反発し、その後の審議を欠席した。 一連の対策は、議員立法以外は、すでに政府が方針を示していたものも多く、目新しさはない。すべての記録にもれなく対応できる実効性も保障されていない。本

                                      不明年金問題は社会保険庁による「人災」〜5000万件というとほうもない数の「名寄せ」の失敗を放置してきた社会保険庁 - 木走日記
                                    • CA1740 – 動向レビュー:著者の名寄せと研究者識別子ORCID / 蔵川 圭

                                      著者の名寄せと研究者識別子ORCID 1. はじめに  学術研究成果の多くは論文として出版され公表される。論文は、すでに存在する論文を引用しながら、それが表す知識の体系を位置づける。そのような知識の体系を構成することに、誰が貢献したか、どのような組織が貢献したかがわかるように、内容とともに著者の名前や所属組織名が明記される。助成機関に対して謝辞を加えることも多い。ある研究者がどのくらい知識の体系化に貢献したかを測ってみたいとき、その研究者の論文を並べてみればよい。それがいわゆる業績リストである。著者本人の申告だけでなく、より客観性を帯びた形でリスト化されればより正確な評価が可能となるであろう。今では、論文や業績リストがWeb上に公開されるようになり、瞬時にそのような情報を得ることが可能となった。出版者の論文検索システム、機関リポジトリ、出版者や機関の研究者ディレクトリなどから直接、または大

                                        CA1740 – 動向レビュー:著者の名寄せと研究者識別子ORCID / 蔵川 圭
                                      • マイナンバーの本当の怖さをご存じ? 「詐欺」より「名寄せ」

                                        「マイナンバーが漏洩すると、あらゆる個人情報が漏れてしまう」と考えるのは誤解であり都市伝説の一つだ。マイナンバー制度で本当に怖いのは、既に頻発している特殊詐欺に限らない。制度の外で、あらゆる個人情報が集積されてしまう「名寄せ」にある。 一部の企業で従業員のマイナンバーを記載した書類が盗難に遭ったと伝えられている。また、社内電子掲示板に従業員名簿と一緒に掲示しそうになったといった事例が個人情報保護委員会のサイトで紹介されている。しかし実は、マイナンバー制度で企業が本当に恐れるべきは、漏洩そのものではない。 一方で、マイナンバー制度に便乗した特殊詐欺が頻発している。こうした特殊詐欺の手口は時事ネタに便乗したり、事情に疎い相手に付け込んだりするのが常套手段である。制度の複雑さや政府の広報不足に問題があるとしても、マイナンバー制度だけの問題ではない。 マイナンバー制度にかけられた“3重ロック” マ

                                          マイナンバーの本当の怖さをご存じ? 「詐欺」より「名寄せ」 
                                        • 【独自】キックバック中止を高木事務総長が今年議員に伝達 パーティー券購入者の「名寄せ厳格化」も 安倍派内で方針変更か | TBS NEWS DIG

                                          自民党の派閥の政治資金パーティーをめぐり、安倍派などの事務所が家宅捜索を受けた事件で、安倍派の高木毅事務総長が今年5月のパーティー前、キックバックを中止することを派閥に所属する一部の議員に直接伝えて…

                                            【独自】キックバック中止を高木事務総長が今年議員に伝達 パーティー券購入者の「名寄せ厳格化」も 安倍派内で方針変更か | TBS NEWS DIG
                                          • BERTとベクトル検索を用いたYahoo!ショッピングの製品名寄せ作業の効率化検証

                                            ヤフー株式会社は、2023年10月1日にLINEヤフー株式会社になりました。LINEヤフー株式会社の新しいブログはこちらです。LINEヤフー Tech Blog こんにちは。CTO直下のR&D組織であるテックラボにて、コマース領域向けの研究開発に取り組んでいる脇山です。 本記事ではベクトル検索を製品への紐付け(いわゆる名寄せ)業務に利用した事例を紹介します。 商品を製品マスタに紐付けする みなさんはYahoo!ショッピングで商品を探したことがあるでしょうか? Yahoo!ショッピングにはいろんなストアが商品を出品しているため、同じ商品を異なるストアが販売しています。そのため、「コカ・コーラ 500ml 48本」といったクエリで検索すると、検索結果に異なるストアが出品した「コカ・コーラ 500ml 48本」の商品が複数並ぶことがあります。商品を購入する際は、同じ商品でも商品価格や送料などがス

                                              BERTとベクトル検索を用いたYahoo!ショッピングの製品名寄せ作業の効率化検証
                                            • 全ポケモンの名寄せデータ POKEMON_ALL.json を作った - 詩と創作・思索のひろば

                                              ポケモンプログラミングしてるといくつかの有名どころのサイトからデータを収集することになる。具体的には以下のようなサイト。 ポケモン徹底攻略 言わずと知れた、ポケモン情報の総本山。 PokéAPI ポケモンのデータをRESTで提供してくれるサイト。最近はGraphQLもやってるらしい。英語。 ポケモンバトルデータベース ポケモンホームで閲覧できるような、ランクバトルに関する情報を閲覧できるウェブサイト。 それぞれ便利なのだけど、難儀するのがポケモンのIDにそれぞれ互換性がないこと。No.25 ピカチュウのようにポケモンには全国図鑑番号というのが振られていて、基本的にはこれでいいのだけど、リージョンフォーム(同種のポケモンでも登場する地方によって姿や能力が違う)やフォルム(同じ個体でも持たせるアイテムなどによって姿や能力が違う)違いがあり、これのナンバリング方法が統一されていないということだ。

                                                全ポケモンの名寄せデータ POKEMON_ALL.json を作った - 詩と創作・思索のひろば
                                              • NFC新時代は、固有ID認証と名寄せを根絶するラストチャンス - ReDo

                                                ちょっとヤバイ。ケータイIDの恐怖再び。 おサイフケータイ等におけるFeliCaのIDmの様な「カードの固体番号」によってセキュリティが必要なユーザ認証を行うことは、以下の3つの理由で絶対に避けてください。 Mifareの7byte(Ultra Light等)はだいじょうぶそうですが、少なくともFeliCaのIDmとMifareの4byte UIDはユニークな保証がありません。 Important information regarding 4 Byte & 7 Byte UIDs of MIFARE? products http://www.mifare.net/technology/4-7byte-uid/ FeliCa技術方式の各種コードについて(176KB) http://www.sony.co.jp/Products/felica/business/tech-support/in

                                                  NFC新時代は、固有ID認証と名寄せを根絶するラストチャンス - ReDo
                                                • ITから見た年金問題考察(1)COBOLや名寄せシステムの問題ではない

                                                  多田正行さんのコラム『片山さつき議員の「システムは数カ月でできる」発言に思う』は,ITpro Watcherで長らくアクセスランキングのトップを占めていました。このコラムは,テレビ朝日の「朝まで生テレビ」での片山さつき氏の発言について,システム開発の実情を知る多田さんの疑念を表明したものでした。 情報システムを作り直せば年金記録の紛失問題が解決するかのような発言は,片山さつき氏だけではありません。「朝まで生テレビ」の司会者である田原総一朗氏は,「国民はなぜ安倍内閣を見放したか」というコラムの中で,「“COBOLを使っていたら数字が無茶苦茶になって企業は倒産する”40年前の骨董品のようなシステムを使い続けたことに問題がある。社保庁問題はコンピュータの問題であり,直接には安倍内閣の問題ではない」との見方を示しています。 年金記録紛失問題の原因を究明している「年金記録問題検証委員会(年金検証委)

                                                    ITから見た年金問題考察(1)COBOLや名寄せシステムの問題ではない
                                                  • 知らないと損をする! データ整理・名寄せに使える6つのExcel(エクセル)小技集 | BLOG | シナジーマーケティング株式会社

                                                    本記事は、データの重複チェックやデータクレンジングなどの「データの名寄せ作業」を簡単に効率化できるExcel(エクセル)の機能や関数をご紹介した前回記事の続編です。今回は、改めて「データの名寄せ作業」の工程を整理し、各工程でのExcel作業効率化のテクニックをご紹介します。 複数のリスト・データを名寄せ(マージ)する必要があるが、方法がわからない データクレンジング作業に時間がかかる、業務効率が悪い 顧客データのメンテナンスが必要なのに、Excelが苦手 などの課題を抱えておられるマーケティング・制作担当者様にオススメです。 1.データの名寄せ作業:3つのステップ 3つのステップとは、データの【整理】【絞り込み(フィルタリング)】【統合(マージ・名寄せ)】です。この順で作業を行わなければ、データに誤りが生じる可能性が大きくなりますので、気をつけましょう。 まずは、データの【整理】です。複数

                                                      知らないと損をする! データ整理・名寄せに使える6つのExcel(エクセル)小技集 | BLOG | シナジーマーケティング株式会社
                                                    • 第3回 同一データの決定と名寄せの限界

                                                      最終回である今回のテーマは,絞り込まれた類似データをチェックして,同一データを決定する作業です。また最後に,名寄せを行うにあたっての注意点やツールについて説明します。 ◆名寄せ技術3「類似データの絞り込み」 標準化が済むと,標準化されたデータを突き合わせる作業を行います。名寄せにおける突き合わせとは,同一データかどうかの比較のことです。 完全に一致するデータは問題ありませんが,ある程度一致するデータを同一データととらえるかどうかが,名寄せの場合のポイントです(完全一致を試みるのであれば,名寄せという考え方は必要なく,一般的な付き合せ処理となります)。 「ある程度一致する」というのは人間の感覚的な要素が絡むため,難しいところです。まずは人間の感覚を見てみましょう。図10のデータは,非常に近いデータの例となっていますが,どのデータが同一人物である確率が高いでしょうか? 氏名が違ったり,住所が異

                                                        第3回 同一データの決定と名寄せの限界
                                                      • ワークショップ「名寄せのこれから ~研究者IDサミット~」開催報告 : Kanazawa University Library

                                                        話題になっている名寄せについてワークショップを行いました。コアな話題でしたが、27名もの参加をいただき、盛会のうちに終了となりました。参加していただいた皆様、ありがとうございました。 各発表での質疑応答は、発表者だけでなく参加者によるミニ・ディスカッションが始まるほどでした。このページでは、講演・発表・ディスカッションのエッセンスを紹介します。 プログラム ★「開会あいさつ」 武田英明(NII) 近年、論文数が増加し、国際的な研究協力も進んでいる。そのため、名寄せが必要になってきた。大変な作業であるが、やっていかなければならない。 幸いにして、日本には「科研費番号」がある。これで日本の研究者はほぼ捕捉できる。名寄せのための材料はある。そのなかで何ができるだろうか。 ★「なぜ研究者の名寄せが必要か ~ 世界の動向と研究者リゾルバー ~」 蔵川圭(NII) →発表資料 閲覧サイト

                                                        • 今おさえておくべき米国BtoBマーケ界10のトレンド 外部データ活用からSNS&顧客DBの名寄せまで

                                                          『MarkeZine』が主催するマーケティング・イベント『MarkeZine Day』『MarkeZine Academy』『MarkeZine プレミアムセミナー』の 最新情報をはじめ、様々なイベント情報をまとめてご紹介します。 MarkeZine Day

                                                            今おさえておくべき米国BtoBマーケ界10のトレンド 外部データ活用からSNS&顧客DBの名寄せまで
                                                          • 検索キーワードを収集前に名寄せする方法 :: 「清水 誠」公式サイト

                                                            2013年10月30日 16:45 検索されるキーワード(検索クエリ)のデータには、大文字と小文字、半角と全角、掛け合わせの順番、スペルミス、類義語など、無数のバリエーションが含まれます。 「念のため一番細かい情報を全部取っておきたい!」 と思うかもしれませんが、細かすぎるデータは分析が大変になります。まとめると順位が変わることもよくあります。 そのため、収集する時点である程度バリエーションを減らしておくと便利です。 そこで今回紹介するのは... 検索クエリのフォーマットや順番を揃えてデータの粒度を落とす方法 タイトルでは分かりやすく「名寄せ」と書きましたが、「似ているテキストデータを単純な変換によってまとめる」という意味です。 ページがロードされた時にリアルタイムで処理するので、単純なクレンジングのみを行います。 処理する内容 英数字と記号を半角に統一する アルファベットを小文字に統一す

                                                            • Scopusの論文IDと国内の大学・公的機関の機関名称の名寄せ結果 科学技術・学術政策研究所が公開

                                                              2013年7月4日、科学技術・学術政策研究所(NISTEP)は、Elsevier社の文献データベースScopusの論文ID(Scopus_eid)とNISTEP大学・公的機関名辞書の機関ID(NID)の対応テーブルを公開しました。 これは、1996-2010年の期間にScopusに採録された論文のうち、日本の機関に所属する著者を含む論文のデータ(約150万件)を対象に、国内の大学・公的機関の機関名称の名寄せを行った結果です。NISTEPは、これにより、精度の高い個別機関レベルの論文データを得ることが出来るとしています。 大学・公的機関における研究開発に関するデータ http://www.nistep.go.jp/research/scisip/randd-on-university Scopusにおける大学・公的機関名の名寄せ結果の公開について (科学技術・学術政策研究所 2013/7/4

                                                                Scopusの論文IDと国内の大学・公的機関の機関名称の名寄せ結果 科学技術・学術政策研究所が公開
                                                              • 名寄せに関連して必要になる処理 ―ASP.NETでの実装方法

                                                                はじめに 前回までは会員テーブルのみの更新処理を紹介しました。最終回となる今回は、関連するテーブルの更新を含め、名寄せにあたって考慮すべき点について紹介します。 関連テーブルの更新処理 トランザクション処理 排他制御 対応可能なRDB MySQL(4.1以上)、SQL Server、Access、PostgreSQL、OracleなどのRDBで可能です。 ただし、EXISTS演算子とサブクエリーが利用できないSQLiteでは不可です。 必要となる前提知識と環境 前半部分はSQL命令の解説になるので、SQLの基礎知識が前提となります。 後半部分は各回を通して、ASP.NET開発の基礎知識(SQL Serverへのアクセス方法、MultiViewコントロールの使い方を含む)、および以下の環境が前提となります。 開発ツール:Visual Web Developer 2010 Express SP

                                                                  名寄せに関連して必要になる処理 ―ASP.NETでの実装方法
                                                                • 覚えておきたい!「名寄せ」の基本 第2回 標準化でデータのばらつきを解消する:ITpro

                                                                  このデータをざっとみると,データの形式にばらつきがあることがわかります。このようなデータから同一人物を割り出すためには,どの項目をキーとしてどのような突き合わせをすればよいでしょうか。 データは,図3以外にも膨大にあるので,人間の目で見て判断するのではなく,どのようにしてプログラムで自動的に同一人物を割り出していくかを考えてみてください。人間の目で見れば,4番目の「斎藤 太郎」と最後から4番目の「斉藤 太郎」,最後の「斉藤太郎」というデータは同一人物であると予測できますが,それを自動で判断する場合,どのようなプログラムを用意しますか? ◆名寄せ技術1「調査」 まず,どの項目をキーとして判断していくかを決める必要があります。図3をよく見てみると,「生年月日」は空白データが多数あるため,キーとして有効ではありません。次に「電話番号」は,全く同じ番号であれば同一人物である確率は高いものです。しか

                                                                    覚えておきたい!「名寄せ」の基本 第2回 標準化でデータのばらつきを解消する:ITpro
                                                                  • 会社の名寄せにグラフDB(Neo4j)を使ってみた話 - Speee DEVELOPER BLOG

                                                                    こんにちはっ、海外事業部エンジニアのid:kawakuboxです。 先日行われた SpeeeKaigi で「会社名の名寄せにグラフDBを使ってみた話(wip)」を発表しました。 名寄せという作業は、最終的には人手に頼らざる所が少なからず残ってしまうと思います。 この最後の人の手による作業コストを軽減するために、何かしらの技術的な解決ができないかと思いました。 発表時点では構想段階で簡単な検証にとどまっていましたが、その後実際に補助ツールという位置づけで稼働させるまでいたりました。 このスライドはその発表当時のものになります。 SpeeeKaigi については、以前の記事をごらんください。 tech.speee.jp トークテーマ 文字列ベースの名寄せ解決へのグラフDBを用いたアプローチ キーワード 名寄せ Neo4j 発表資料 質疑応答 結果の検証はどうすると良いのでしょう 人手による名寄

                                                                      会社の名寄せにグラフDB(Neo4j)を使ってみた話 - Speee DEVELOPER BLOG
                                                                    • “究極の名寄せ”を実現する、サーバーレスアーキテクチャの作り方

                                                                      2018年4月17日、レバテック株式会社が主催するエンジニア向け勉強会「ヒカ☆ラボ」にて「高トラフィック&大規模データを扱う事業会社ならではの開発のノウハウとは?」が開催されました。Sansan、bitFlyerの2社が登壇した本イベントでは、それぞれ社員が2名ずつ登場し、自社の大規模サービスにおけるシステムの裏側を語りました。プレゼンテーション「究極の名寄せのためのサーバーレスアーキテクチャ」では、Sansan株式会社の高橋洸氏が登場。同社が手がける名寄せサービスにおけるアーキテクチャ設計について紹介しました。 エンタープライズシステムと連携して顧客データを継続的に名寄せ 高橋洸(以下、高橋):みなさんこんばんは、引き続きSansanの高橋が「究極の名寄せのためのサーバーレスアーキテクチャ」と題して、発表いたします。よろしくお願いします。 自己紹介、高橋と申します。 前職が中堅のSIer

                                                                        “究極の名寄せ”を実現する、サーバーレスアーキテクチャの作り方
                                                                      • DMPの仕組みを知ろう、オーディエンスデータを統合する「CookieSync」と「名寄せ」

                                                                        『MarkeZine』が主催するマーケティング・イベント『MarkeZine Day』『MarkeZine Academy』『MarkeZine プレミアムセミナー』の 最新情報をはじめ、様々なイベント情報をまとめてご紹介します。 MarkeZine Day

                                                                          DMPの仕組みを知ろう、オーディエンスデータを統合する「CookieSync」と「名寄せ」
                                                                        • asahi.com(朝日新聞社):振興銀1千万円超の預金者は3423人 「名寄せ」終了 - ビジネス・経済 (1/2ページ)

                                                                          10日に経営破綻(はたん)し、初めて「ペイオフ」が適用された日本振興銀行(東京都千代田区)の預金者のうち、元本1千万円を超える預金を持つ人は計3423人で、全体の2.7%になることが12日分かった。ペイオフで保護されるのは元本1千万円までとその利息なので、それを超える分の一部はカットされ、戻ってこない見通しだ。  振興銀が10日に破綻した際、政府は預金保険機構を金融整理管財人として派遣し、政府の管理下に置いた。預金保険機構は10日から、振興銀の預金者1人ごとの預金総額を算出する「名寄せ」の作業に入り、12日に終えた。同日記者会見を開き、その結果を発表した。  名寄せの結果(速報値)によると、振興銀が破綻した10日時点の預金者は計12万6779人で、預金の元本が1千万円以内の人は全体の97.3%を占めた。  金額別でみると、ペイオフで全額保護される元本1千万円までの預金の総額は5710億円だ

                                                                          • 日本における「名寄せ」と「照合」の黒歴史

                                                                            健康保険証、銀行口座、年金記録――個人のマイナンバーに別人の情報がひも付けられるトラブルが後を絶たない。多くの事案に共通するのは、自治体や関係機関の職員が氏名や生年月日などを基にマイナンバーや住民データを照会した際に、誤って同姓同名の人の情報を引き出してひも付けてしまうというケースだ。

                                                                              日本における「名寄せ」と「照合」の黒歴史
                                                                            • YOLP(地図):店舗名寄せAPI - Yahoo!デベロッパーネットワーク

                                                                              Yahoo! Open Local Platform(YOLP)は、Yahoo!マップがデベロッパー向けに提供する地図・地域情報のAPI・SDKです。ウェブページの制作はもちろん、スマートフォン向けアプリケーションの開発においても、多彩な地図表示、店舗・施設検索、ジオコーディング、ルート検索、標高データ取得などの豊富な機能をご活用いただけます。 お知らせ 地図・地域情報の検索 Yahoo!ローカルサーチAPI 全国の店舗、イベント、クチコミ情報などの地域・拠点情報を検索できます。 Yahoo!ジオコーダAPI 住所をキーワードとして検索し、その位置情報を提供します。 Yahoo!リバースジオコーダAPI 指定の地点の住所情報を取得する機能を提供します。 その他の便利ツール 気象情報API 指定した緯度経度の降水強度実測値と予測値を取得できます。 郵便番号検索API 郵便番号を指定して、位置

                                                                                YOLP(地図):店舗名寄せAPI - Yahoo!デベロッパーネットワーク
                                                                              • Junkupアルファ版 似た記事を名寄せするRSSリーダー

                                                                                トップぽちゃドル水樹たまが「すーぱーぽちゃ子」コスでDVDを発売! ascii.jp 07/14 20:04 ぽっちゃり系グラビアアイドル水樹たまさんが、ニトロプラスの新人グラビアイドル“すーぱーぽちゃ子”のコスプレをして撮影した「ぽっちゃり主義~すーぱーぽちゃ子に憧れて~」のDVD先行販売イベントを7月13日にソフマップアミューズメント館で... ファミリーマート、「野菜ましましパスタサラダスパイシーチキン」を発売 news.mynavi.jp 07/14 20:16 ファミリーマートはこのほど、「野菜ましましパスタサラダスパイシーチキン」を、ファミリーマート店舗で発売した(沖縄県を除く)。 PR: tropicocoで、話題の新フィットネスを無料体験 www.tropicoco.jp 07/14 20:16 ココナッツウォーター「トロピココ」でヨガやボルダリング等が楽しめるイベント開催

                                                                                • OCLC Research、研究者の名寄せに関するレポート“Registering Researchers in Authority Files”を公開

                                                                                    OCLC Research、研究者の名寄せに関するレポート“Registering Researchers in Authority Files”を公開