並び順

ブックマーク数

期間指定

  • から
  • まで

1 - 40 件 / 71件

新着順 人気順

名寄せの検索結果1 - 40 件 / 71件

  • 基本4情報での名寄せは難しい|MORIDaisuke

    先日は住所の件でお楽しみでしたね。 私も楽しくなってしょうもないツイートをしたところ、@masanorkさんから有用な情報をいただいてしまいました。 異体字に加えて外字も根深いですし、日付型に収まらない住基の生年月日とか、屋号を含んだ個人事業主の口座名義とか、外国人氏名における住民登録のアルファベットと口座名義のカタカナとの解離とか、旧姓併記の例外処理とか、文字列型に刻まれたバッドノウハウの塊ですね https://t.co/GOaytijfst — Masanori Kusunoki / 楠 正憲 (@masanork) June 6, 2023 このとき、私はごく簡単な「名寄せの難しさ」の社内研修資料を作っている最中だったのですが、この情報が大変参考になりました。 一方、私だけが得をしているのがなんとなくムズムズしてきたので、ここにアウトプットしてスッキリしようと思います。 なお、住所

      基本4情報での名寄せは難しい|MORIDaisuke
    • 日本における「名寄せ」と「照合」の黒歴史

      健康保険証、銀行口座、年金記録――個人のマイナンバーに別人の情報がひも付けられるトラブルが後を絶たない。多くの事案に共通するのは、自治体や関係機関の職員が氏名や生年月日などを基にマイナンバーや住民データを照会した際に、誤って同姓同名の人の情報を引き出してひも付けてしまうというケースだ。 こうした情報のひも付けをする際、職員が住民データの照合や突合、本人確認に使うのが「氏名」「生年月日」「性別」「住所」、いわゆる基本4情報といわれるものだ。 だがこの4情報は、コンピューターによる自動処理とは絶望的に相性が悪い。例えば氏名は「邊」「邉」など旧字・異体字の揺らぎや外字の処理が煩雑なうえ、婚姻による改名もある。よくある氏名の場合、氏名も生年月日も同一というケースが頻発する。住所は時期によって変わるうえ、人によって書き方が「一丁目四番」から「1―4」まで一意ではない。 こうした曖昧な識別符号を代替す

        日本における「名寄せ」と「照合」の黒歴史
      • 「日本の住所のヤバさ」知れ渡る 正規化・名寄せ問題、Twitterトレンドに

        「日本の住所のヤバさ」が6月7日朝にTwitterトレンドになっている。住所表記の正規化・名寄せがいかに難しいかを解説した、inuroさんのnote記事「とにかく日本の住所のヤバさをもっと知るべきだと思います」がバズっているためだ。 6月4日のテレビ番組で、マイナンバーカードに記載される住所をめぐり、河野太郎デジタル大臣が「将来的にはAIの技術を使って住所の表記揺れを判断することがあり得るかもしれない」と発言し、住所の正規化についてネットで議論になっていたことがきっかけだ。 記事は、「日本の住所システムがカオスで、その計算機的な処理がいかに困難か」を解説する内容だ。 まず、日本にはそもそも、新旧の2つの住所システム(A町1丁目3番2号/A町1234番地)が併存しており、例えば、「浦安市舞浜2」の住所が「舞浜2丁目」「舞浜2番地」の2系統あるケースを紹介。 さらに、まったく同じ住所表記が異な

          「日本の住所のヤバさ」知れ渡る 正規化・名寄せ問題、Twitterトレンドに
        • Wikipediaを元にした日本語の名寄せデータセットを作成しました - Sansan Tech Blog

          こんにちは、DSOC 研究開発部の奥田です。以前の私のブログ記事ではコーギーの動画を見ていると書きましたが、とうとうコーギーを家族として迎え入れ、現在生後6ヶ月の子犬と暮らしております。 さて私たちDSOCでは、SansanやEightの価値を高めるために様々な自然言語処理のタスクに取り組んでおります。例えばニュース記事からの固有表現抽出では、私たちのサービスに特化した固有表現を対象に研究開発しています。その他にも様々あるなかで、特に重要かつ困難とされているものの一つに「名寄せ」というタスクがあります。AIや人工知能と呼ばれるものが発達した現代においても、人間には当たり前にできるタスクが機械には難しいことがまだまだ存在します。 今回は、その「名寄せ」というタスクにおける日本語でのデータセットを作成してみました。これをきっかけに、日本語での名寄せというタスクの研究が進み分野が活性化することを

            Wikipediaを元にした日本語の名寄せデータセットを作成しました - Sansan Tech Blog
          • 住所の名寄せの問題で「住所なんてやめて緯度経度で管理しようぜ」という人がいるけど地震で数メートル範囲でズレるのでそれはそれで大変そうという話

            金太ωまひえもん🦥 @mahiemonu 東日本大震災は5m でした。僕も断層のずれのことを覚えていたのでいささかオーバーに書きすぎました、すみません:『牡鹿半島周辺で、水平方向で5mを超える地殻変動が観測されました』: 国土地理院 特集・平成23年(2011年)東北地方太平洋沖地震から10年 gsi.go.jp/kanshi/h23touh… 2023-06-07 19:29:22

              住所の名寄せの問題で「住所なんてやめて緯度経度で管理しようぜ」という人がいるけど地震で数メートル範囲でズレるのでそれはそれで大変そうという話
            • 【独自】キックバック中止を高木事務総長が今年議員に伝達 パーティー券購入者の「名寄せ厳格化」も 安倍派内で方針変更か | TBS NEWS DIG

              自民党の派閥の政治資金パーティーをめぐり、安倍派などの事務所が家宅捜索を受けた事件で、安倍派の高木毅事務総長が今年5月のパーティー前、キックバックを中止することを派閥に所属する一部の議員に直接伝えて…

                【独自】キックバック中止を高木事務総長が今年議員に伝達 パーティー券購入者の「名寄せ厳格化」も 安倍派内で方針変更か | TBS NEWS DIG
              • BERTとベクトル検索を用いたYahoo!ショッピングの製品名寄せ作業の効率化検証

                ヤフー株式会社は、2023年10月1日にLINEヤフー株式会社になりました。LINEヤフー株式会社の新しいブログはこちらです。LINEヤフー Tech Blog こんにちは。CTO直下のR&D組織であるテックラボにて、コマース領域向けの研究開発に取り組んでいる脇山です。 本記事ではベクトル検索を製品への紐付け(いわゆる名寄せ)業務に利用した事例を紹介します。 商品を製品マスタに紐付けする みなさんはYahoo!ショッピングで商品を探したことがあるでしょうか? Yahoo!ショッピングにはいろんなストアが商品を出品しているため、同じ商品を異なるストアが販売しています。そのため、「コカ・コーラ 500ml 48本」といったクエリで検索すると、検索結果に異なるストアが出品した「コカ・コーラ 500ml 48本」の商品が複数並ぶことがあります。商品を購入する際は、同じ商品でも商品価格や送料などがス

                  BERTとベクトル検索を用いたYahoo!ショッピングの製品名寄せ作業の効率化検証
                • 全ポケモンの名寄せデータ POKEMON_ALL.json を作った - 詩と創作・思索のひろば

                  ポケモンプログラミングしてるといくつかの有名どころのサイトからデータを収集することになる。具体的には以下のようなサイト。 ポケモン徹底攻略 言わずと知れた、ポケモン情報の総本山。 PokéAPI ポケモンのデータをRESTで提供してくれるサイト。最近はGraphQLもやってるらしい。英語。 ポケモンバトルデータベース ポケモンホームで閲覧できるような、ランクバトルに関する情報を閲覧できるウェブサイト。 それぞれ便利なのだけど、難儀するのがポケモンのIDにそれぞれ互換性がないこと。No.25 ピカチュウのようにポケモンには全国図鑑番号というのが振られていて、基本的にはこれでいいのだけど、リージョンフォーム(同種のポケモンでも登場する地方によって姿や能力が違う)やフォルム(同じ個体でも持たせるアイテムなどによって姿や能力が違う)違いがあり、これのナンバリング方法が統一されていないということだ。

                    全ポケモンの名寄せデータ POKEMON_ALL.json を作った - 詩と創作・思索のひろば
                  • 日本における「名寄せ」と「照合」の黒歴史

                    健康保険証、銀行口座、年金記録――個人のマイナンバーに別人の情報がひも付けられるトラブルが後を絶たない。多くの事案に共通するのは、自治体や関係機関の職員が氏名や生年月日などを基にマイナンバーや住民データを照会した際に、誤って同姓同名の人の情報を引き出してひも付けてしまうというケースだ。

                      日本における「名寄せ」と「照合」の黒歴史
                    • 名寄せの仕組み - astamuse Lab

                      この記事は 自然言語処理 Advent Calendar 2020 の25日目の記事です。 こんにちは、rinoguchi です。今年の4月に こちらの記事 を書いて以来、半年ぶりの投稿になります。 当社では、特許・研究課題・論文など多くの知的財産データを保持しています。これらのデータを活用するには、データに含まれる同一組織・同一人物に対して同一IDを付与してデータをグルーピングすることが必要であり、この作業のことを名寄せと呼んでいます。 今回はこの名寄せの仕組みについて紹介したいと思います。 大まかな処理フロー 当社では名寄せ処理を、まずそれぞれのデータソース(例えば特許や論文など)の中で実行し、次に異なるデータソース間で実行することで、最終的に組織ID・人物IDに対して特許・研究課題・論文などを紐づけたデータを生成しています。 とはいえ、データソース内名寄せもデータソース間名寄せも仕組

                        名寄せの仕組み - astamuse Lab
                      • 人力の名寄せを機械学習のエッセンスを加えて自動化する - LCL Engineers' Blog

                        Androidアプリ兼バックエンドエンジニアの高橋です。 弊社のサービス「バス比較なび」では、たくさんのバス会社さんから頂いた高速バスデータを掲載していますが、バス会社さん間での「データの揺れ」が課題の一つとしてあります。 例えば、バスの「停車地」には以下のような表記揺れがあります。 A社 : JR東京駅八重洲南口 鍛冶橋駐車場 B社 : 八重洲口鍛冶橋駐車場<東京駅 八重洲南口> C社 : 東京駅八重洲南口 この状態では、停車地をGoogle Mapにマッピングしようとしても、難しいですよね。 実は、弊社ではこれまで手作業によってこういった名称を「名寄せ」しています。 上記の例でいうと、JR東京駅 八重洲南口 鍛冶橋駐車場 が名寄せ後の名称です。 データが蓄積されている現在では手作業でもある程度はカバーできますが、休日や長期連休などに対応できないので、現在停車地の名寄せ自動化に挑戦してい

                          人力の名寄せを機械学習のエッセンスを加えて自動化する - LCL Engineers' Blog
                        • 名寄せ(entity recognition, deduplication) で使える特徴量 - Qiita

                          レコードやオブジェクトを教師あり学習・教師なし学習や検索エンジンで 名寄せ(Entity Recognition・Deduplication)するときに、それぞれのフィールドから特徴量を抜き出す必要があります。 意外とまとまって言及しているリファレンスは少ないので、 特に文字列のフィールドでよく使われる特徴量を上げてみました。 データベースのブロッキングに使われるものも含まれます。 特徴量の種類 分類は独自の基準に基づきます。 Token 固有表現 音素 分散表現/次元圧縮 検索スコア 距離・擬似距離 (レコードのペアの場合) 各特徴量の概要 1. Token 文字列から、さらに小さい構成単位を抽出します。 ただし、次元が大きいsparse matrixになるため、機械学習やクラスタリングで用いるには次元に対して大量のデータが必要か、工夫が必要です。 character ngram ご存じ

                            名寄せ(entity recognition, deduplication) で使える特徴量 - Qiita
                          • 名寄せの定量評価とGroup Sequential Test - Sansan Tech Blog

                            こんにちは、技術本部Sansan Engineering UnitのNayoseグループでバックエンドエンジニアをしている上田です。 普段はデータの名寄せサービスを開発しています。Sansanの名寄せというのは、こちらのページに記載のとおり、別々のデータとして存在する同じ会社や人物のデータをひとまとめにグルーピングすることを言います。 下記の記事のとおり、前回は名寄せアルゴリズムを定量評価する際に利用する統計的仮説検定において、固定サンプルサイズ検定の課題を解決する逐次検定の手法SPRT(Sequential Probability Ratio Test、逐次確率比検定)を紹介しました。SPRTには別の課題があるため、今回は実務で重宝する特徴をもつGroup Sequential Testという逐次検定について紹介します。 buildersbox.corp-sansan.com この記事の

                              名寄せの定量評価とGroup Sequential Test - Sansan Tech Blog
                            • マイナンバー問題も繰り返す、「名寄せ」と「照合」の黒歴史 日経コンピュータ編集長 浅川直輝 - 日本経済新聞

                              健康保険証、銀行口座、年金記録――個人のマイナンバーに別人の情報がひも付けられるトラブルが後を絶たない。多くの事案に共通するのは、自治体や関係機関の職員が氏名や生年月日などを基にマイナンバーや住民データを照会した際に、誤って同姓同名の人の情報を引き出してひも付けてしまうというケースだ。こうした情報のひも付けをする際、職員が住民データの照合や突合、本人確認に使うのが「氏名」「生年月日」「性別」「

                                マイナンバー問題も繰り返す、「名寄せ」と「照合」の黒歴史 日経コンピュータ編集長 浅川直輝 - 日本経済新聞
                              • 第2回:「名寄せの奥深い世界」へようこそ

                                印刷する メールで送る テキスト HTML 電子書籍 PDF ダウンロード テキスト 電子書籍 PDF クリップした記事をMyページから読むことができます 名寄せとは 「名寄せ」というものを、読者の皆さんも一度はお聞きになったことがあるはずだ。聞いたことがなくても、例えば、町内会なり同窓会なりで名簿を複数持ってきて突き合わせれば、それが名寄せである。クラブ活動で入部届けをもらって、実在の人物かどうか確認するのも名寄せである。 名寄せが国民的に有名になったのは、国民年金における名寄せの一件だ。 「年金の支給が漏れているかもしれません、別人に年金を払っているかもしれません」という人が何百万人も出てきたという事件である。住民基本台帳や名寄せが悪者のようにも見えるが、それは発覚のキッカケに過ぎない。名寄せをしなければ埋もれたままだったはずだ。 「最初から人を確認しておけばよかった」と言いたくなるが

                                  第2回:「名寄せの奥深い世界」へようこそ
                                • Hiromitsu Takagi @HiromitsuTakagi これのこと?どういう合法スキーム?今まさに医療データ二次利用の合法化に向け規制改革が進行中なのに、なぜもうできてる?「お客様」=組合・自治体だろうけど組合・自治体が「二次利用許諾」するのどういう状況?名寄せ?委託でないぞ。違法になるのは組合・自治体だが。 https://youtube.com/watch?v=66JYhie7gs4

                                  • 文字列の類似度を算出したらリストの名寄せや管理の負担が軽くなった話 - CrossMarketing Group Tech Blog

                                    概要 レーベンシュタイン距離というものをご存じだろうか?ざっくりと説明すると、ある文字列と別の文字列を同じ文字列に編集するために最小でどれくらい手数が必要か算出するアルゴリズムで、文字列同士の類似度に応用が可能になる。これは表記ゆれ問題でつきまとう、いわゆる「名寄せ」作業で効果を発揮する。これを活用して、社内のIT資材管理業務のユーザーリスト管理作業の負荷軽減ができた事例について紹介させていただく。 レーベンシュタイン距離については、詳しく解説されている下記サイトを参照して欲しい。 【技術解説】似ている文字列がわかる!レーベンシュタイン距離とジャロ・ウィンクラー距離の計算方法とは 管理は続くよ、どこまでも まず、IT資材管理業務を簡単に説明すると、セキュリティ担保の文脈で、情シスにて管理するIT資材(PCなど)を、社内外の誰に貸与しているのか、使用権を割り当てているのか、また使用されていな

                                      文字列の類似度を算出したらリストの名寄せや管理の負担が軽くなった話 - CrossMarketing Group Tech Blog
                                    • タグの名寄せ方針を決定しました - Qiita Blog

                                      こんにちは、Qiita運営です。 今日はタグの名寄せ方針についてお知らせいたします。 Qiitaでは、記事などにつけるタグを名寄せすることがあります。 しかし、その名寄せをする際の明確な方針が無かったため、今回決定し、公開いたしました。 タグの名寄せ 前提: タグの名寄せとはC , C言語 のようにタグが複数に分かれているものを C 等に統一して記事に紐付け直すことを名寄せと呼んでいます。 名寄せをすることで、タグで検索した時に見つけやすく、書き手としても見つけてもらいやすくなります。 方針を決めた背景タグの名寄せは、過去にQiita Discussionsで何度かリクエストをいただいていました。 Qiitaにはタグの名寄せの明確な方針がなかったため、どのタグをどのタグに名寄せをするのかの判断に毎回悩んでおりました。 タグの名寄せについては、運営が意図的に寄せることを避け、ユーザーの皆様の

                                        タグの名寄せ方針を決定しました - Qiita Blog
                                      • 生成AIを活用したテキスト分類/名寄せのアイデア【Databricks】 - Qiita

                                        はじめに Databricksに入社したskatoと申します!社員としては初投稿です。 今回は以前から温めていた課題「テキスト分類(名寄せ)作業、生成AIでなんとか楽にできないか?」を解決するため、Databricksを使っていろいろ検証した過程を記事にしました。 そもそもDatabricksとは何か?については、こちらの記事が詳しいのでぜひご覧いただければと思います! 背景・目的 アナリスト(分析担当者)が自社の商品データを集計してレポートを作成する際、商品名が適切に分類されていないことに悩むことが多いかと思います。 例えば、以下のようなケースが考えられます。 <商品データの集計でよくある課題> # 課題 詳細 例

                                          生成AIを活用したテキスト分類/名寄せのアイデア【Databricks】 - Qiita
                                        • 会社名の名寄せ/正規化を行うExcelマクロを作ってみた - Qiita

                                          多数の企業・団体に対して営業活動をしている企業であれば、どこでも抱えている問題として、顧客企業/取引先企業の「名寄せ」をどのように行うか、ということがあります。たとえば「ABC(株)」と「ABC株式会社」は同じ会社として扱わなければならないですし、全角大文字で「ABC(株)」と表記される場合もあります。場合によっては「エー・ビー・シー株式会社」も同じ会社名として扱わなければなりません。CRMを利用していても、この名寄せをうまくやってくれる仕組みが組み込まれていない場合が意外と多いのです。 そんな、どこの企業でも必要な変換ロジックなのですが、ネット上を探してみると、このロジックを実用的なレベルできちんと解説している情報があまりないことに気づきました。そこで、この記事では、この古くからあるニーズを、古くからあり誰でも持っているExcelマクロを使って解決する方法を紹介します。 名寄せの概要 企

                                            会社名の名寄せ/正規化を行うExcelマクロを作ってみた - Qiita
                                          • 深層学習で名寄せ(Entity Matching)を行う「DeepMatcher」を試してみた - Qiita

                                            Entity Matchingとは ざっくりとした説明をすると、あるデータ(商品情報や会社名、人名などなど)に含まれるレコードと別のレコードが同一のものかどうかを判定するタスクです。今年2021の3月~5月に開催されていたKaggleコンペのShopeeがEntity Matchingに該当するかと思います。 (Shopeeはテキスト×画像のマルチモーダルな内容なので今回はお話しませんが) Entity Matchingの詳細に関しては、非常に丁寧にまとめてくださっている方がいるので、そちらを参照していただければと思います。(私もお世話になりました) どういったときに役立つのか? 例えば、ECサイト/フリマアプリの掲載商品が同一のものかどうかを判定する際に活用されます。 同じ商品が別の出品者ではいくらで出品されているかを提示するケース (上記で紹介したShopeeコンペは同一商品の最低価格

                                              深層学習で名寄せ(Entity Matching)を行う「DeepMatcher」を試してみた - Qiita
                                            • 「日本の住所のヤバさ」知れ渡る 正規化・名寄せ問題、Twitterトレンドに(ITmedia NEWS) - Yahoo!ニュース

                                              「日本の住所のヤバさ」が6月7日朝にTwitterトレンドになっている。住所表記の正規化・名寄せがいかに難しいかを解説した、inuroさんのnote記事「とにかく日本の住所のヤバさをもっと知るべきだと思います」がバズっているためだ。 6月4日のテレビ番組で、マイナンバーカードに記載される住所をめぐり、河野太郎デジタル大臣が「将来的にはAIの技術を使って住所の表記揺れを判断することがあり得るかもしれない」と発言し、住所の正規化についてネットで議論になっていたことがきっかけだ。 記事は、「日本の住所システムがカオスで、その計算機的な処理がいかに困難か」を解説する内容だ。 まず、日本にはそもそも、新旧の2つの住所システム(A町1丁目3番2号/A町1234番地)が併存しており、例えば、「浦安市舞浜2」の住所が「舞浜2丁目」「舞浜2番地」の2系統あるケースを紹介。 さらに、まったく同じ住所表記が異な

                                                「日本の住所のヤバさ」知れ渡る 正規化・名寄せ問題、Twitterトレンドに(ITmedia NEWS) - Yahoo!ニュース
                                              • DBでデータを名寄せして整形したかった話 - Qiita

                                                はじめに Dr.Sum、というDBがあります。ウイングアーク1st社が開発/販売している国産DWHで、エンタープライズに幅広くは利用されていませんが、一部の根強いファンがいるイメージがあります。 今回、縁あって、このDr.Sumを使った全社データ基盤の構築プロジェクトに携わりました。 その際に困ったことをちょっと書いておきます。実際の経験として、Dr.Sum、としていますが、その他のDBでも直面する問題かなという気がします。 やりたかったこと タイトルどおりですが、データの名寄せを、具体的に言うと会社名の名寄せを行ないたかったのです。 プロジェクトでは異なるベンダの管理する異なるシステムをDr.Sumに集めて横串で可視化したり、機械学習の特徴量を算出するため、データを整形する必要がありました。 たとえば以下はとあるトランザクションデータです。 地球連邦システム コード 会社名

                                                  DBでデータを名寄せして整形したかった話 - Qiita
                                                • あらゆるフォーム入力時間を短縮!全機能無料の社名自動名寄せサービス「イチサンフォーム」提供開始

                                                  あらゆるフォーム入力時間を短縮!全機能無料の社名自動名寄せサービス「イチサンフォーム」提供開始~β版時点、利用者数10,000突破、たった数十分で導入可能な法人番号名寄の自動サービスをリリースします~ 法人番号株式会社(本社:東京都中央区銀座1丁目12番4号 N&EBLD.7階、代表:吉田裕宣)は、フォーム入力時点で自動的に名寄せするためのツール、「イチサンフォーム」の無償提供を7月13日から開始すると発表しました。このツールは既存のフォームに実装するだけで、自動的に法人番号等を取得し、その情報を法人とリンクさせることが可能になります。β版では、すでに利用者数10,000人、20万件以上の名寄せを成功させており、今後はさらに多くの方々に利用されることが予想されます。 イチサンフォームについて ■イチサンフォームとは 「イチサンフォーム」とは、既存ツールに数行コードを埋め込むだけで利用可能な

                                                    あらゆるフォーム入力時間を短縮!全機能無料の社名自動名寄せサービス「イチサンフォーム」提供開始
                                                  • Levenshteinを使ったマスタの名寄せ結果の履歴を蓄積した話 - Qiita

                                                    はじめに 先に、異なるシステムから、本来同じ意味を指すのにそれぞれ異なるコードが振られたトランザクションデータが発生するというシチュエーションにおいて、それらのコードを名寄せした話を投稿しました。Levenshteinのratioで文字列間の類似度を測り、コード変換マスタを作成するという話です。 その際、「ratio >= 0.4」としてマスタを作成するように設定しました。しかしこのパラメータの妥当性は、将来にわたって保証されるものではありません。今後投入されるトランザクションデータに、どういった値が入ってくるかが読めないからです。 そのため、パラメータ設定の妥当性をチェックを、場合によっては過去に遡って行なえる仕組みを構築する必要があり、本記事ではその際の話をしたいと思います。 なお、今回はDr.Sum成分が多めです。 元記事にも記載していますが、理想的には各システムでデータ入力時にバリ

                                                      Levenshteinを使ったマスタの名寄せ結果の履歴を蓄積した話 - Qiita
                                                    • 名寄せに関して、今飛ぶ鳥を落とす勢いのOpenAIさんのchatGPTさんにインタビューしてみました。調教したら対応した回答になって更に賢くなるという驚異の成長力を見せてくれています

                                                      ChatGPT3の実力やいかに? 最近バズってるChatGPTのOpenAIさん。今日もMicrosoftさんが1.3兆円を追加投資というニュースまで飛び出していて、日々びっくりです Microsoft、ChatGPTのオープンAIに1.3兆円を追加投資か - 日本経済新聞 【シリコンバレー=佐藤浩実】米マイクロソフトが米新興オープンAIへの追加投資に向けて協議をしていることが10日までに明らかになった。米メディアのセマフォーが関係者の… そこで、思い切って、名寄せに関して教えて欲しいです と質問してみました 名寄せとは?(ChatGPTさんによる解釈) 手抜きすんな!とは言わずに内容をご確認下さい 名寄せとは、複数のデータや情報を分類し、それらが同一のものであることを確認するための作業のことを指します。名寄せは、ある特定のデータベースやシステムの中で、異なる情報が一つにまとめられるために

                                                        名寄せに関して、今飛ぶ鳥を落とす勢いのOpenAIさんのchatGPTさんにインタビューしてみました。調教したら対応した回答になって更に賢くなるという驚異の成長力を見せてくれています
                                                      • 【独自】犯罪組織が利用「闇名簿」の実態 個人情報を名寄せし作成“若年層に拡大”か

                                                        強盗事件をめぐり、次々と明らかになる犯罪組織の実態。 番組は組織が利用する“闇の名簿”を追跡しました。 なぜ知らない間に個人情報がリスト化されるのか。そこにはコロナ禍の思わぬ影響も… ▽【独自】犯罪組織の“闇名簿”追跡…周囲で窃盗頻発 (詐欺組織の内情に詳しい人物)「(今回の事件で)想像できるのは下の連中、簡単にいうとバカなグループが手短なところでやった。コントロールしきれないのでタチが悪い」 広範囲に渡り多発する強盗事件、被害に遭った家は何故狙われたのでしょうか。番組は犯罪組織の内情に詳しい人物を取材。犯罪組織が名簿リストからターゲットを定める意外な視点が明らかになりました。 (詐欺組織の内情に詳しい人物)「一番ベースとなるのが基本情報。名前・住所・電話番号の基本がおよそ300万件、家族構成とか勤め先とかそういった情報が48万件あります。(ターゲットは)年齢が65歳以上、退職金とかあるの

                                                          【独自】犯罪組織が利用「闇名簿」の実態 個人情報を名寄せし作成“若年層に拡大”か
                                                        • python を使った名寄せ - Qiita

                                                          名寄せの手段 レーベンシュタイン距離を使います. 『レーベンシュタイン距離』は,別名『編集距離』とも言われ, 1文字の『挿入』・『削除』・『置換』によって、一方の文字列をもう一方の文字列に変形するのに必要な手順の最小回数のことです. 例えば,cat から cut なら, cat → c t → cut で「a削除, u挿入」の 2 . と思いがちですが,置換を使えるのでレーベンシュタイン距離は1. 詳細はWikiを見てください. 今回のチュートリアルでは,いくつかの実験をしながら,最終的に名寄せをしていきます. 実験1.『レーベンシュタイン距離』を使ってみよう import Levenshtein target = ['oniku_a', 'oniku_b', 'oniku_c', 'yasai_a', 'yasai_b', 'yasai_c'] cates = ['kome'] for

                                                            python を使った名寄せ - Qiita
                                                          • 【独自】キックバック中止を高木事務総長が今年議員に伝達 パーティー券購入者の「名寄せ厳格化」も 安倍派内で方針変更か(TBS NEWS DIG Powered by JNN) - Yahoo!ニュース

                                                            自民党の派閥の政治資金パーティーをめぐり、安倍派などの事務所が家宅捜索を受けた事件で、安倍派の高木毅事務総長が今年5月のパーティー前、キックバックを中止することを派閥に所属する一部の議員に直接伝えていたことが分かりました。 安倍派の政治資金パーティーでは、パーティー券収入の一部が派閥側から議員側にキックバックされ、裏金になった疑いがあり、東京地検特捜部は19日、安倍派の事務所を家宅捜索しています。 その後の安倍派関係者への取材で、高木事務総長が今年5月のパーティー開催前、キックバックを中止することを派閥に所属する一部の議員に伝えていたことが新たにわかりました。 政治資金規正法では、20万円を超えるパーティー券の購入者の名前を収支報告書に記載する義務がありますが、高木氏は去年5月のパーティー開催前にも議員に「名寄せを厳格にする」と伝え、20万円以下の購入者の名前も報告するよう求めたということ

                                                              【独自】キックバック中止を高木事務総長が今年議員に伝達 パーティー券購入者の「名寄せ厳格化」も 安倍派内で方針変更か(TBS NEWS DIG Powered by JNN) - Yahoo!ニュース
                                                            • 名寄せの定量評価と逐次検定について - Sansan Tech Blog

                                                              こんにちは、技術本部 Nayoseグループでバックエンドエンジニアをしている上田です。 普段はデータの名寄せサービスを開発しています。Sansanの名寄せというのは、こちらのページに記載のとおり、別々のデータとして存在する同じ会社や人物のデータをひとまとめにグルーピングすることを言います。 大抵はWebアプリケーション開発をしていますが、企画段階や技術検証フェーズでは仮説検証をすることもあります。今回はそのフェーズで行った、名寄せアルゴリズムを定量評価する際に利用する統計的仮説検定の話を紹介したいと思います。 なお、本記事はSansan Advent Calendar 2023の12日目の記事です。 名寄せの評価 業務では新しい名寄せアルゴリズムを開発することがあります。 アルゴリズム開発の基本戦略は、ユーザーが取り込んだ名刺と、マスターとして存在する会社データを同じ会社としてグルーピング

                                                                名寄せの定量評価と逐次検定について - Sansan Tech Blog
                                                              • 住所の表記ゆれを正規化・名寄せ|住所クレンジング|ゼンリンデータコム法人向けサービス

                                                                様々なチャネルから集められた住所を、統一表記に変換します。クレンジング後の住所は行政区分で分割され、扱いやすいデータとなります。表記ゆれも解消され、名寄も容易に行えます。

                                                                  住所の表記ゆれを正規化・名寄せ|住所クレンジング|ゼンリンデータコム法人向けサービス
                                                                • 名寄せとは?Excelを使った方法やおすすめツールをわかりやすく紹介 | HRog | 人材業界の一歩先を照らすメディア 名寄せとは?Excelを使った方法やおすすめツールをわかりやすく紹介

                                                                  名寄せとは、(複数の)データベースにある重複したデータを「一つにまとめる」作業のこと。具体的には、名前や住所、電話番号といった属性を見て、同一と判断した「企業」や「個人」を1つに統合する作業を言います。 企業が膨大な顧客データを扱っている「リスト」では、同じ人物や同じ企業などが重複して存在しているケースが多々あります。そのようなリストの企業情報や顧客データを整理整頓し、効率的な営業活動につなげるためのプロセスが「名寄せ」です。 具体的な名寄せの方法は次の通りです(詳しくは後述)。

                                                                    名寄せとは?Excelを使った方法やおすすめツールをわかりやすく紹介 | HRog | 人材業界の一歩先を照らすメディア 名寄せとは?Excelを使った方法やおすすめツールをわかりやすく紹介
                                                                  • 【独自】犯罪組織が利用「闇名簿」の実態 個人情報を名寄せし作成“若年層に拡大”か(テレビ朝日系(ANN)) - Yahoo!ニュース

                                                                    強盗事件をめぐり、次々と明らかになる犯罪組織の実態。 番組は組織が利用する“闇の名簿”を追跡しました。 なぜ知らない間に個人情報がリスト化されるのか。そこにはコロナ禍の思わぬ影響も… ▽【独自】犯罪組織の“闇名簿”追跡…周囲で窃盗頻発 (詐欺組織の内情に詳しい人物)「(今回の事件で)想像できるのは下の連中、簡単にいうとバカなグループが手短なところでやった。コントロールしきれないのでタチが悪い」 広範囲に渡り多発する強盗事件、被害に遭った家は何故狙われたのでしょうか。番組は犯罪組織の内情に詳しい人物を取材。犯罪組織が名簿リストからターゲットを定める意外な視点が明らかになりました。 (詐欺組織の内情に詳しい人物)「一番ベースとなるのが基本情報。名前・住所・電話番号の基本がおよそ300万件、家族構成とか勤め先とかそういった情報が48万件あります。(ターゲットは)年齢が65歳以上、退職金とかあるの

                                                                      【独自】犯罪組織が利用「闇名簿」の実態 個人情報を名寄せし作成“若年層に拡大”か(テレビ朝日系(ANN)) - Yahoo!ニュース
                                                                    • 溜まった見込み客リスト活かせてる?企業DBのSalesNowが「名寄せ」を無償検証

                                                                      sponsored JN-MD-IQ1301FHDRをレビュー モバイルでも映像の質にこだわりたいなら、QLEDの13.3型液晶はいかが? sponsored JN-i27QR-C65W-HSPをレビュー USB Type-C給電&KVM対応の27型WQHDディスプレーで約2.8万円は即ポチ損なしの最安級 sponsored MSIがセール開催中!この夏に自作PCパーツを買う人はツイている サマーセールを活用すれば同じ予算でGeForce RTX 4070を4080にできないか考えてみた sponsored FRONTIERの「FRGBLSZ790/SG2」をチェック、自作erでも心くすぐられるケース内部 RTX 4070 Ti SUPERを垂直設置、デザインもゲーム性能も妥協なしのゲーミングPC sponsored ファーウェイ製スマートウォッチらしくバッテリー長持ちもうれしい スマート

                                                                        溜まった見込み客リスト活かせてる?企業DBのSalesNowが「名寄せ」を無償検証
                                                                      • excel 名寄せ マクロ - Google 検索

                                                                        2020/02/09 · 名寄せ関数: 前株/後株の処理と仮名の規格化. 変換ロジック2,3および1の一部に相当する部分は、VBAで構築します。セルの選択部分について Substitute 関数 ...

                                                                        • インボイス制度の登録番号を仕入先リストに追記する「HUEインボイス名寄せ」─ワークスアプリケーションズ | IT Leaders

                                                                          IT Leaders トップ > 経営課題一覧 > 法制度対応/CSR > 新製品・サービス > インボイス制度の登録番号を仕入先リストに追記する「HUEインボイス名寄せ」─ワークスアプリケーションズ 法制度対応/CSR 法制度対応/CSR記事一覧へ [新製品・サービス] インボイス制度の登録番号を仕入先リストに追記する「HUEインボイス名寄せ」─ワークスアプリケーションズ 社名や住所の表記ゆれも吸収 2023年3月7日(火)日川 佳三(IT Leaders編集部) リスト ワークスアプリケーションズ(WAP)は2023年3月1日、経理部門向けクラウドサービス「HUEインボイス名寄せ」を提供開始した。消費税インボイス制度における適格請求書発行事業者の登録番号を簡単に照合できる。仕入れ先リストと国税庁が公開する登録事業者リストの間で、社名と住所を元にデータを照合/名寄せし、自動で登録番号付き

                                                                            インボイス制度の登録番号を仕入先リストに追記する「HUEインボイス名寄せ」─ワークスアプリケーションズ | IT Leaders
                                                                          • 名寄せとは?顧客データの質を高める方法とおすすめツールを紹介 | 通販通信ECMO

                                                                            企業の中には保有するデータが増え、効率的な管理が難しくなるといった状況に陥るケースも少なくありません。データの重複などがある場合、トラブルやクレームにつながる恐れもあります。本記事では効率的なデータ管理に重要な「名寄せ」について解説します。

                                                                            • リンクバル、AIを活用し自然言語処理と集合論を応用したイベント情報の名寄せ技術を開発 | IoT NEWS

                                                                              2023-07-21 リンクバル、AIを活用し自然言語処理と集合論を応用したイベント情報の名寄せ技術を開発 株式会社リンクバルは、同社が運営する「machicon JAPAN(街コンジャパン)」にて、多くのイベントの掲載をしている。 イベントは、開催されると在庫が0になり、2度と入荷されないという特殊性を持っている。つまり、同じ内容で場所や日時を変えてイベントを開催する場合、新しい商品としてデータベースに登録される。 こうした「同じ形式」のイベントをデータ上で捉えられない状況は、マーケティングの分析や、商品のレコメンドを行うにあたり困難を引き起こしていた。 実際に、例えばECサイトにおいて、「このアイテムを購入した人はこんなアイテムも購入しています」のように、他のユーザの購買履歴を参考にすることで、別のアイテムをレコメンドする仕組みは浸透している。 しかし、「同じ形式」のイベントがデータ上

                                                                                リンクバル、AIを活用し自然言語処理と集合論を応用したイベント情報の名寄せ技術を開発 | IoT NEWS
                                                                              • 名寄せとは?Excel(エクセル)で名寄せする具体的な手順や名寄せツールを使用した方法についても徹底解説! | 名刺管理のノウハウをお届けするメイシーのブログ

                                                                                名寄せとは?Excel(エクセル)で名寄せする具体的な手順や名寄せツールを使用した方法についても徹底解説! 2021年1月14日 2022年6月17日 ビジネス 顧客管理のために欠かせない作業のひとつである「名寄せ」。名寄せの手法にはいくつかのパターンがありますが、その中でもおすすめなのが名寄せを効率化させるツールの活用です。 今回の記事では名寄せツールを使うメリットや、ツール選びのポイントについて解説していきたいと思います。 そもそも名寄せとは? 名寄せとは、顧客情報の一元化や整理する作業のことです。名寄せをすることによって、顧客情報は管理しやすく業務上のミスを防ぐ効果を発揮します。 もし名寄せを行わなければ、増えていく顧客情報を管理することが徐々に難しくなっていきます。担当者の変更があったり、同一人物の重複があったりと、顧客の情報が増えることで実際の業務と関係の無いものまでデータが蓄積

                                                                                  名寄せとは?Excel(エクセル)で名寄せする具体的な手順や名寄せツールを使用した方法についても徹底解説! | 名刺管理のノウハウをお届けするメイシーのブログ
                                                                                • AWS Aurora PostgreSQL x 生成AI ~ 「名寄せ」への適用の試み 【DB TECH SHOWCASE 2024レポート】 - Qiita

                                                                                  AWS Aurora PostgreSQL x 生成AI ~ 「名寄せ」への適用の試み 【DB TECH SHOWCASE 2024レポート】AWSPostgreSQL#生成AI#dbts2024 はじめに DB TECH SHOWCASE 2024 2024年7月11~12日、今年もDB TECH SHOWCASEが開催されました。 昨年、一昨年と、スポンサー側で参加させていただきましたが、今年は一般参加者としての参加となりました。イベント全体の変化として、個人的に目を引いたのは、ここ数年は設けられていなかった展示会ブースが再開されたことでした。 この記事の成立事情 今回、初日の17日の12:30からROOM Bで開催されたAWS社によるセッション「Aurora PostgreSQL x 生成AI: 既存データの力を最大限引き出す新しい仕掛け」に参加しました。セッションの最後に、「このセ

                                                                                    AWS Aurora PostgreSQL x 生成AI ~ 「名寄せ」への適用の試み 【DB TECH SHOWCASE 2024レポート】 - Qiita