名寄せの人気記事 95件 - はてなブックマーク

1 - 40 件 / 95件

新着順人気順

絞り込み

検索対象
ブックマーク数
期間
セーフサーチ

名寄せの検索結果1 - 40 件 / 95件

とにかく日本の住所のヤバさをもっと知るべきだと思います｜inuro
- 2602 users
- note.com/inuro
- 世の中
- 2023/06/07
「住所の揺らぎ程度のことにAIを使いたいだとかデジタル音痴」だの「住所の正規化なんてExcelで2時間あれば作れそう」だの、たいへんフットワークの軽やかな言説の数々に、位置情報界隈のみならず住所の正規化や名寄せに少しでも関わったことのあるエンジニアが総立ちでマサカリを投げていたのも記憶に新しい今日この頃ですが（2023年6月6日）、この手の騒動は周期的に起こってる印象です。ということはつまりいつまで経っても解消されない、解決が困難な課題であるその困難さが界隈以外に共有されていないであるわけで、その都度Twitterにトリビアが投下されてはTLが賑わい華やかではありますが、そろそろ自分の整理としてもどれだけ日本の住所システムがカオスで、その計算機的な処理がいかに困難かをメモっておこうかと思いました。なおこの件については既にQiitaにGeoloniaの宮内さんが鼻血の出そうな良エン
- 地図
- あとで読む
- 地理
- 日本
- 行政
- 住所
- 社会
- IT
- プログラミング
- map
基本4情報での名寄せは難しい｜MORIDaisuke
- 574 users
- note.com/moridaisukepub
- 暮らし
- 2023/06/19
先日は住所の件でお楽しみでしたね。私も楽しくなってしょうもないツイートをしたところ、@masanorkさんから有用な情報をいただいてしまいました。異体字に加えて外字も根深いですし、日付型に収まらない住基の生年月日とか、屋号を含んだ個人事業主の口座名義とか、外国人氏名における住民登録のアルファベットと口座名義のカタカナとの解離とか、旧姓併記の例外処理とか、文字列型に刻まれたバッドノウハウの塊ですね https://t.co/GOaytijfst — Masanori Kusunoki / 楠正憲 (@masanork) June 6, 2023 このとき、私はごく簡単な「名寄せの難しさ」の社内研修資料を作っている最中だったのですが、この情報が大変参考になりました。一方、私だけが得をしているのがなんとなくムズムズしてきたので、ここにアウトプットしてスッキリしようと思います。なお、住所
- システム
- あとで読む
- 行政
- 名寄せ
- データ
- マイナンバー
- IT
- 文字コード
- 文字
- 情報
みんなビックデータビックデータって言ってるけど名寄せとかどうしてんの？
- 561 users
- www.slideshare.net/send_
- テクノロジー
- 2013/10/05
自由診療クリニック向けのオールインワンSaaS「medicalforce」、警備事業者向けオールインワンSaaS「警備フォース」を提供する株式会社メディカルフォース。フルスクラッチでの開発を実現させるスクラムの構築をまとめました Developer eXperience Day 2024 株式会社メディカルフォース CTO 畠中翔一（@punk_punx）登壇スライド
スマホアプリとプライバシーの「越えてはいけない一線」－＠IT
- 559 users
- atmarkit.itmedia.co.jp
- 暮らし
- 2011/10/27
スマートフォンアプリは果たしてどこまで、端末に関する情報を取得してもいいのだろうか。位置情報と連動してお勧め店舗情報を表示したり、過去の検索履歴を基に商品を提案したりと、端末の情報やユーザーの行動履歴を活用するスマートフォンアプリが登場している。中には便利なものも多いが、一歩間違えれば、ユーザーのプライベートな情報が筒抜けになりかねない。結果として、スマートフォンを活用したビジネスやそれを支える広告市場までもが、否定的な目で見られ、発展を阻害される恐れもある。この議論が起こったきっかけの1つは、ミログが公開していた「AppLog」と「app.tv」というアプリだ。AppLogはSDKの形で提供され、これを自前のアプリに組み込むと、Android端末にインストールされているアプリの情報やその起動回数を収集し、同社のアプリケーション分析サービスに送信するようになっていた。開発者にはインスト
日本における「名寄せ」と「照合」の黒歴史
- 531 users
- xtech.nikkei.com
- テクノロジー
- 2023/07/20
健康保険証、銀行口座、年金記録――個人のマイナンバーに別人の情報がひも付けられるトラブルが後を絶たない。多くの事案に共通するのは、自治体や関係機関の職員が氏名や生年月日などを基にマイナンバーや住民データを照会した際に、誤って同姓同名の人の情報を引き出してひも付けてしまうというケースだ。こうした情報のひも付けをする際、職員が住民データの照合や突合、本人確認に使うのが「氏名」「生年月日」「性別」「住所」、いわゆる基本4情報といわれるものだ。だがこの4情報は、コンピューターによる自動処理とは絶望的に相性が悪い。例えば氏名は「邊」「邉」など旧字・異体字の揺らぎや外字の処理が煩雑なうえ、婚姻による改名もある。よくある氏名の場合、氏名も生年月日も同一というケースが頻発する。住所は時期によって変わるうえ、人によって書き方が「一丁目四番」から「1―4」まで一意ではない。こうした曖昧な識別符号を代替す
ReaD & Researchmap
- 389 users
- researchmap.jp
- 暮らし
- 2009/04/06
{{ item.PressRelease.angular_publish_start }} — {{ item.CategoriesLanguage.name }} {{ item.PressRelease.research_area_discipline_text }} / {{ item.PressRelease.research_area_item_text }}
- research
- 研究
- 研究者
- academic
- webサービス
- sns
- 情報収集
- community
- researcher
- webservice
高木浩光＠自宅の日記 - 技術音痴なIT企業CTOが国のWGで番号制度の技術基盤を歪める
- 358 users
- takagi-hiromitsu.jp
- 暮らし
- 2011/06/27
■ 技術音痴なIT企業CTOが国のWGで番号制度の技術基盤を歪める非公開で進められている（傍聴が許されていない）「情報連携基盤技術WG」の配布資料を入手した。しかも、この「情報連携基盤技術WG」には、存在自体が非公表のサブWGがあり、その構成員は、「情報連携基盤技術WG」から中立の有識者らを除いた、ベンダーの人々だけの集まりになっているらしい。入手した資料は、そうしたベンダーの構成員から今月提出されたもののようだ。入手した資料のうち、一つは重大な問題のある文書であり、他にもう一つ、問題のある文書があった。「番号制度」は、推進派に言わせれば「国家百年の大計として国の礎を作ることに他ならない」という*1ものであり、ベンダー試算によれば何千億円もの国家予算が必要と言われているものである。しかも、その方式設計は国民のプライバシー影響を左右する重要なものであって、一度不適切な方式を普及させると
- security
- 高木浩光
- セキュリティ
- IT
- これはひどい
- 行政
- privacy
- politics
- 社会
- 番号制度
クッキーより怖いcanvas fingerprintingって何？迂回方法は？
- 298 users
- www.gizmodo.jp
- テクノロジー
- 2014/07/28
クッキーより怖いcanvas fingerprintingって何？迂回方法は？2014.07.28 16:009,082 satomi 問題：ホワイトハウスとYouPornが共通でもってるもの、なーんだ？こたえ：canvas fingerprinting ｢canvas fingerprinting（canvasの指紋採取）｣というのは、最近大手サイトで採用が広まってる新手のオンライン追跡ツールのことです。クッキーと違って、ユーザー側からは探知もブロックもできないという、とんでもない野郎です。まさにユーザーの知らぬ間にウェブの閲覧行動がサイトに筒抜け、というマジックミラー状態。その現状をProPublicaが記事にしていますよ。｢canvas fingerprinting｣を最初に発見したのはプリンストン大学と英ルーヴェン大学の研究チームです。ここが発表した｢The Web Neve
- セキュリティ
- canvas
- security
- プライバシー
- privacy
- JavaScript
- web
- サイト
- ネット
- 技術
Canvas Fingerprintingはクッキーより怖いのか技術的に調べてみた｜TechRacho by BPS株式会社
- 201 users
- techracho.bpsinc.jp
- テクノロジー
- 2014/07/29
morimorihogeです。最近忙しくて遠征すらおぼつかない状態です。夏イベント資源足りるのかこれ。なんかはてブ界隈などでCanvas Fingerprintingの話題が出ていて、Cookieより怖い！とか、Adblockみたいに無効にする方法がないのにユーザトラッキングできて怖い！！といったアオリの記事がぽこぽこ出てきているようです。でも、ざっと調べた限りの日本語のどの記事を読んでも、具体的にどうやってユーザ個々のトラッキングができるようになるのか、技術的に解説されている記事が見つかりませんでした。というわけで、エンジニアとしてはここは一つキッチリ理解しておきたいと思い、調べた結果をまとめます。もし僕の読解がおかしくて変なことを言っている部分があれば、はてブやTwitter、コメント欄などで指摘して頂ければ更新していこうと思いますので、マサカリ上等です ;) Canvas F
- セキュリティ
- canvas
- privacy
- security
- トラッキング
- cookie
- HTML5
- fingerprint
- Web
- 技術
編集距離 (Levenshtein Distance) - naoyaのはてなダイアリー
- 193 users
- naoya-2.hatenadiary.org
- 暮らし
- 2009/03/29
昨日最長共通部分列問題 (LCS) について触れました。ついでなので編集距離のアルゴリズムについても整理してみます。編集距離 (レーベンシュタイン距離, Levenshtein Distance) は二つの文字列の類似度 (異なり具合) を定量化するための数値です。文字の挿入/削除/置換で一方を他方に変形するための最小手順回数を数えたものが編集距離です。例えば伊藤直哉と伊藤直也 … 編集距離 1 伊藤直と伊藤直也 … 編集距離 1 佐藤直哉と伊藤直也 … 編集距離 2 佐藤B作と伊藤直也 … 編集距離 3 という具合です。編集距離はスペルミスを修正するプログラムや、近似文字列照合 (検索対象の文書から入力文字にある程度近い部分文字列を探し出す全文検索) などで利用されます。編集距離算出は動的計画法 (Dynamic Programming, DP) で計算することができることが
第1回データ・クレンジングと名寄せ技術：ITpro
- 129 users
- xtech.nikkei.com
- 暮らし
- 2007/06/19
皆さんは，企業のシステムが提供している情報（データ）をどれくらい信用していますか。例えば，社内の製品担当者に問い合わせをしたい場合，社内システムを使って，製品から担当者を割り出し，担当者名から電話番号を検索，その電話番号に電話をかけてみるでしょう。この場合，社内システムから得られる情報はおおむね信用できるでしょう。製品担当者の変更が更新されていないといったこともあるかもしれませんが，そのような場合は社内であれば引き継ぎ担当者を教えてもらうことで状況を理解できるので，まずは情報を信じて電話をかけてみるのではないでしょうか。では，社外のお客様へ連絡するときはどうでしょうか。この場合は少し慎重になるでしょう。社内情報を検索するとき以上に各種システムから信用できる必要な情報を慎重に収集し，行動に移すはずです。私の友人のA君もそうでした。使えないデータたち A君はある電気製品の販売を担当する営
- 名寄せ
- システム開発
- db
- データベース
- database
- あとで読む
- hoge
- enterprise
- *仕事
- development
Google、「サブアカウント」を検出してメインアカウントと紐付ける技術を特許として出願 | スラド IT
- 108 users
- it.srad.jp
- テクノロジー
- 2012/09/20
9月18日、Googleは複数アカウントの使い分けを無意味にするため、米国特許商標庁に新たな特許を出願していたことが分かった。この「Social computing personas for protecting identity in online social interactions」と呼ばれている特許は、複数IDの利用が判明した場合、双方のアカウントを紐付けして一つのアカウントとして処理しようというもの。たとえばサブアカウントを使用していると判断できた場合、それがメインのユーザーアカウントに関連付けられ、ソーシャルネットワーク上で複数のアカウントがあることが分かるようにもできる模様（betanews、本家/.）。特許は複数のアカウントを識別するためのエンジンや複数アカウントの関連付けエンジン、その情報を統合表示するためもの、紐付けられたアカウントをユーザー側から可視レベル設定に基
- privacy
- google
- 実名・匿名
- patent
- これはひどい
- ID
- 特許
- IT
- ネタ
オタク特有の「複数アーティストの区切りバラバラ問題」に対応する - ハクチョウノミズウミ
- 99 users
- albno273.hatenablog.com
- テクノロジー
- 2016/06/03
完全にキレた、ISOに直談判も辞さない突然なんですが、ぼくはアイドルマスターシンデレラガールズ(デレマス)の「メッセージ」って曲がめちゃくちゃ好きなんですよ。で、デレマスの1期OP主題歌「Star!!」のCDに、カップリングとして new generation の3人が歌うバージョンの「メッセージ」が収録されてるんですけど。アーティストタグを見ると、こうなってるんですね。(ぼくの場合です) 島村卯月(大橋彩香); 渋谷凛(福原綾香); 本田未央(原紗友里) さて、同じ曲を持っている方がいらっしゃるかはわかりませんが、あなただったらどういう風に書きますか？島村卯月(CV:大橋彩香), 渋谷凛(CV:福原綾香), 本田未央(CV:原紗友里) あー、「CV:」って付けるタイプですね。括弧は半角、区切りは半角カンマと。いいですね。島村卯月(CV.大橋彩香)、渋谷凛(CV.福原綾香)、本田
- ID3
- 音楽
- music
- mp3
- データベース
- メディア
- tips
- IDOLM@STER
「日本の住所のヤバさ」知れ渡る　正規化・名寄せ問題、Twitterトレンドに
- 79 users
- www.itmedia.co.jp
- テクノロジー
- 2023/06/07
「日本の住所のヤバさ」が6月7日朝にTwitterトレンドになっている。住所表記の正規化・名寄せがいかに難しいかを解説した、inuroさんのnote記事「とにかく日本の住所のヤバさをもっと知るべきだと思います」がバズっているためだ。 6月4日のテレビ番組で、マイナンバーカードに記載される住所をめぐり、河野太郎デジタル大臣が「将来的にはAIの技術を使って住所の表記揺れを判断することがあり得るかもしれない」と発言し、住所の正規化についてネットで議論になっていたことがきっかけだ。記事は、「日本の住所システムがカオスで、その計算機的な処理がいかに困難か」を解説する内容だ。まず、日本にはそもそも、新旧の2つの住所システム（A町1丁目3番2号／A町1234番地）が併存しており、例えば、「浦安市舞浜2」の住所が「舞浜2丁目」「舞浜2番地」の2系統あるケースを紹介。さらに、まったく同じ住所表記が異な
- 名寄せ
- 正規化
- 住所
- 日本
- あとで読む
- news
- IT
「個人情報」の意味、知ってますか？　Tカード、Suica、マイナンバーで考える「個人情報の危うさ」
- 78 users
- www.itmedia.co.jp
- テクノロジー
- 2018/01/31
先日、とあるニュースを見て驚きました。そのニュースは「個人情報」に関するもので、あまり詳しくない私が見ても危うさを感じるものでした。この危うさはすぐにピンと来る人もいれば、なぜそこまで恐れるのか分からないと公言する人もいます。そこで今回は、基礎知識として知っておくべき「個人情報の危うさ」に触れたいと思います。最初のはなし：“マイナンバー”って個人情報なの？まず入り口は、皆さんもそれぞれに割り当てられている12桁の数字「マイナンバー」です。この数字、正確には個人番号と呼びますが、これは「個人情報」として取り扱われることが決められています。こう聞くと、単なる文字の羅列に、私たちの本名や住所などが入っているか疑問に思う方も多いでしょう。もちろん、個人番号も数字自体にそのような情報は含まれていません。よく出てくる言葉である「個人情報」とは氏名、住所、生年月日などだけを指すわけではありません。
業務・システムの視点が欠落した「年金記録漏れ」問題の与野党議論ビジネス-最新ニュース:IT-PLUS
- 72 users
- www.nikkei.com
- 暮らし
- 2007/06/05
「通信事業を本気でやるんですかね」――。2019年10月に"第4のキャリア"として携帯電話事業に参入する楽天に対して、ソフトバンクの宮内謙社長は楽天の取り組みに対して心配顔でこう疑…続きソフトバンク宮内社長「非通信の新事業、数千億円に」［有料会員限定］ iPhoneユーザーに選択迫る　総務省の「完全分離」案［有料会員限定］
- 年金
- 政治
- 行政
- politics
- system
- news
- pension
- it業界
- 社会保障
- IT
名寄せって難しいのよね - novtan別館
- 67 users
- nov1975.hatenablog.com
- 暮らし
- 2016/07/11
同姓同名同生年月日くらいだったら「便宜上」同一人物として扱っているシステムは結構多いと思うよ。事故の経緯に関し、銀行側の説明をまとめると、次のようになります。寝屋川支店では、死者の親族からの要請を受けて、死者の銀行口座を閉じた。この際、三井住友銀行の全国の顧客の口座一覧の中で、死者と同姓同名、同じ生年月日の人物を、住所を確認せずに閉じた。 http://21432839.at.webry.info/201601/article_4.html その人がどの支店に属する人かが重要であった時代ならともかく、今銀行にとってリテールのお客さんの住所は富裕層ならともかくそうじゃなければそれほど大きな意味合いを持っていないことも多いでしょう。銀行についてはペイオフの絡みでずい分昔に名寄せのシステムは整えたんですが、実際のところ、システム的な名寄せを全て信じて何かをすることは難しいので名寄せされた人
- 銀行
- 戸籍
- 事故
- あとで読む
- IT
- 社会
- technology
株式会社D2C｜統合マーケティングパートナー
- 67 users
- www.d2c.co.jp
- テクノロジー
- 2015/08/04
D2Cグループは、認知拡大から販売促進、ロイヤルユーザー化まで、幅広い領域を対象としたソリューションを提供する統合マーケティングパートナーです。あらゆる手段を駆使して「人を動かす、新しい瞬間」をプロデュースすることで、企業の課題を解決に導きます。
覚えておきたい！「名寄せ」の基本 - ITpro
- 65 users
- xtech.nikkei.com
- テクノロジー
- 2007/06/19
“システムを作成するときには考慮されていなかった観点でデータを使おうとしたとき”に「使えないデータたち」は発生します。しかし，使えないデータだからと言って捨ててしまうことはできないでしょう。なぜなら，そのデータは今まで使っていたデータであり，これからも使うデータだからです。では，使えないデータを使えるデータにするにはどうすれば良いのでしょうか。その作業は「データ・クレンジング（Data Cleansing）」と呼ばれます。データ・クレンジングに似た言葉として「名寄せ」というものがあります。名寄せはデータ・クレンジングをした結果，データ間の関連性を導き出す行為です。重複データを特定するという観点では，名寄せはデータ・クレンジングの一環です。この連載は，名寄せ技術について，個人データの例をとりあげて具体的に説明します。データを扱うソフト技術者/開発者にとって，名寄せは必須知識の一つと言って
「世界の全書籍の数」：Googleはどう数えたのか | WIRED VISION
- 59 users
- wiredvision.jp
- 暮らし
- 2010/12/22
前の記事　「光の軌跡」が撮れるアプリ『マジック・シャッター』お金がもらえる自動車共有サービス『リレー・ライド』　次の記事「世界の全書籍の数」：Googleはどう数えたのか 2010年12月22日サイエンス・テクノロジーIT コメント：トラックバック (0) フィードサイエンス・テクノロジーIT Mark Brown 米Google社は『Google Books』(日本語版記事)プロジェクトにおいて、まずは世界中にあるすべての本をカウントした。その際に利用された、徹底的で緻密なアルゴリズムについて説明している、同社ブログに掲載された[今年8月5日付けの]記事を紹介しよう。全ての図書を登録する目録を制作するにあたり、公式の標準は存在しなかった。また、既存の多くのシステムは信頼できないものと見なされた。例えばISBN(国際標準図書番号)を例にとってみよう。ISBNは1960年代以降に
- Google
- book
- 本
- 書籍
- データ
- 出版
- data
- 統計
TIS、自然言語処理で企業名認識を行うための辞書「JCLdic」を無償公開
- 50 users
- prtimes.jp
- テクノロジー
- 2020/04/21
TIS、自然言語処理で企業名認識を行うための辞書「JCLdic」を無償公開企業名のカバレッジ範囲が高い辞書で、自然言語処理など多様なシーンでの活用を目指す TISインテックグループのTIS株式会社（本社：東京都新宿区、代表取締役会長兼社長：桑野徹、以下：TIS）は、自然言語処理で企業名認識を行うための辞書「JCLdic」（日本会社名辞書）を無償公開し、辞書を生成するコードをオープンソースソフトウェア（OSS）として公開することを発表します。・「JCLdic」公開ページ：https://github.com/chakki-works/Japanese-Company-Lexicon （利用は上記のページからダウンロード）「JCLdic」は800万以上の企業名を収録している企業名辞書です。国税庁が公開している法人情報(2019年12月27日まで)の商号に対して、別名生成手法を適用してTI
高精度名寄せシステムを支えるテキスト処理（の、ほんのさわり）
- 48 users
- speakerdeck.com/dproject21
- テクノロジー
- 2017/11/15
2017.11.14 開催 golang.tokyo #10にてLT発表 Golangを用いたテキスト処理を行う際に気をつける部分、ライブラリの選定方針、テキスト処理のための基礎的なfunctionの作成について紹介しました。
年金問題で注目集める古くて新しい技術
- 45 users
- xtech.nikkei.com
- 暮らし
- 2007/06/15
最近話題の年金問題，金融系企業の大規模統合/合併，預金のペイオフ対応，などなど──これらのシステム対応に共通する，ある重要な技術がある。「名寄せ」である。異なるシステムのデータを統合するとき，規制やルールによってデータを作り直すとき，顧客情報などの名寄せは常に大きな問題となる。メインフレームの時代から，システムを作ったり，改変したり，統合したりを繰り返してきたベテラン技術者であれば，何を今さらと思うだろう。特に金融系システムの開発者やデータベース管理者などにとっては必須知識に近い。ベテランでなくても，何らかのシステム統合やデータ移行に携わった経験があれば，名寄せの作業を見聞きしたことがあるだろう。しかし，そうしたシステムや現場にかかわったことがない開発者/技術者の中には“名寄せ”と聞いても何のことかわからないと言う人もいる。また，最近話題になってから，言葉を知ったという人もいるかもしれ
- 名寄せ
- system
- 年金
- IT業界
- 開発
- システム
- development
SQLによる条件付き重複データの抽出と単純な名寄せ
- 44 users
- codezine.jp
- テクノロジー
- 2012/09/13
CodeZine編集部では、現場で活躍するデベロッパーをスターにするためのカンファレンス「Developers Summit」や、エンジニアの生きざまをブーストするためのイベント「Developers Boost」など、さまざまなカンファレンスを企画・運営しています。
- sql
- 名寄せ
- DB
- database
- MySQL
- .net
- あとで
- 資料
UDIDがはらむプライバシー問題
- 43 users
- atmarkit.itmedia.co.jp
- テクノロジー
- 2012/12/25
前回はUDIDに起因するセキュリティの問題について紹介しました。今回は引き続き、UDIDに起因するプライバシーの問題、特に名寄せの問題について述べていきます。前回は、UDIDに起因するセキュリティの問題について紹介しました。今回は引き続きUDIDに起因するプライバシーの問題について述べていきます。「プライバシー？関係ない」とはいえない時代学生時代にSNSにアップロードした写真が元で就職活動の際に不利な状況になってしまったり、知人しか見ないと思っていたつぶやきが実はWeb全体に公開されていたために自分の生活パターンなどが公にされてしまうなど、SNSに関係するプライバシー侵害事例が増加しています。一方で、ビッグデータやライフログなどと呼ばれる技術も発展しています。1つ1つには大した価値がないデータでも、それらを大量に集め、こうした技術を用いて解析した結果、個人の趣向などを詳細に知るこ
Apple Musicの最大の問題の一つが解決へ | TechCrunch Japan
- 36 users
- jp.techcrunch.com
- テクノロジー
- 2016/07/20
Companies use Snowflake to store their data in the cloud. With the ever growing interest in generative AI and large language models, customers are looking for ways to get started with the technology q
- Apple Music
- Apple
- itunes
- 音楽
- Saved For Later
- music
- あとで読む
RID
- 25 users
- clarivate.com
- 学び
- 2009/01/25
Sustainability – The foundation of everything we do At Clarivate, we have created an interconnected, shared purpose that guides every decision we make in order to improve environmental, social, and governance issues worldwide. How Clarivate uses Artificial Intelligence you can trust to transform your world Our dedicated Data Science team have implemented AI across our portfolio to enhance our tool
- identifier
- researcher
- 図書館
- sns
- 研究
- db
Wikipediaを活用した表記ゆれへの対応 - sola
- 24 users
- pompom168.hatenablog.com
- 暮らし
- 2019/08/10
自然言語処理のタスクにおいて、表記ゆれの問題が常につきまといます。単純なパターンであれば単純なルールで対処が可能です。例えばアルファベットの大文字・小文字の混在であれば全て小文字に変換すれば良いし、半角文字と全角文字の混在であれば全て全角文字に変換すれば良いでしょう。しかし、略語はどうでしょうか。例えばPCはおそらくパソコンのことですね。ただ、かしこまった文書だとパーソナルコンピュータと表記されているかもしれません。こうなってくると、単純なルールでの対処はもう難しいでしょう。そこで、単語の正規化（名寄せ）が必要です。単語の正規化の話は、Sansanの発表資料に良くまとまっています。大きく分けて以下の方法が考えられます。単語マスタを用意しておき、入力単語に対してレーベンシュタイン距離（編集距離）を計算して最も距離が小さい単語を採用する方法としては単純で扱いやすいマスタの用意が必要
NII　国立情報学研究所研究者リゾルバー
- 24 users
- nrid.nii.ac.jp
- テクノロジー
- 2009/05/07
Database of Grants-in-Aid for Scientific Research(KAKEN) is a public database which includes information on adopted projects, assessment, and research achievements from the Grants-in-Aid for Scientific Research(KAKENHI) Program. This system is hosted by the National Institute of Informatics (NII）in cooperation with MEXT and JSPS.
- university
- research
- search
- science
知らないと損をする！リストやデータ作成・整理に使える６つのExcel(エクセル)小技集 | マーケティング・コミュニケーションBlog
- 21 users
- blog.synergy-marketing.co.jp
- 学び
- 2013/08/05
Tweet Tweet CRMやマーケティング関連の業務効率を向上させるためのヒントやコツ、便利ツールなどをピックアップしてご紹介いたします。今回は、データの重複チェックやデータクレンジングなどの「データの名寄せ」を簡単に効率化できるExcel(エクセル)の機能や関数です。リストやExcelファイル内に重複データが存在しているデータクレンジング作業に時間がかかる、業務効率を向上させたい顧客データのメンテナンスの実施が必要なのに、Excelが苦手などの課題を抱えておられるマーケティング・制作担当者様にオススメです。＜目次＞重複データのチェック・一括削除複数データの一括変換（置換）全角文字を半角に（ASC関数）・半角文字を全角に（JIS関数）データの一部を抜き出す（RIGHT関数、LEFT関数、MID関数）複数のセルを一つのセルに（CONCATENATE関数／&演算子）
- Excel
- データベース
- CRM
- リスト
- Tips
- 小技
CA1740 – 動向レビュー：著者の名寄せと研究者識別子ORCID / 蔵川　圭
- 21 users
- current.ndl.go.jp
- テクノロジー
- 2011/03/24
著者の名寄せと研究者識別子ORCID 1. はじめに　学術研究成果の多くは論文として出版され公表される。論文は、すでに存在する論文を引用しながら、それが表す知識の体系を位置づける。そのような知識の体系を構成することに、誰が貢献したか、どのような組織が貢献したかがわかるように、内容とともに著者の名前や所属組織名が明記される。助成機関に対して謝辞を加えることも多い。ある研究者がどのくらい知識の体系化に貢献したかを測ってみたいとき、その研究者の論文を並べてみればよい。それがいわゆる業績リストである。著者本人の申告だけでなく、より客観性を帯びた形でリスト化されればより正確な評価が可能となるであろう。今では、論文や業績リストがWeb上に公開されるようになり、瞬時にそのような情報を得ることが可能となった。出版者の論文検索システム、機関リポジトリ、出版者や機関の研究者ディレクトリなどから直接、または大
- ORCID
- 図書館
- 論文
CiNii著者検索とコップの中の小さな革命 - @i2kのブログ
- 19 users
- i2k.hatenablog.com
- 暮らし
- 2010/04/04
2010年4月1日にCiNiiがバージョンアップしました。昨年4月のリニューアル以来、1年ぶりの機能強化です。といっても、CiNiiの基本的な機能や見た目にはほとんど変化はなく、新たに「著者検索」という機能がついたのが今回の目玉です。検索ボックスの赤いタブがそれです。あっさりとした公式説明 - http://ci.nii.ac.jp/info/ja/index.html#20100401 もう少し詳しい説明 - http://cinii.jp/post/486298233/cinii-author-search CiNiiのデータベースに入っている著者名にIDを振って、その著者IDで検索できるようになった、ということなのですが、言うは易く行うは難しで、やろうと思ってから実現するまで1年がかりの大仕事でした。中身の説明については上記リンクに任せるとして、ここではCiNii著者検索をなぜや
- CiNii
- NII
- database
- 図書館
VIAF
- 18 users
- viaf.org
- テクノロジー
- 2010/02/19
VIAF: The Virtual International Authority File The VIAF® (Virtual International Authority File) combines multiple name authority files into a single OCLC-hosted name authority service. The goal of the service is to lower the cost and increase the utility of library authority files by matching and linking widely-used authority files and making that information available on the Web. Learn more . Lib
- OCLC
- 典拠データ
- 人物情報
- metadata
- Library
- 図書館
おすすめアイテムや趣味の似た人が見つかるサービス「byflow」
- 18 users
- internet.watch.impress.co.jp
- テクノロジー
- 2011/04/21
- webサービス
- webservice
- facebook
- SNS
- amazon
知らないと損をする！データ整理・名寄せに使える6つのExcel(エクセル)小技集 | BLOG | シナジーマーケティング株式会社
- 15 users
- www.synergy-marketing.co.jp
- テクノロジー
- 2015/03/09
本記事は、データの重複チェックやデータクレンジングなどの「データの名寄せ作業」を簡単に効率化できるExcel(エクセル)の機能や関数をご紹介した前回記事の続編です。今回は、改めて「データの名寄せ作業」の工程を整理し、各工程でのExcel作業効率化のテクニックをご紹介します。複数のリスト・データを名寄せ（マージ）する必要があるが、方法がわからないデータクレンジング作業に時間がかかる、業務効率が悪い顧客データのメンテナンスが必要なのに、Excelが苦手などの課題を抱えておられるマーケティング・制作担当者様にオススメです。 1.データの名寄せ作業：3つのステップ 3つのステップとは、データの【整理】【絞り込み（フィルタリング）】【統合（マージ・名寄せ）】です。この順で作業を行わなければ、データに誤りが生じる可能性が大きくなりますので、気をつけましょう。まずは、データの【整理】です。複数
- excel
- データ
ワークショップ「名寄せのこれから～研究者IDサミット～」開催報告 : Kanazawa University Library
- 14 users
- www.lib.kanazawa-u.ac.jp
- 世の中
- 2011/03/02
話題になっている名寄せについてワークショップを行いました。コアな話題でしたが、27名もの参加をいただき、盛会のうちに終了となりました。参加していただいた皆様、ありがとうございました。各発表での質疑応答は、発表者だけでなく参加者によるミニ・ディスカッションが始まるほどでした。このページでは、講演・発表・ディスカッションのエッセンスを紹介します。プログラム ★「開会あいさつ」武田英明(NII) 近年、論文数が増加し、国際的な研究協力も進んでいる。そのため、名寄せが必要になってきた。大変な作業であるが、やっていかなければならない。幸いにして、日本には「科研費番号」がある。これで日本の研究者はほぼ捕捉できる。名寄せのための材料はある。そのなかで何ができるだろうか。 ★「なぜ研究者の名寄せが必要か～世界の動向と研究者リゾルバー～」蔵川圭(NII) →発表資料閲覧サイト
- ORCID
- 図書館
- NII
- repository
Scopusの論文IDと国内の大学・公的機関の機関名称の名寄せ結果　科学技術・学術政策研究所が公開
- 13 users
- current.ndl.go.jp
- 学び
- 2013/07/04
2013年7月4日、科学技術・学術政策研究所（NISTEP）は、Elsevier社の文献データベースScopusの論文ID(Scopus_eid)とNISTEP大学・公的機関名辞書の機関ID(NID)の対応テーブルを公開しました。これは、1996-2010年の期間にScopusに採録された論文のうち、日本の機関に所属する著者を含む論文のデータ(約150万件)を対象に、国内の大学・公的機関の機関名称の名寄せを行った結果です。NISTEPは、これにより、精度の高い個別機関レベルの論文データを得ることが出来るとしています。大学・公的機関における研究開発に関するデータ http://www.nistep.go.jp/research/scisip/randd-on-university Scopusにおける大学・公的機関名の名寄せ結果の公開について（科学技術・学術政策研究所 2013/7/4
名寄せに関連して必要になる処理　―ASP.NETでの実装方法
- 13 users
- codezine.jp
- テクノロジー
- 2012/11/13
はじめに前回までは会員テーブルのみの更新処理を紹介しました。最終回となる今回は、関連するテーブルの更新を含め、名寄せにあたって考慮すべき点について紹介します。関連テーブルの更新処理トランザクション処理排他制御対応可能なRDB MySQL（4.1以上）、SQL Server、Access、PostgreSQL、OracleなどのRDBで可能です。ただし、EXISTS演算子とサブクエリーが利用できないSQLiteでは不可です。必要となる前提知識と環境前半部分はSQL命令の解説になるので、SQLの基礎知識が前提となります。後半部分は各回を通して、ASP.NET開発の基礎知識（SQL Serverへのアクセス方法、MultiViewコントロールの使い方を含む）、および以下の環境が前提となります。開発ツール：Visual Web Developer 2010 Express SP
- 名寄せ
- DB
- Excel
- .net
- あとでみる
覚えておきたい！「名寄せ」の基本第2回標準化でデータのばらつきを解消する：ITpro
- 13 users
- xtech.nikkei.com
- テクノロジー
- 2007/06/26
このデータをざっとみると，データの形式にばらつきがあることがわかります。このようなデータから同一人物を割り出すためには，どの項目をキーとしてどのような突き合わせをすればよいでしょうか。データは，図3以外にも膨大にあるので，人間の目で見て判断するのではなく，どのようにしてプログラムで自動的に同一人物を割り出していくかを考えてみてください。人間の目で見れば，4番目の「斎藤太郎」と最後から4番目の「斉藤太郎」，最後の「斉藤太郎」というデータは同一人物であると予測できますが，それを自動で判断する場合，どのようなプログラムを用意しますか？ ◆名寄せ技術1「調査」まず，どの項目をキーとして判断していくかを決める必要があります。図3をよく見てみると，「生年月日」は空白データが多数あるため，キーとして有効ではありません。次に「電話番号」は，全く同じ番号であれば同一人物である確率は高いものです。しか
［3］事業化時にはライフログの収集・利用・共有で気を配る
- 12 users
- xtech.nikkei.com
- テクノロジー
- 2009/03/11
政府によるガイドラインがない現在の状態でも携帯電話事業者などは，ライフログを活用したサービスを提供する道はある。牧野総合法律事務所の牧野二郎弁護士は「制度の裏付けがない現時点では訴訟のリスクは確かにある。しかし，現状の法律や世間の常識に応じた対策を施しておくことでリスクを小さくできる」という。サービスの透明性確保が重要対策の基本となるのが「収集するデータの内容とその利用目的についてユーザーに事前に分かりやすく説明し，実際の運用でその目的以外に使わないこと」（英知法律事務所の岡村久道弁護士）である（図1）。透明性を確保するのは，ユーザーが納得した上で，サービスを利用してもらうためである。「文章だけでなく，絵やフローチャートなどを使って難しい文章を読まなくても分かる形で見せる工夫も必要だ」（岡村弁護士）。「事業者は将来に使うかもしれないからという理由で，提供するサービスとは関係しないデ
- セキュリティ
- Privacy
- security
- *あとで
- life
- business