[B! data-cleansing] nabinnoのブックマーク

nabinno id:nabinno

data-cleansingに関するnabinnoのブックマーク (23)

住所確認サービス｜GeoTechnologies
平素は「住所確認・ジオコーディングサービス」をご愛顧いただきまして、誠にありがとうございます。誠に勝手ながら、ユーザーサポート及び営業窓口は、下記の期間中お休みさせて頂きます｡ ■休業期間 2024年08月10日（土）～2024年08月18日（日） ※期間中にいただいたお問い合わせに関しましては、08月19日（月）以降に順次対応いたします。休業期間中はご迷惑をおかけいたしますが、何卒ご了承くださいますようお願い申し上げます。
nabinno 2021/11/22
mapfan

increment-p

data-cleansing

database

address
リンク
pandas.DataFrame.dropna — pandas 2.2.3 documentation
pandas.DataFrame.dropna# DataFrame.dropna(*, axis=0, how=<no_default>, thresh=<no_default>, subset=None, inplace=False, ignore_index=False)[source]# Remove missing values. See the User Guide for more on which values are considered missing, and how to work with missing data. Parameters: axis{0 or ‘index’, 1 or ‘columns’}, default 0Determine if rows or columns which contain missing values are remove
nabinno 2019/12/06
pandas

python

pandas.dataframe

pandas.dataframe.dropna

data-cleansing
リンク
Glossary of probability and statistics - Wikipedia
nabinno 2019/12/03
tidy-data

data-cleansing

data-processing

data-preprocessing
リンク
整然データ(Tidy Data)への変換をpandasでやってみる - Qiita
はじめにこんにちわ！突然で恐縮ですが、皆さん「Tidy Data 」(日本語では「整然データ」と訳されています。) というコトバを聞いたことがありますでしょうか？私は先日、Safari Books OnlineのPandas Data Analysis with Python FundamentalsというコースでPandasの勉強をしていたら、最後に「Tidy Data」という章が出てきてこのコトバを知りました。「Tidy Data」とは(R の世界において神とあがめられている）ハドリー・ウィッカム (Hadley Wickham) 氏のTidy Dataという論文(2014)で提唱された概念です。同論文は日本語訳もあり、翻訳の冒頭では以下のように紹介されています。効果的なデータ分析に関して、「整然データ」という概念を提唱した論文 “Tidy Data” の全訳。整然データは、Rなど
nabinno 2019/12/03
qiita

python

pandas

pandas.melt

tidy-data

data-cleansing
リンク
pandas.melt — pandas 2.2.3 documentation
nabinno 2019/12/03
pandas

python

pandas.melt

tidy-data

data-cleansing
リンク
Data anonymization - Wikipedia
"Anonymization" redirects here. For anonymity on the Internet, see Anonymity § Anonymity on the Internet. Data anonymization is a type of information sanitization whose intent is privacy protection. It is the process of removing personally identifiable information from data sets, so that the people whom the data describe rem ain anonymous. Overview[edit] Data anonymization has been defined as a "pr
nabinno 2017/03/21
data-anonymization

data-cleansing

data-set

database

privacy

security-engineering
リンク
Amazon.co.jp: データ匿名化手法 ―ヘルスデータ事例に学ぶ個人情報保護: Khaled El Emam (著), Luk Arbuckle (著), 木村映善 (監修), 魔狸 (監修), 笹井崇司 (翻訳): 本
nabinno 2016/06/13
khaled-el-emam

luk-arbuckle

cryptography

security-engineering

books
リンク
Ruby でメールアドレスの有効性チェックしてみた - Qiita
はじめに C 向けのサービスを運営していると、ログインID や連絡のためにメールアドレスを取得することが多い。で、その取得したメールに対して、大量のメール配信を行ったところ、バウンス率が高いために Amazon SES から配信停止を食らったもんで、停止解除のための説得材料として、登録されているメールアドレスの有効性チェックを行おうと、方法を色々調べた。下記のように Web で同様のサービスもやってますが、まぁ csv インポートだとお金かかったりだとか、色々あったので、調べて自分で実装してみました。まぁざっと作ったのでひどいソースですが… http://www.verifyem ailaddress.org/ http://address-kakunin.com/ https://www.voilanorbert.com/ メールアドレスの有効性をチェックするには、telnet で
nabinno 2016/02/12
qiita

ruby

email

data-cleansing

validation
リンク
BriteVerify
nabinno 2016/02/10
briteverify

transactional-email

email

data-cleansing
リンク
データ匿名化手法
データがビジネスを駆動する現在、さらなるサービスの進化と利便性を推進するために、個人に関する情報は不可欠です。本書は、機微な個人情報を多く含むヘルスデータを題材に、プライバシー保護とデータ有用性という相反する命題をいかに満たすかについて、豊富な実例とともに解説する書籍です。リスクベースの非特定化方法論、横断的データ、縦断的イベントデータ、データリダクション、地理空間の集約、マスキングなどデータの匿名化に必要な事柄を網羅的に解説します。医療者はもちろん、個人のプライバシーを守りつつ、より洗練されたサービスを提供したいエンジニア、データ技術者必携の一冊です。監訳者まえがきまえがき 1章　イントロダクション 1.1　匿名化すべきか、せざるべきか 1.1.1　同意を得るか、匿名化するか 1.1.2　お金を節約する 1.1.3　人目に触れたくない 1.2　匿名化における2本の柱 1.2.1　マス
nabinno 2015/05/11
oreilly

software-engineering
リンク
データクレンジング・名寄せツール/Precisely Trillium｜トップ｜株式会社アグレックス
データ内の「表記の不統一」や「重複データ」の問題を解消するために、データクレンジング・名寄せを行うツールです。 Precisely Trilliumは、米国Preciselyのワールドワイドなパッケージプロダクトです。世界で約2,000ユーザー、日本においても約250ユーザーの実績を誇るデータクレンジング・名寄せツールのデファクトスタンダードです。大規模データの統合で発生する「データ表記の不統一」問題を効果的に解消いたします。メインフレームやコールセンターなど様々なデータを各種辞書機能・マッチング機能によりクレンジング・名寄せ・統合を行い企業の基盤となる精度の高いデータコンテンツを構築いたします。住所・姓名・法人名キーワードの各種辞書を用いた高精度なデータクレンジング機能により、名寄せの際に問題となるデータ表記の違いを効果的に解消します。また、目的に応じた柔軟な名寄せ機能により高精
nabinno 2014/02/17
agrex

trillium

data-cleansing

data-linkage

database-normalization
リンク
31データクレンジング方法
データマイニングでは、データが膨大となっている場合があります。ここまでデータ量が大きくなると計算量の問題で解析時間がかかりすぎるという問題が起き、色々なデータマイニング技法を試行することができません。それでは、大規模データに対抗するためにどうしたらいいでしょう？　今、著者が思いついたものを挙げてみると１．高速なマシンに期待する２．大規模でも計算する手法を編み出す３．仮説を立てて絞り込んで挑戦４．サンプリングして、そこそこの量のデータで試す５．それでもじっくり処理が終わるのを待つということをとりあえず思いつきました。（他にある場合は教えてください）それでは、以上の項目をデータマイニングとして検討してみましょう。【１番：高速なマシンに期待する】高速マシンに投資することは基本的に有効です。30年前の計算機ではどうやっても不可能であった計算処理であっても技術
nabinno 2014/02/17
data-cleansing

data-scoring

rawdata

munging

data-mining

database-normalization
リンク
第1回データ・クレンジングと名寄せ技術：ITpro
皆さんは，企業のシステムが提供している情報（データ）をどれくらい信用していますか。例えば，社内の製品担当者に問い合わせをしたい場合，社内システムを使って，製品から担当者を割り出し，担当者名から電話番号を検索，その電話番号に電話をかけてみるでしょう。この場合，社内システムから得られる情報はおおむね信用できるでしょう。製品担当者の変更が更新されていないといったこともあるかもしれませんが，そのような場合は社内であれば引き継ぎ担当者を教えてもらうことで状況を理解できるので，まずは情報を信じて電話をかけてみるのではないでしょうか。では，社外のお客様へ連絡するときはどうでしょうか。この場合は少し慎重になるでしょう。社内情報を検索するとき以上に各種システムから信用できる必要な情報を慎重に収集し，行動に移すはずです。私の友人のA君もそうでした。使えないデータたち A君はある電気製品の販売を担当する営
nabinno 2014/02/17
nikkei-bp

hitoshi-mizutani

data-cleansing

pattern-match

data-linkage

master-data-management
リンク
データクリーニング(データクレンジング)|BtoBマーケティングカンパニー　株式会社アイアンドディー
名刺管理ソフト・CRM・SFA・MA など各種管理ツール上にバラバラな状態で管理されているデータを整備して、販促活動に利用できる状態にすることを「データクレンジング」または「データクリーニング」と言います。弊社アイアンドディーは、テレマ・デジマなどのマーケティング施策を代行、自社開発のMA ツールを有しているため、販促活動で成果が出るデータの在り方は熟知しております。展示会などの名刺データ入力、販促用の各種企業データ整備、データクレンジングの専任コンサルタントがおります。お気軽にご相談ください。懇切丁寧に、貴社のお立場に沿うご提案をさせていただきます。デジタルマーケティングに使えるよう、データを整備したい営業マンごとに名刺入力したエクセルファイルを統合したい。外資系SFAと、マーケティングオートメーションとのデータの整合性に困っている。営業担当者などが手作業でデータ入力を行って
nabinno 2014/02/17
i&d

data-cleansing

database-normalization

business-card
リンク
インフォマティカ、データ品質管理ソフトの新版発表
インフォマティカ・ジャパンは9月16日、データ品質管理ソフトウェアの新版「Informatica Data Quality 8.6.2」（Data Quality）の出荷を開始したと発表した。新版では富士通と協業し、日本独自の住所表記を修正する機能を追加した。 Data Qualityは顧客情報、製品情報、パートナー情報など企業が持つデータを効率的に管理するためのソフトウェア。データの分析、クレンジング、マッチング、レポートなどの機能がある。顧客情報のほか、製品、財務、資材、注文、資産などさまざまなマスタデータを管理できる。同社のデータ統合プラットフォームソフトウェア「PowerCenter」と連携させて使うことができ、データクレンジングから情報活用まで広く対応する。新版では日本特有の住所表記を修正するための拡張機能モジュール「Japan Address Validation」がオプショ
nabinno 2014/02/17
itmedia

informatica-data-quality

informatica

fujitsu

data-cleansing

database-normalization

validation
リンク
ピツニーボウズ、データクレンジングに注力したETLソフト「Spectrum 7」を出荷
ピツニーボウズ・ソフトウェアは2011年9月20日、データ加工ソフトの新製品「Spectrum 7」日本語版を出荷した。ETL（Extract/Transf orm/Load）機能とデータクレンジング機能を兼ね備える。価格は、製品ライセンスが250万円（税込）から。データクレンジング・サービスとアセスメントサービスが200万円（税込）から。販売目標は、今後1年間で5億円。 Spectrum 7は、データクレンジング機能を備えたETLソフトである。データベースからデータを抽出し、ルールに基づいて変換/加工し、データベースに登録する。データ変換/加工時には、データクレンジング機能を利用できる。住所などの表記ゆれの統一や、重複データの排除（名寄せ）などによって、データの品質を高めることができる。データ品質を高める手段として、帝国データバンクの企業データベースで企業データを補完したり、住所データや
nabinno 2014/02/17
nikkei-bp

spectrum-7

data-cleansing

database-normalization

teikoku-data-bank

salesforce
リンク
データ品質 - Wikipedia
データ品質（英: Data quality）は、データの品質である。データが高品質であるとは「オペレーション、意思決定、計画などの目的に適っていること」を指す（J.M. Juran）。これとは別に、実世界の対応実体を正しく表しているデータを高品質とする見方もある。これら2つの見方は、同じ目的の同じデータに対しても必ずしも一致しない。定義[編集] データ品質とは、データが実際の現象をどれだけうまく表しているかの尺度である[1]。データを特定の用途に適したものとする完全性、妥当性、一貫性、適時性、正確性[2]。特定用途を満たす能力に影響するデータの機能と特徴の総体。データと関連した要因の優秀さの尺度の総計[3]。歴史[編集] 低価格のサーバが普及する以前、データの管理はメインフレームで行われていた。例えば、顧客の名前と住所のデータは、誤字脱字の修正、引越し・死亡・服役・結婚・離婚といっ
nabinno 2014/02/17
data-quality

database-normalization

data-cleansing

direct-marketing
リンク
法人企業データベースLBC ～日本最大のデータを活用した事例や企業コード・企業リスト資料提供～ | ユーソナー
nabinno 2014/02/17
landscape

linkage-business-code

data-cleansing

data-scoring

services

tools

dabatase-marketing
リンク
Salesforce AppExchange | 有数のエンタープライズクラウドマーケットプレイス
AppExchange は、セールス、マーケティング、カスタマーサービスなど、あらゆる業種および部門に Salesforce を拡張できるすぐにインストール可能なアプリケーション、ソリューション、コンサルタントを揃えた世界有数のエンタープライズクラウドマーケットプレイスです。
nabinno 2014/02/10
'

appexchange

salesforce

data-munging

data-cleansing

tools

checking-out
リンク
Salesforce AppExchange | 有数のエンタープライズクラウドマーケットプレイス
AppExchange は、セールス、マーケティング、カスタマーサービスなど、あらゆる業種および部門に Salesforce を拡張できるすぐにインストール可能なアプリケーション、ソリューション、コンサルタントを揃えた世界有数のエンタープライズクラウドマーケットプレイスです。
nabinno 2014/02/10
appexchange

salesforce

data-cleansing

data-munging

tools

checking-out
リンク
1 2 次のページ