財布の中のクレジットカード。米フロリダ州マイアミ郊外ケンドールで(2009年3月7日撮影、資料写真)。(c)AFP/Getty Images/Joe Raedle 【1月30日 AFP】クレジットカードの利用情報わずか4件から、カード利用者の大半の身元を特定できるとした研究論文が、29日の米科学誌サイエンス(Science)に掲載された。匿名化したビッグデータでさえも、個人のプライバシー侵害に悪用される恐れがあることを示唆する結果だという。 米マサチューセッツ工科大学(Massachusetts Institute of Technology、MIT)のイブ・アレキサンダー・デモントジョイ(Yves-Alexandre de Montjoye)氏とデンマーク・オーフス大学(Aarhus University)の共同研究者らが率いるチームは、国名不明の先進工業国に住む110万人のクレジットカ
矢野:そうですか。 店舗の中で、居場所と体の動きを検知できるセンサを従業員が身に着けて、来店したお客様にも買い物の間だけ身に着けてもらい、毎秒20回ずつひたすらデータを取り続けるわけですが、それを解析した人工知能コンピュータがすごく意外な影響要因をはじき出した。 店内のいくつかの「ある特定の場所」に従業員が「いる」だけで顧客単価が向上するというんですね。そこでの滞在時間を1.7倍にしただけで顧客単価が15%も増えたとか。でもそれがどういう理由なのか言葉ではうまく説明できない。これは、具体的にはどういうことをコンピュータでやっているんですか。 矢野:ごく単純に言うと、1人のお客さんがいくらお金を使うかという売り上げというマクロな量に対して、影響を与えるかもしれない要因はものすごくたくさんあります。そのたくさんの要因の中で、影響がありそうな候補を何千個、何万個と自動で作り出し、かつそれらを絞り
2014年6月12日にブラジルで開幕し、世界中の人をくぎ付けにしている2014 FIFAワールドカップは、日本時間の7月5日と6日に渡って、ベスト4を決める準々決勝が行われます。2010年に南アフリカで開催されたワールドカップでは、ドイツの水族館で飼育されていたマダコのパウルくんが、予想した全8試合を全て的中させ話題を呼びましたが、2014年はGoogleが世界中から集められたビッグデータを使って勝敗予測をぶち上げ、なんと決勝トーナメント1回戦の勝敗全てを的中させ、次に行われる準々決勝の勝敗予測を公開しています。 Google Cloud Platform Blog: Google Cloud Platform goes 8 for 8 in World Cup predictions http://googlecloudplatform.blogspot.ch/2014/07/googl
From Fluentd Meetupに行ってきました これを読んだ時、BigQueryの検索スピードについてちょっと補足したくなった。確かにFluentd Meetupのデモでは9億件を7秒程度で検索していたが、BigQueryの真の実力はこれより1〜2ケタ上だからだ。ちょっと手元で少し大きめのテーブルで試してみたら、120億行の正規表現マッチ付き集計が5秒で完了した。論より証拠で、デモビデオ(1分16秒)を作ってみた: From The Speed of Google BigQuery これは速すぎる。何かのインチキである(最初にデモを見た時そう思った)。正規表現をいろいろ変えてみてもスピードは変わらない。つまり、インデックスを事前構築できないクエリに対してこのスピードなのである。 価格も安い。さすがに120億行のクエリは1回で200円もかかって気軽に実行できなさそうであるが、1.2億
先日の合同企業説明会でご来場いただいた就活生の皆さんにこの話題をだいぶ話したので、続きの意も込めてちょっと書いてみようと思います。実はその時お話した内容について、後日データ分析者同士の飲み会を開いた時に色々議論になったもので(笑)、そのフィードバックも兼ねるかなぁという。 そうそう、この記事でも引き合いに出しますが「アルゴリズム実装系」「アドホック分析系」というデータサイエンティストの分類については、以下のslideshareをお読みあれ。 最新業界事情から見るデータサイエンティストの「実像」 from Takashi J Ozaki そして予めお断りしておきますが、今回の記事も基本的には僕の個人的なデータ分析業界での経験と見聞に基づいて独断を並べているだけで、言ってみればただのポジショントークです。何かしら客観的な数値的根拠とかそういうものがあるわけではないので、悪しからず。。。 バズワ
ネットで面白いコピペを発見したので貼り付けておきますね。 山岡「こちらが我々の考える究極のデータサイエンティストです。」 京極「なんやて、経済学部出身やないか!ITに統計学、業務、この中で先の二つの技術的素養が必要なデータサイエンティストには理系出身者が定石やで山岡はん。」 山岡「確かに、数学のスキルが要求されるデータサイエンティストには普通の文系出身者は厳しい。しかし、彼の学部時代の専攻は計量経済学。実務では高度なアルゴリズムやビックデータの解析基盤の構築のスキルなんか本当は必要ない、経済学の手法が求められているんだ。」 京極「なんやてっ!」 山岡「ビッグデータといっても、小売りの場合大きくて1千万件程度、普通のRDBMSで処理可能だし、非構造化データなんて必要ない。アルゴリズムもSPSSやRなんかのツールに入力して結果を解釈できれば十分なんだ。一方で、政府の統計を駆使して地域の需要を推
「はじめまして」「ご趣味は?」。自己紹介し合う男女の胸元には“センサー”が――和歌山県紀美野町でこのほど、センサーデータの活用を通じてカップル成立の可能性アップを目指す“ビッグデータ婚活イベント”こと「きみのめぐり愛 春」が開かれた。 名札に付けられたセンサーで参加者の行動データを取得し、分析によって男女のコミュニケーションを可視化する取り組み。分析結果は後日スタッフ内で共有し、カップルが成立しやすいイベント運営のあり方を探るという。 「データの活用を通じてカップルが1組でも多く生まれてほしい」と話すのは、紀美野町の寺本光嘉町長。人口約1万人の同町では若年層の未婚率の高さが課題となっており、2009年から婚活イベントを定期的に開いてきた。これまで4回のイベントをきっかけに2組の夫婦が生まれたものの、寺本町長は「運営の仕方によってはもっと多くの出会いを提供できると考えていた」という。 未来の
#今回は知財ではなく純粋にITの話です。なお、SoftbankのCMとも関係ありません。 データウェアハウスを構築する上で重要な処理にETL(Extract Transformation Load)があります。文字通り、データソースのシステムからデータを「抽出」し、「変換」し、データウェアハウスに「ロード」する処理のことです。 「変換」処理では、複数ソースのデータを統合して、データの形式をそろえたり、不正データを排除したりします。いわゆるデータ・クレンジング(洗浄)と呼ばれる処理です。これによってデータウェアハウスにロードされるデータの品質を向上できます。 しかし、ビッグデータの世界ではこのデータ洗浄をしてからロードするという考え方が必ずしも適切ではなくなってきます。データ品質とは一義的に決まるものではなく、分析の文脈によって変わってくるからです。データ管理者ではなくデータサイエンティスト
DISCLAIMER: 私はプライバシー分野はもちろん一応の勉強はしていますが、必ずしもコアな専門領域というわけではないのでBest Effortベースで書いています。もっと詳しい方からのコメントを期待します。 IBMの「ビッグデータ」担当の人が日経ITProのインタビュー記事で「ビッグデータ」の応用として通話履歴(CDR)を使ってソーシャルグラフを作るというような事例を挙げたのに対して「それは通信の秘密に反する違法行為ではないか」ということで、twitter界隈を中心にプチ炎上的な状況になっています(参考togetter)。 そもそも、「ビッグデータ」と言う言葉が出る前から通話履歴情報の分析はデータウェアハウスの重要応用分野でした。通話履歴の分析がいっさいできないということであれば容量計画もできないですし料金の設定もできません。 過去にこの手のデータウェアハウス・アプリケーションについて
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く