プライバシ保護データマイニング (PPDM) 東京大学 中川裕志 2002年くらいから伸びてきた分野です。最近は機械学習、 データ工学系の学会で相当数の論文が発表されています。 こういうご時勢ですから、ひょっとすると重要な技術要素 になるかもしれません。 個人情報保護が叫ばれる 複数の企業、組織が協力しないと日本は どんどん遅れていく PPDMの基礎概念 2種類のPPDM 摂動法 データベースに雑音を加え、利用者がデータベースに質 問しても真のデータベースの内容が利用者には取得でき ないようにする プライベートな情報は漏れないようにしたいが、一方で できるだけ正確なデータマイニング結果も得たい! 暗号法 データ保持者をパーティと呼ぶ。複数のパーティが自分 のデータは公開鍵暗号で暗号化する。当然、他のパー ティには自分のデータは知られない。暗号化したまま何 らかの計算を
宇野毅明と有村博紀による公開プログラム(コード) このページでは、公開しているプログラムのコードがダウンロードできます。主に、列挙アルゴリズムやデータマイニングに関するものです。全て、宇野毅明、あるいは、良く一緒に研究をしてお世話になっている北海道大学の有村博紀先生によって作られたものです。各プログラムに使用言語とコード作成者が書いてありますので、質問、あるいはバグの報告などは、作成者にご連絡ください。宇野毅明は uno@nii.ac.jp、有村博紀先生は arim@ist.hokudai.ac.jp です。 !!! コードの最近のバージョンに、マッキントッシュのフォーマットではエラーが出るというバグがありました。現行バージョンではこのバグは治っています。 LCM (Linear time Closed itemset Miner) ver.2 (C言語、宇野毅明) [文献 1]
今週は系列パターンマイニング用 R パッケージ {arulesSequences} と格闘していた。使い方にところどころよくわからないポイントがあり、思ったよりも時間がかかってしまった。 関連パッケージである {arules} ともども、ネットには簡単な分析についての情報はあるが、 データの作り方/操作についてはまとまったものがないようだ。とりあえず自分が調べたことをまとめておきたい。2 パッケージで結構なボリュームになるため、全 4 記事分くらいの予定。 概要 まずはパターンマイニングの手法を簡単に整理する。いずれもトランザクションと呼ばれるデータの系列を対象にする。トランザクションとは 1レコード中に複数の要素 (アイテム) を含むもの。例えば、 POSデータ: 1トランザクション = POSレジの売上 1回。アイテムはそのときに売れた個々の商品。 アンケート調査: 1トランザクション
書籍のタイトルは「データ分析プロセス」とありますが、偉い人を説得してどのようにデータを集めていくかを決めて、KPIをどう設定して~という、いわゆる啓蒙書ではありません。すでに顧客の行動データやPOSデータなどをデータベースに格納しつつあり、そこから例えば解約予測をするにはRで具体的にどうすればよいか、という問いに答えるRの本です。Useful RというRのシリーズ本の中の一冊であり、Rを使って機械学習をするためのエンジニア向けの本です。特におすすめする読者は、Rで機械学習をする人の他、欠損値・外れ値・不均衡データといったものにどういった対処方法があるのか知りたい、使ってみたいという人です。また、書籍のページではRのソースコードとともに対応するPythonのソースコードが一部提供されています。 まえがきには「本書では、可能な範囲で実データを使用した分析例を例示しようと心がけた」とあり、そのた
今回は、kaggle のOtto Group Production Classification Challenge の上位の方々が次元削除の手法としてt-SNE(t-distributed stochastic neighbor embedding) を使用されていたので調べてみようと思いました。個人的には、pca(主成分分析) ぐらいしか思い付かなかったのですが、それぞれ比較しながら見ていきます。 t-sne の詳細についてこちらを参考にするといいかと思います。 http://jmlr.org/papers/volume9/vandermaaten08a/vandermaaten08a.pdf こちらに書かれているようにt-SNE は高次元のものを2 または3 次元に写像するように作られています。とりあえず、R のtsne package を試してみます。(あとでより高速なRtsne
通常、データ分析というと、多変量解析、機械学習、時系列解析などの手法が取り上げられることが多い。しかし、実際のデータ分析では、適切なビジネス目標に基づいて分析計画を立案したうえでデータを収集・蓄積し、データ加工やデータ変換などの前処理を実行した後に分析手法を適切に適用し、得られた知見の活用方法について検討する必要がある。本書では、このようなデータ分析プロセスを実現できるようになることを目指して、収集・蓄積したデータに前処理を行い、データから相関やパターンなどの知見を抽出するための基本的な考え方や処理について、Rの実装方法を交えて説明する。 第1章 データ分析のプロセス 1.1 データ分析で直面する課題の例 1.2 データ分析のプロセス 1.3 CRISP-DM 1.4 KDDプロセス 1.5 本書の目的と構成 第2章 基本的なデータ操作 2.1 データの入出力 2.2 データフレームのハン
こんにちは、ソリューション本部の森永です。 先日、弊社が販売および導入支援を行う、ビジネス・インテリジェンス(BI)ツール(*1)「Tableau(タブロー)」のバージョン9.0が正式にリリースされました。 本年1月に、シンガポールにて開催された「Tableau Partner Summit 2015」の参加レポートでもいち早くご紹介したとおり、ユーザーの皆さんが使いやすいように、きめ細やかな工夫や機能拡張が行われています。 今回は、その新機能の中から、いくつかをピックアップしてご紹介しようと思います。 (*1)企業等において、蓄積された膨大なデータを蓄積・分析・加工し、経営上の意思決定に活用できるような形式にまとめる業務システムのこと。 進化したビジュアル分析 アドホック計算と入力サポート 計算式を使ったフィールド(入力項目)を簡単に作成できる、「アドホック(非定型)計算」の機能が搭載さ
どうも。 1月に入社したばかりの、データ分析担当のn_maoです。 と言いながら、最近はHTMLとjsばかりいじっております。 それはそれで楽しいです。 さて今回はデータ分析のざっくりとした仕事内容と、その分析にかかる手間を省くツールをご紹介します。 データ分析の仕事 まずは私の行っているデータ分析という仕事の内容をご紹介します。 私の主な仕事は大きく分けて4つです。 売上げ、会員登録数などの簡単な集計&自動レポーティング データベースからの知識発見(いわゆるデータ分析) 分析結果をもとにした企画立案 実施された企画の効果検証 あくまで私個人の仕事内容であり、データ分析者全員に当てはまるわけではありません。 アルゴリズムの研究開発の方や、インフラ寄りの方もいらっしゃるでしょう。 ですが、同じ職種の方で業務範囲が被っている方も少なからずいらっしゃると思います。 これら4つの業務の中で一番時間
ちょっと昔のメモを整理がてら公開しておく。 データ融合(data fusion)という手法がある。 例えば、「ある特定の性質を有する製品を、ある特定のターゲットがどれくらい購入するか」といった問題に対して、「広告接触の変数」と「購買の変数」が同一対象者から得られているシングルソースデータがあればそれを使えばいいだけの話だが、現実にはそうはいかない。なんとなく属性が似た別人のデータが複数ある、つまりマルチソースデータがばらばらっとあるだけ、というのが普通である。 このマルチソースデータを「のりしろ」となる共通項目で結合する手法がデータ融合である。 もっとわかりやすく詳細な説明はhttp://www.respo.provost.nagoya-u.ac.jp/research/dat/016hoshino.html/:名古屋大学星野先生の紹介を参照のこと。 以下メモ書き。 内容 参考文献 データ
アナタのデータ分析はただの「現状分析」かもしれない!?明日から使える「データ」への向き合い方と考え方をfreeeのデータマイニングエンジニア坂本さんに教えてもらいました。 データ分析→活用、ホントに出来てる? 昨年辺りから、ビックデータやデータサイエンティストがある種「バズワード化」して久しいですね。 ただ、データというものは決してプロフェッショナルだけが扱うものではありません。様々な業界・業種の人が日々、データと向き合っているもの。Excelが使えるからといって、「データ分析ができている」と勘違い…いや錯覚している人も多いのでは!?ここは基礎から、データの扱い方・考え方についてプロから学んでみましょう。 今回ご寄稿いただいたのは、10万以上の事業所が導入している「全自動のクラウド会計ソフト freee」でデータマイニングエンジニアを務める坂本さん。 明日から使える考え方が詰まっています。
Simple GAによる広告出稿最適化(@takenotabiさん) 30分でわかる広告配信エンジンの作り方(BTからコンテキスト広告まで)(@yamazさん) 安全にスケールするログ解析システム構築の勘所(@yamazさん) お金をかけず広告配信のログ分析システムを作った話(@karubiさん) エンジニアのためのアドテクノロジー再入門:アドテクの基礎からRealTimeBiddingまで(@jazzyslideさん) Optimizing for conversion in display advertising campaigns(@tsubosakaさん) リアルタイム広告システム最前線(@yamazさん) 広告クリエイティブの最適化の実際(@kan_yukikoさん) LT: インターネット広告代理店の現場におけるデータ分析探訪 (@hokagawaさん) LT: ビジネスレベル
Visual Mining Studio を用いたデータマイニングの活用事例をご紹介します。 データマイニングの問題は、マニュアルを作るのが困難でして、ケースバイケースで対応しなければなりません。ここでは、ある問題を一例として、どんな手順ですすめていくのか、どこに時間をかけているのか、などなどを 綴ってみようかと思います。データマイナーと呼ばれている人の発想のポイントといったようなものをケーススタディとして参考にしてみてください。 では、どういった問題を取り扱うのか? テーマは何でもよかったんですけど、これまでにない画期的なテーマに挑戦してみます。・・・・メールにて、「データマイニングで競馬はどうですか?」「データマイニングで株はどうですか?」という質問を よく頂戴いたしますし、きっと皆さんの 個人的な関心どころは、”データマイニングで、お金儲けは可能か?” というところにあるの
Topology and Data Gunnar Carlsson ∗ Department of Mathematics, Stanford University Stanford, California 94305 October 2, 2008 1 Introduction An important feature of modern science and engineering is that data of various kinds is being produced at an unprecedented rate. This is so in part because of new experimental methods, and in part because of the increase in the availability of high powered c
2014/1/25 "第32回 データマイニング+WEB @東京 ( #TokyoWebmining 32nd) −マーケティング最適化・最前線 祭り−"を開催しました。 第32回 データマイニング+WEB@東京 ( #TokyoWebmining 32nd) −マーケティング最適化・最前線 祭り−: Eventbrite Google グループ 会場提供し運営を手伝って下さった ニフティ株式会社 のみなさん、どうもありがとうございました。素敵なトークを提供してくれた講師メンバーに感謝します。会場参加、USTREAM参加ともに多くの方々の参加を嬉しく思っています。 参加者ID・バックグラウンド一覧: 参加者Twitter List: Twitter List TokyoWebmining 32nd 参加者セキココ:第32回 データマイニング+WEB @東京 セキココ (作成してくれた [T
Eamonn Keogh Distinguished Professor Computer Science & Engineering Department University of California - Riverside Riverside, CA 92521 Welcome to my home page. You may be interested in: My publications, my tutorials The Matrix Profile is the best idea in time series data mining in a decade The 2018 UCR Time Series Classification page has the largest collection of test datasets in the world. SAX i
はじめに 最近超人気の漫画として私のTwitter TLを賑わす作品、その名も「進撃の巨人」。 これだけ人気なんだからきっと面白いに違いないのですが、 なんか絵が怖そうだし、人がバンバン死んでてグロいっぽいという噂を聞くので、 なんとか漫画を読まずに、それでいて進撃の巨人のキャラについては知りたい、 そう願う潜在的進撃の巨人ファンも全国に70万人くらいいらっしゃると思います。 そこで、データから進撃の巨人にどんなキャラが登場するか推測してみましょう。 扱うデータとして、pixivのタグ情報を利用します。 商品レビューコメントなどとは違い、ファンの創作活動がダイレクトに反映されるサービスなので、 そこに付与されるタグ情報は、ファンの熱(過ぎる)いメッセージが込められているに違いありません。 今回、以下のような縛りを入れています。 1.勿論原作は見ない 2.pixivのタグ情報は参照するけど、
Data Mining Fruitful and FunOpen source machine learning and data visualization. Download Orange 3.37.0 May 30, 2024 Document embeddings vs. Bag of wordsWhen to use document embeddings instead of a bag of words. May 14, 2024 Orange Data Mining uses the fastest t-SNE implementation in PythonJournal of Statistical Software published a paper describing our state-of-the-art implementation openTSNE. Ap
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く