[B! DataMining] xiangzeのブックマーク

Top 10 Amazon Books in Data Mining, 2016 Edition - KDNuggets

xiangze 2016/11/25

リンク

プライバシ保護データマイニング (PPDM)

プライバシ保護データマイニング (PPDM) 東京大学中川裕志 2002年くらいから伸びてきた分野です。最近は機械学習、データ工学系の学会で相当数の論文が発表されています。こういうご時勢ですから、ひょっとすると重要な技術要素になるかもしれません。個人情報保護が叫ばれる複数の企業、組織が協力しないと日本はどんどん遅れていく PPDMの基礎概念２種類のＰＰＤＭ  摂動法  データベースに雑音を加え、利用者がデータベースに質問しても真のデータベースの内容が利用者には取得できないようにする  プライベートな情報は漏れないようにしたいが、一方でできるだけ正確なデータマイニング結果も得たい！  暗号法  データ保持者をパーティと呼ぶ。複数のパーティが自分のデータは公開鍵暗号で暗号化する。当然、他のパーティには自分のデータは知られない。暗号化したまま何らかの計算を

xiangze 2015/09/23

DataMining

リンク

パターン認識に関する公開プログラム

宇野毅明と有村博紀による公開プログラム（コード）このページでは、公開しているプログラムのコードがダウンロードできます。主に、列挙アルゴリズムやデータマイニングに関するものです。全て、宇野毅明、あるいは、良く一緒に研究をしてお世話になっている北海道大学の有村博紀先生によって作られたものです。各プログラムに使用言語とコード作成者が書いてありますので、質問、あるいはバグの報告などは、作成者にご連絡ください。宇野毅明は uno@nii.ac.jp、有村博紀先生は arim@ist.hokudai.ac.jp です。 !!! コードの最近のバージョンに、マッキントッシュのフォーマットではエラーが出るというバグがありました。現行バージョンではこのバグは治っています。 LCM (Linear time Closed it emset Miner) ver.2 (C言語、宇野毅明) [文献 1]

xiangze 2015/09/23

“宇野毅明と有村博紀による公開プログラム（コード）”

リンク

R {arules} によるアソシエーション分析をちょっと詳しく <1> - StatsFragments

今週は系列パターンマイニング用 R パッケージ {arulesSequences} と格闘していた。使い方にところどころよくわからないポイントがあり、思ったよりも時間がかかってしまった。関連パッケージである {arules} ともども、ネットには簡単な分析についての情報はあるが、データの作り方/操作についてはまとまったものがないようだ。とりあえず自分が調べたことをまとめておきたい。2 パッケージで結構なボリュームになるため、全 4 記事分くらいの予定。概要まずはパターンマイニングの手法を簡単に整理する。いずれもトランザクションと呼ばれるデータの系列を対象にする。トランザクションとは 1レコード中に複数の要素 (アイテム) を含むもの。例えば、 POSデータ: 1トランザクション = POSレジの売上 1回。アイテムはそのときに売れた個々の商品。アンケート調査: 1トランザクション

xiangze 2015/08/22

r
datamining

リンク

「データ分析プロセス」福島真太朗

書籍のタイトルは「データ分析プロセス」とありますが、偉い人を説得してどのようにデータを集めていくかを決めて、KPIをどう設定して～という、いわゆる啓蒙書ではありません。すでに顧客の行動データやPOSデータなどをデータベースに格納しつつあり、そこから例えば解約予測をするにはRで具体的にどうすればよいか、という問いに答えるRの本です。Useful RというRのシリーズ本の中の一冊であり、Rを使って機械学習をするためのエンジニア向けの本です。特におすすめする読者は、Rで機械学習をする人の他、欠損値・外れ値・不均衡データといったものにどういった対処方法があるのか知りたい、使ってみたいという人です。また、書籍のページではRのソースコードとともに対応するPythonのソースコードが一部提供されています。まえがきには「本書では、可能な範囲で実データを使用した分析例を例示しようと心がけた」とあり、そのた

xiangze 2015/06/30

リンク

次元削除 ( t-SNE ) - puyokwの日記

今回は、kaggle のOtto Group Production Classification Challenge の上位の方々が次元削除の手法としてt-SNE(t-distributed stochastic neighbor embedding) を使用されていたので調べてみようと思いました。個人的には、pca(主成分分析) ぐらいしか思い付かなかったのですが、それぞれ比較しながら見ていきます。 t-sne の詳細についてこちらを参考にするといいかと思います。 http://jmlr.org/papers/volume9/vandermaaten08a/vandermaaten08a.pdf こちらに書かれているようにt-SNE は高次元のものを2 または3 次元に写像するように作られています。とりあえず、R のtsne package を試してみます。(あとでより高速なRtsne

xiangze 2015/06/21

リンク

データ分析プロセス - 共立出版

通常、データ分析というと、多変量解析、機械学習、時系列解析などの手法が取り上げられることが多い。しかし、実際のデータ分析では、適切なビジネス目標に基づいて分析計画を立案したうえでデータを収集・蓄積し、データ加工やデータ変換などの前処理を実行した後に分析手法を適切に適用し、得られた知見の活用方法について検討する必要がある。本書では、このようなデータ分析プロセスを実現できるようになることを目指して、収集・蓄積したデータに前処理を行い、データから相関やパターンなどの知見を抽出するための基本的な考え方や処理について、Rの実装方法を交えて説明する。第1章　データ分析のプロセス 1.1　データ分析で直面する課題の例 1.2　データ分析のプロセス 1.3　CRISP-DM 1.4　KDDプロセス 1.5　本書の目的と構成第2章　基本的なデータ操作 2.1　データの入出力 2.2　データフレームのハン

xiangze 2015/06/14

リンク

Tableauの新バージョン、9.0の新機能を紹介します - Platinum Data Blog by BrainPad

こんにちは、ソリューション本部の森永です。先日、弊社が販売および導入支援を行う、ビジネス・インテリジェンス（BI）ツール（*1）「Tableau(タブロー)」のバージョン9.0が正式にリリースされました。本年1月に、シンガポールにて開催された「Tableau Partner Summit 2015」の参加レポートでもいち早くご紹介したとおり、ユーザーの皆さんが使いやすいように、きめ細やかな工夫や機能拡張が行われています。今回は、その新機能の中から、いくつかをピックアップしてご紹介しようと思います。（*1）企業等において、蓄積された膨大なデータを蓄積・分析・加工し、経営上の意思決定に活用できるような形式にまとめる業務システムのこと。進化したビジュアル分析アドホック計算と入力サポート計算式を使ったフィールド（入力項目）を簡単に作成できる、「アドホック（非定型）計算」の機能が搭載さ

xiangze 2015/05/18

リンク

当社データサイエンティストがこよなく愛している『mコマンド』で数億行を高速集計する話 - ハウテレビジョンブログ

どうも。 1月に入社したばかりの、データ分析担当のn_maoです。と言いながら、最近はHTMLとjsばかりいじっております。それはそれで楽しいです。さて今回はデータ分析のざっくりとした仕事内容と、その分析にかかる手間を省くツールをご紹介します。データ分析の仕事まずは私の行っているデータ分析という仕事の内容をご紹介します。私の主な仕事は大きく分けて４つです。売上げ、会員登録数などの簡単な集計&自動レポーティングデータベースからの知識発見（いわゆるデータ分析）分析結果をもとにした企画立案実施された企画の効果検証あくまで私個人の仕事内容であり、データ分析者全員に当てはまるわけではありません。アルゴリズムの研究開発の方や、インフラ寄りの方もいらっしゃるでしょう。ですが、同じ職種の方で業務範囲が被っている方も少なからずいらっしゃると思います。これら４つの業務の中で一番時間

xiangze 2015/02/09

datamining

リンク

data fusion についてのメモ - 盆栽日記

ちょっと昔のメモを整理がてら公開しておく。データ融合（data fusion）という手法がある。例えば、「ある特定の性質を有する製品を、ある特定のターゲットがどれくらい購入するか」といった問題に対して、「広告接触の変数」と「購買の変数」が同一対象者から得られているシングルソースデータがあればそれを使えばいいだけの話だが、現実にはそうはいかない。なんとなく属性が似た別人のデータが複数ある、つまりマルチソースデータがばらばらっとあるだけ、というのが普通である。このマルチソースデータを「のりしろ」となる共通項目で結合する手法がデータ融合である。もっとわかりやすく詳細な説明はhttp://www.respo.provost.nagoya-u.ac.jp/research/dat/016hoshino.html/:名古屋大学星野先生の紹介を参照のこと。以下メモ書き。内容参考文献データ

xiangze 2014/11/29

DataMining

リンク

それってホントに『分析』？｜freee データマイニングエンジニアに学ぶ本質的なデータとの向き合い方 | キャリアハック（CAREER HACK）

アナタのデータ分析はただの「現状分析」かもしれない！？明日から使える「データ」への向き合い方と考え方をfreeeのデータマイニングエンジニア坂本さんに教えてもらいました。データ分析→活用、ホントに出来てる？昨年辺りから、ビックデータやデータサイエンティストがある種「バズワード化」して久しいですね。ただ、データというものは決してプロフェッショナルだけが扱うものではありません。様々な業界・業種の人が日々、データと向き合っているもの。Excelが使えるからといって、「データ分析ができている」と勘違い…いや錯覚している人も多いのでは！？ここは基礎から、データの扱い方・考え方についてプロから学んでみましょう。今回ご寄稿いただいたのは、10万以上の事業所が導入している「全自動のクラウド会計ソフト freee」でデータマイニングエンジニアを務める坂本さん。明日から使える考え方が詰まっています。

xiangze 2014/07/26

リンク

TokyoWebmining - TokyoWebmining カテゴリ別発表資料

Simple GAによる広告出稿最適化(@takenotabiさん) 30分でわかる広告配信エンジンの作り方(BTからコンテキスト広告まで)(@yamazさん) 安全にスケールするログ解析システム構築の勘所(@yamazさん) お金をかけず広告配信のログ分析システムを作った話(@karubiさん) エンジニアのためのアドテクノロジー再入門：アドテクの基礎からRealTimeBiddingまで(@jazzyslideさん) Optimizing for conversion in display advertising campaigns(@tsubosakaさん) リアルタイム広告システム最前線(@yamazさん) 広告クリエイティブの最適化の実際(@kan_yukikoさん) LT: インターネット広告代理店の現場におけるデータ分析探訪 (@hokagawaさん) LT: ビジネスレベル

xiangze 2014/05/31

リンク

SparkRを使ってRでSparkを動かす

Spring BootによるAPIバックエンド構築実践ガイド第2版何千人もの開発者が、InfoQのミニブック「Practical Guide to Building an API Back End with Spring Boot」から、Spring Bootを使ったREST API構築の基礎を学んだ。この本では、出版時に新しくリリースされたバージョンである Spring Boot 2 を使用している。しかし、Spring Boot3が最近リリースされ、重要な変...

xiangze 2014/05/31

R
datamining

リンク

Dラボ

条件を指定する（※2つ以内推奨） 10%OFFコンビニ後払い郵便振替送料無料返金保証あり解約保証あり自動引落楽天ペイ店頭販売なし店頭販売あり定額プラン分割払い（カード不要）代金引換プレゼント付きクレジット払い20%OFFキャリア決済LINE PayAmazon Pay90%OFF80%OFF70%OFF60%OFF50%OFF4000円OFF40%OFF35%OFF3000円OFF30%OFF銀行振込

xiangze 2014/05/03

datamining

リンク

51株価予測に挑戦 of データマイニングの宝箱

Visual Mining Studio　を用いたデータマイニングの活用事例をご紹介します。　データマイニングの問題は、マニュアルを作るのが困難でして、ケースバイケースで対応しなければなりません。ここでは、ある問題を一例として、どんな手順ですすめていくのか、どこに時間をかけているのか、などなどを綴ってみようかと思います。データマイナーと呼ばれている人の発想のポイントといったようなものをケーススタディとして参考にしてみてください。では、どういった問題を取り扱うのか？　テーマは何でもよかったんですけど、これまでにない画期的なテーマに挑戦してみます。・・・・メールにて、「データマイニングで競馬はどうですか？」「データマイニングで株はどうですか？」という質問をよく頂戴いたしますし、きっと皆さんの個人的な関心どころは、”データマイニングで、お金儲けは可能か？”　というところにあるの

xiangze 2014/03/22

リンク

Topology and Data Gunnar Carlsson ∗ Department of Mathematics, Stanford University Stanford, California 94305 October 2, 2008 1 Introduction An important feature of modern science and engineering is that data of various kinds is being produced at an un

Topology and Data Gunnar Carlsson ∗ Department of Mathematics, Stanford University Stanford, California 94305 October 2, 2008 1 Introduction An important feature of modern science and engineering is that data of various kinds is being produced at an unprecedented rate. This is so in part because of new experimental methods, and in part because of the increase in the availability of high powered c

xiangze 2014/03/13

リンク

第32回データマイニング+WEB＠東京( #TokyoWebmining 32nd ) －マーケティング最適化・最前線祭り－を開催しました - hamadakoichi blog

2014/1/25 "第32回データマイニング+WEB ＠東京　( #TokyoWebmining 32nd) −マーケティング最適化・最前線祭り−"を開催しました。第32回データマイニング+WEB＠東京 ( #TokyoWebmining 32nd) −マーケティング最適化・最前線祭り−: Eventbrite Google グループ会場提供し運営を手伝って下さったニフティ株式会社のみなさん、どうもありがとうございました。素敵なトークを提供してくれた講師メンバーに感謝します。会場参加、USTREAM参加ともに多くの方々の参加を嬉しく思っています。参加者ID・バックグラウンド一覧：参加者Twitter List: Twitter List TokyoWebmining 32nd 参加者セキココ：第32回データマイニング+WEB ＠東京セキココ (作成してくれた [T

xiangze 2014/01/26

リンク

Eamonn Keogh

Eamonn Keogh Distinguished Professor Computer Science & Engineering Department University of California - Riverside Riverside, CA 92521 Welcome to my home page. You may be interested in: My publications, my tutorials The Matrix Profile is the best idea in time series data mining in a decade The 2018 UCR Time Series Classification page has the largest collection of test datasets in the world. SAX i

xiangze 2013/12/04

リンク

進撃の巨人を読んだことない人がデータだけでキャラを推測してみる - あんちべ！

はじめに最近超人気の漫画として私のTwitter TLを賑わす作品、その名も「進撃の巨人」。これだけ人気なんだからきっと面白いに違いないのですが、なんか絵が怖そうだし、人がバンバン死んでてグロいっぽいという噂を聞くので、なんとか漫画を読まずに、それでいて進撃の巨人のキャラについては知りたい、そう願う潜在的進撃の巨人ファンも全国に70万人くらいいらっしゃると思います。そこで、データから進撃の巨人にどんなキャラが登場するか推測してみましょう。扱うデータとして、pixivのタグ情報を利用します。商品レビューコメントなどとは違い、ファンの創作活動がダイレクトに反映されるサービスなので、そこに付与されるタグ情報は、ファンの熱（過ぎる）いメッセージが込められているに違いありません。今回、以下のような縛りを入れています。 1．勿論原作は見ない 2．pixivのタグ情報は参照するけど、

xiangze 2013/08/04

リンク

Orange Data Mining

Data Mining Fruitful and FunOpen source machine learning and data visualization. Download Orange 3.38.1 Jan 20, 2025 Foundation models in Orange with just a few lines of codeFoundation models can be used in Orange in just a few lines of code. Python Script can unlock every model from Hugging Face if you are brave enough. Dec 03, 2024 Partial Least Squares in the Pharmaceutical IndustryPartial Leas

xiangze 2013/07/20

リンク

はてなブックマーク

タグ

関連タグで絞り込む (21)

DataMiningに関するxiangzeのブックマーク (25)

お知らせ

月間はてなブックマーク数ランキング（2025年3月）

今週のはてなブックマーク数ランキング（2025年3月第5週）

今週のはてなブックマーク数ランキング（2025年3月第4週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス