[B! DataMining] beth321のブックマーク

beth321 id:beth321

DataMiningに関するbeth321のブックマーク (27)

DeNAの大規模データマイニング活用したサービス開発
「DeNAの大規模データマイニング活用したサービス開発」慶應義塾大学大学院理工学研究科 2014年度下期「ビックデータ実践論」特別講義の講義資料です。　実際の大規模データマイニング活用したサービス開発での各種挑戦、心がけていること、分散処理基盤、等、話しています。興味ある方はぜひ。
beth321 2016/07/07
データマイニング

Webサービス

from mikutter

DeNA

あとで読む

copyright

mining

datamining

マーケティング

ビッグデータ
リンク
「パナマ文書」解析の技術的側面
世界中で話題になっているパナマ文書。各国で政権を揺るがすような事態にもなっていますが、純粋にデータとしてみた場合、これは計算機やデータ解析に関わる人々にも面白いものだと思います。データの中身や背景などについてはさんざん報道されていますのでここでは触れません。一方、現場でどのような作業が行われているのかはあまり報道されていません。現実的な問題として、人力ではどうしようもない量のリークデータを手に入れた場合、調査報道機関はどんなことを行っているのでしょうか？私も以前から疑問に思っていたのですが、先日あるデータベース企業と、データ分析アプリケーションを作成する会社のブログにて、その実際の一端を窺うことができる投稿がありました: Panama Papers: How Linkurious enables ICIJ to investigate the massive Mossack Fonseca
beth321 2016/04/11
datamining

ten

あとで読む

技術

パナマ文書

it

visualization

data

graph

analytics
リンク
NHK NEWS WEB 外国人旅行者は何をつぶやいたか
外国人旅行者は何をつぶやいたか 4月7日17時52分旅行に行った際、ツイッターなどのＳＮＳを通して、楽しい出来事や美しい風景をいろんな人と共有したくなりますよね。去年１年間、日本を訪れた外国人旅行者は１３４１万人を超え過去最高となりましたが、その旅行者たちも国内のさまざまな場所で体験したことについてツイッター上で“つぶやいて”います。このようなデータを活用して、外国人旅行者の動向を分析し、新たな観光ルートの構築につなげようという取り組みが始まっています。観光庁を担当している経済部の寺田麻美記者が紹介します。外国人旅行者に“つぶやかれる”日本「Ｔｏｋｙｏ　ｓｋｙｔｒｅｅ，ｓｅｅ　Ｕ　ｎｅｘｔ　ｙｅａｒ！」（スカイツリー、また来年！）「Ｉｔ’ｓ　ａ　ｒａｍｅｎ　ｋｉｎｄ　ｏｆ　ｄａｙ！」（ラーメン日和！）これらは、日本を訪れた外国人旅行者がツイッターに投稿した“つぶやき”です。
beth321 2015/04/08
外国人

news

Twitter

news

観光

日本

マーケティング

あとで読む

社会

datamining
リンク
プライバシー保護データマイニング（PPDM）手法の種類、特徴を理解する
プライバシー保護データマイニング（PPDM）手法の種類、特徴を理解する：匿名化技術とPPDM（2）（1/3 ページ）現在、プライバシーの侵害なく安全にデータを公開するためにさまざまな手法が考案され始めています。企業が保有するデータには資産価値があるものが多く含まれますが、それらが一部の権限者しか活用できないようでは、商品開発や企画検討、サービス開発に時間がかかることになります。本稿では今後、データを利用する上で理解しておく必要にせまられるであろう、プライバシー保護データマイニングの手法の概要や課題、現状を紹介します。連載バックナンバーはじめに個人情報やプライバシーを含むようなデータを、プライバシー侵害なく安全に活用して、ビジネスや社会の改善に結び付けるには「プライバシー保護データマイニング（PPDM）」の利用やその適正なリスク評価方法を内部に確立していることが重要になってきます。
beth321 2015/04/01
プライバシー

privacy

tutorial

datamining
リンク
第7回　大規模データ処理におけるCPUとI/Oのバランスをどう考えるか | gihyo.jp
3大ボトルネックを解消すれば終わり、ではないこれまでの連載では、ディスクI/O、CPU、ネットワークI/Oの3つの観点で、大規模データを処理するときのボトルネックの傾向と改善点について説明しました。それらの改善策をすべてを実施すれば、もう何も心配する必要はないのでしょうか？残念ながら、よかれと思って実施したチューニングがほかの箇所に影響を与える可能性があります。最終回となる今回は、その具体例を見ていきましょう。データを圧縮した場合、CPUボトルネックが生じやすくなる大規模データを扱うときは、データの総量を小さくしてストレージ装置のコストを削減するため、圧縮機能の利用を検討することが多いです。データを圧縮する場合、RDBMSの機能を利用するのが一般的です。たとえばOracle Databaseには、以下のように何種類かの圧縮機能があります。標準圧縮機能 OLTP圧縮機能（Adva
beth321 2015/01/27
チューニング

datamining

database

performance

サーバ

あとで読む

cpu

bigdata

gihyo

データ
リンク
Amazon Redshiftによるビッグデータ分析環境の構築手順
CodeZine編集部では、現場で活躍するデベロッパーをスターにするためのカンファレンス「Developers Summit」や、エンジニアの生きざまをブーストするためのイベント「Developers Boost」など、さまざまなカンファレンスを企画・運営しています。
beth321 2014/10/07
ホットエントリ

aws

redshift

Amazon

あとで読む

DataMining

hatena-bookmark

data
リンク
Head Firstデータ解析
初心者にも分かりやすいと人気のHead Firstシリーズのデータ解析バージョン。大量で複雑なデータを分析し、意味のある適切な情報にまとめて把握し、効果的に見せる手法は、ビジネスでも研究でも必須のスキルです。本書ではデータの収集、整理、視覚化、解析、そしてプレゼンテーションというデータ解析の手順に沿って、実際に手を動かしながらやさしく解説します。エクセルやRをはじめさまざまなデータ解析ツールを使って効果的なデータの提示方法が身につくように構成されています。『Head First Statistics』とともに読むとさらに効果的。実践で役立つ情報が満載の一冊です。関連ファイルサンプルコード正誤表ここで紹介する正誤表には、書籍発行後に気づいた誤植や更新された情報を掲載しています。以下のリストに記載の年月は、正誤表を作成し、増刷書籍を印刷した月です。お手持ちの書籍では、すでに修正が施され
beth321 2014/10/05
本

japan

book

統計

書籍

解析

education

datamining

O'REILLY

analysis
リンク
第1回　機械学習を実践する前の基礎知識 | gihyo.jp
みなさん、次のようなことができたらいいと思ったことはありませんか？「顧客ごとに、適したタイミングと内容で、DMを送信できたら……」「CGM系サイトへの誹謗中傷なんかのスパム投稿を自動識別できたら……」「サーバの負荷が高まるタイミングを事前に予測できたら……」一見するとこれらは実現していることがまったく異なりますが、じつはある共通点があります。それは「データを分析し、その結果を活用している」という点です。 Data is Kingの考えから得られるメリットかつてAmazonに在籍していたRonny Kohaviは「Data is King at Amazon」と言い、データの重要性を説きました。事実、Amazonはユーザの購買履歴から商品のレコメンデーションを行い、ユーザのサイト内の遷移履歴やクリック率からサイト構造の改善を行うなど、データを徹底的に活用していることで知られています
beth321 2014/09/16
機械学習

データマイニング

datamining

統計

machine learning

プログラミング

mahout

あとで読む

データ分析

programming
リンク
時系列分析Ｉ ――ARMAモデルと時系列分析
連載バックナンバーはじめに今回は時系列分析について紹介します。ビジネスで生成されるデータの多くが“時間“の項目を含む時系列データで、1週間の傾向や季節変動などを分析する際など、さまざまな場面で時系列の分析が必要となります。時系列分析（Time Series Analysis）とは？時系列分析（Time Series Analysis）は、株価や為替レートなど金融関連の時間とともに変化するデータを分析し予測するために発達してきました。「時系列計量経済学（Time Series Econometrics）」などの学問の中で論じられているデータ分析の中では、比較的歴史のあるテーマです。それだけに、定式化するためのさまざまなモデルが提案されていて、1つの変量を分析するためのモデルだけでも、表1のように多くのモデルがあります。略称説明 AR
beth321 2014/06/25
マーケティング

data

データマイニング

機械学習

analysis

R

DataMining

データ

tutorial

math
リンク
純国産キャンペーン管理ツール「Aimstar」バージョンアップ～データマイニング機能とWEB行動分析機能を強化
『MarkeZine』が主催するマーケティング・イベント『MarkeZine Day』『MarkeZine プレミアムセミナー』の最新情報をはじめ、様々なイベント情報をまとめてご紹介します。 MarkeZine Day
beth321 2014/04/21
webservice

datamining

CRM
リンク
Amazon Redshift（高速、シンプル、費用対効果の高いデータウェアハウス）| AWS
Amazon Redshift は最新のデータ分析を大規模に強化し、他のクラウドデータウェアハウスと比較して最大 3 倍の料金パフォーマンスと 7 倍多いスループットを提供します。Redshift Serverless は、データウェアハウスインフラストラクチャを管理することなく、分析ワークロードを簡単にスケールするのに役立ちます。ゼロ ETL 統合により、ストリーミングサービス、運用データベース、サードパーティーのエンタープライズアプリケーションからのデータを簡単に接続することで、ほぼリアルタイムの分析が可能になります。複雑なデータパイプラインは必要ありません。Amazon Q in Redshift は生産性を高め、自然言語を通じて SQL オーサリングを簡素化します。Amazon Bedrock の構造化ナレッジベースとして Redshift を利用することで、生成 AI アプリケー
beth321 2014/02/15
aws

AmazonRedshift

amazon

redshift

services

DWH

クラウド

DataMining

*あとで

未カテゴリ
リンク
Fluentdが流行る理由がいま分かる、10の実践逆引きユースケース集 - Y-Ken Studio
ログデータを活用してビジネスに役立てようという最近のトレンドは理解できる。しかし、なぜログ収集ソフトウェアのFluentdがこれほどまで話題になるのか、不思議に感じている方もいるのではないだろうか。単にログデータを収集するならばsyslog-ngやrsyslogで十分ではないかという意見もあるだろう。それらは既存のログシステムを置き換えるプロダクトであり、Fluentdのそれとは根本的に異なる。Fluentdは、既存のログシステムに手を入れることなく新たにログの収集を行い、ストリームデータ処理を実現するプロダクトなのである。一般的にログデータはサーバの数だけ分散しており、それを定期実行処理で収集するということだけでも、なかなか骨の折れる仕事である。さらに集めるだけでなく、日々増え続けるログデータを活用できる形に加工してしかるべきデータストアに保管するということに挫折した方もいるのでは
beth321 2013/12/05
fluentd

it

DataMining

*あとで読む

fluend

フレームワーク

DevOps
リンク
クラウド上でデータウェアハウスを構築するAmazon Redshiftが公開。あらゆるデータ処理をクラウドへと誘う戦略
クラウド上でデータウェアハウスを構築するAmazon Redshiftが公開。あらゆるデータ処理をクラウドへと誘う戦略大規模なストレージとサーバなどのコンピュータリソースが必要となるデータウェアハウスを、クラウドで提供するサービス「Amazon Redshift」が、昨年秋以来の限定公開を終了し、一般ユーザーからも利用可能になったことが発表されました。 Amazon Redshiftは昨年開催されたイベント「re:Invent」で発表された大型の新サービス。Amazon Web Services シニアバイスプレジデント Andy Jassy氏は、「典型的なオンプレミスのデータウェアハウスが1テラバイトあたり年間1万9000ドルから2万5000ドルかかるのに対して、Redshiftでは1000ドルしかかからない計算になる。ここには10倍以上の開きがあり、圧倒的な違いだ。」と、Amazon
beth321 2013/11/23
DWH

amazon

AWS

cloud

DataMining

クラウド

*あとで

DB

amazon_redshift

datawarehouse
リンク
第30回データマイニング+WEB＠東京( #TokyoWebmining 30th)−機械学習活用・マーケティング祭り− を開催しました - hamadakoichi blog
2013/10/19 "第30回データマイニング+WEB ＠東京　( #TokyoWebmining 30th) −機械学習活用・マーケティング祭り−"を開催しました。第30回データマイニング+WEB＠東京 ( #TokyoWebmining 30th) ー機械学習活用・マーケティング祭り−: Eventbrite Google グループ会場提供し運営を手伝って下さったニフティ株式会社のみなさん、どうもありがとうございました。素敵なトークを提供してくれた講師メンバーに感謝します。会場参加、USTREAM参加ともに多くの方々の参加を嬉しく思っています。参加者ID・バックグラウンド一覧：参加者Twitter List: Twitter List TokyoWebmining 30th 参加者セキココ：第30回データマイニング+WEB ＠東京セキココ (作成してくれた [
beth321 2013/10/20
twitter

機械学習

データマイニング

マーケティング

web

datamining

slideshare

machinelearning

presentation

Twitter
リンク
2013年秋版：データサイエンティストを目指すなら揃えておくべき10冊 - 渋谷駅前で働くデータサイエンティストのブログ
5ヶ月前に書いた記事がだいぶ陳腐化してきた*1気がするので、それ以降出版された書籍や、他にも学術的知識を得るだけでなく「データサイエンティストとして働く上で必要なスキル」について書かれた書籍などを加えて、「2013年秋版」の10冊をチョイスしてみました。これはあくまでも「データサイエンティストを目指す上で必要な素地が既にある程度備わっている人」向けのスタートアップとしての10冊です。実際にはこの10冊では知識が足りなくなる場面の方が多いので、その場合は適宜発展的な書籍に当たってどんどん独習していくことをお薦めします。逆に、本当にゼロからスタートする初学者の人にはこれでもかなり辛いかもなので、今回は見なかったことにしてください、ということで。。。そうそう、相変わらずですが僕個人はアフィリエイトやってないので、こちらのリンクから書籍を購入されても儲かるのは僕ではなくはてなです（笑）。（※
beth321 2013/10/09
統計学

学習

DataMining

統計

book

読書

statistics

データ

書籍

あとで
リンク
Apache Sparkってどんなものか見てみる（その１ - 夢とガラクタの集積場
こんにちは。 Kafkaを試している最中で微妙ですが、最近使えるのかなぁ、と情報を集めているのが「Apache Spark」です。 MapReduceと同じく分散並行処理を行う基盤なのですが、MapReduceよりも数十倍速いとかの情報があります。・・・んな阿呆な、とも思ったのですが、内部で保持しているRDDという仕組みが面白いこともあり、とりあえず資料や論文を読んでみることにしました。まず見てみた資料は「Overview of Spark」（http://spark.incubator.apache.org/talks/overview.pdf）です。というわけで、読んだ結果をまとめてみます。 Sparkとは？高速でインタラクティブな言語統合クラスタコンピューティング基盤 Sparkプロジェクトのゴールは？以下の2つの解析ユースケースにより適合するようMapReduceを拡張
beth321 2013/09/02
spark

hadoop

mapreduce

apache

Scala

データマイニング

機械学習

あとで読む

DataMining

prog
リンク
『データサイエンティスト養成読本』はゼロからデータサイエンティストを目指す人なら絶対に読むべき一冊 - 渋谷駅前で働くデータサイエンティストのブログ
執筆陣12人中8人が直接の知人友人というこの新刊書でございますが。データサイエンティスト養成読本 [ビッグデータ時代のビジネスを支えるデータ分析力が身につく! ] (Software Design plus) 作者: 佐藤洋行,原田博植,下田倫大,大成弘子,奥野晃裕,中川帝人,橋本武彦,里洋平,和田計也,早川敦士,倉橋一成出版社/メーカー: 技術評論社発売日: 2013/08/08メディア: 大型本この商品を含むブログ (4件) を見るもちろん僕も発刊が決まってAmazonに予約ページができた時点でポチりまして、読んでみたところあまりにも内容が素晴らしかったので早速現職場の図書コーナーに持ち込んだ次第です（笑）。ということで、僭越ながら書評など書かせて頂こうかと思います。ざっくり内容紹介正直言って、ものすごーーーく網羅的で非常によく出来ています。1ページ目から順に読んでいっても初学
beth321 2013/08/21
データサイエンティス

R

ビッグデータ

python

DataMining

book

hadoop

MyInterest

統計／R／機械学習

statistics
リンク
進撃の巨人を読んだことない人がデータだけでキャラを推測してみる - あんちべ！
はじめに最近超人気の漫画として私のTwitter TLを賑わす作品、その名も「進撃の巨人」。これだけ人気なんだからきっと面白いに違いないのですが、なんか絵が怖そうだし、人がバンバン死んでてグロいっぽいという噂を聞くので、なんとか漫画を読まずに、それでいて進撃の巨人のキャラについては知りたい、そう願う潜在的進撃の巨人ファンも全国に70万人くらいいらっしゃると思います。そこで、データから進撃の巨人にどんなキャラが登場するか推測してみましょう。扱うデータとして、pixivのタグ情報を利用します。商品レビューコメントなどとは違い、ファンの創作活動がダイレクトに反映されるサービスなので、そこに付与されるタグ情報は、ファンの熱（過ぎる）いメッセージが込められているに違いありません。今回、以下のような縛りを入れています。 1．勿論原作は見ない 2．pixivのタグ情報は参照するけど、
beth321 2013/08/05
データマイニング

アニメ

漫画

pixiv

統計

DataMining

データ

分析

python

data
リンク
「アクセス解析」における5つの真実 - Real Analytics （リアルアナリティクス）
最近、講演や勉強会などで、必ず伝えている内容を簡単に紹介します。アクセス解析に限らず、分析全般に期待を抱いているケースが多く、その幻想をぶち壊すぜ！！！というわけではないのですが、アクセス解析や分析を、ビジネスゴールにポジティブな影響を与えるために知っておいてほしい、5つの内容を紹介いたします。 Image from Flickr 1.仮説無ければデータを見ても意味が無いアクセス解析ツールを利用する上で最もやっていけないことは「なんとなくレポートを１つずつ見ていく」という事です。時間の無駄なだけではなく、特にツールを使いはじめた方にとっては出てくる用語の多さやレポートの量に、すぐに解析ツールが嫌いになってしまいます。何の目的もなく携帯電話の説明書を（最近は紙の説明書は少ないですが）最初から最後まで読むようなものです。データを見る前に仮説を立て、その仮説を確認するためにどのレポートを見れば
beth321 2013/07/09
*thresh25

#web

#Growth

#201307

アクセス解析

データマイニング

DataMining

ツール

WEB
リンク
DAUを評価指標から捨てた会社の話 #tokyowebmining
CEDEC2013にて発表させていただいた内容の一般公開用スライドです。ネットサービスの基本中の基本とされるKPI 「DAU（Daily Active Users）」。売上の分解にも使いやすく、複数のサービスを比較するときには必須の指標です。しかし、運営の現場では「ノイズが多くて使いにくい」「経営者（えらい人）にサービスの状況の誤解を与える」という扱いを受けがちな指標でもあります。セッションの内容 : 本セッションでは、ソーシャルゲームのDAUを題材に、測り方にほんの少し工夫（工夫の方法は汎用的なものです）を加えることで、DAUを現場の肌感覚にもあう指標に変身させる方法、特に、運営期間が長くなったサービスにおける課題抽出に活用する方法をご紹介します。発表日時 : 2013年8月23日(金) 16:30～17:30 詳細URL : http://cedec.cesa.or.jp/201
beth321 2013/05/21
marketing

DataMining

game

ドリコム

slideshare

アプリ

効果測定

statistics

drecom

サービス
リンク
1 2 次のページ