「DeNAの大規模データマイニング活用したサービス開発」 慶應義塾大学大学院 理工学研究科 2014年度下期 「ビックデータ実践論」 特別講義 の講義資料です。 実際の大規模データマイニング活用したサービス開発での各種挑戦、心がけていること、分散処理基盤、等、話しています。興味ある方はぜひ。Read less
![DeNAの大規模データマイニング活用したサービス開発](https://cdn-ak-scissors.b.st-hatena.com/image/square/9d679312825eb58b7da6f82a27109398afde848c/height=288;version=1;width=512/https%3A%2F%2Fcdn.slidesharecdn.com%2Fss_thumbnails%2Fdena-150402061747-conversion-gate01-thumbnail.jpg%3Fwidth%3D640%26height%3D640%26fit%3Dbounds)
世界中で話題になっているパナマ文書。各国で政権を揺るがすような事態にもなっていますが、純粋にデータとしてみた場合、これは計算機やデータ解析に関わる人々にも面白いものだと思います。データの中身や背景などについてはさんざん報道されていますのでここでは触れません。一方、現場でどのような作業が行われているのかはあまり報道されていません。現実的な問題として、人力ではどうしようもない量のリークデータを手に入れた場合、調査報道機関はどんなことを行っているのでしょうか?私も以前から疑問に思っていたのですが、先日あるデータベース企業と、データ分析アプリケーションを作成する会社のブログにて、その実際の一端を窺うことができる投稿がありました: Panama Papers: How Linkurious enables ICIJ to investigate the massive Mossack Fonseca
外国人旅行者は何をつぶやいたか 4月7日17時52分 旅行に行った際、ツイッターなどのSNSを通して、楽しい出来事や美しい風景をいろんな人と共有したくなりますよね。去年1年間、日本を訪れた外国人旅行者は1341万人を超え過去最高となりましたが、その旅行者たちも国内のさまざまな場所で体験したことについてツイッター上で“つぶやいて”います。 このようなデータを活用して、外国人旅行者の動向を分析し、新たな観光ルートの構築につなげようという取り組みが始まっています。観光庁を担当している経済部の寺田麻美記者が紹介します。 外国人旅行者に“つぶやかれる”日本 「Tokyo skytree,see U next year!」(スカイツリー、また来年!) 「It’s a ramen kind of day!」(ラーメン日和!) これらは、日本を訪れた外国人旅行者がツイッターに投稿した“つぶやき”です。
プライバシー保護データマイニング(PPDM)手法の種類、特徴を理解する:匿名化技術とPPDM(2)(1/3 ページ) 現在、プライバシーの侵害なく安全にデータを公開するためにさまざまな手法が考案され始めています。企業が保有するデータには資産価値があるものが多く含まれますが、それらが一部の権限者しか活用できないようでは、商品開発や企画検討、サービス開発に時間がかかることになります。本稿では今後、データを利用する上で理解しておく必要にせまられるであろう、プライバシー保護データマイニングの手法の概要や課題、現状を紹介します。 連載バックナンバー はじめに 個人情報やプライバシーを含むようなデータを、プライバシー侵害なく安全に活用して、ビジネスや社会の改善に結び付けるには「プライバシー保護データマイニング(PPDM)」の利用やその適正なリスク評価方法を内部に確立していることが重要になってきます。
3大ボトルネックを解消すれば終わり、ではない これまでの連載では、ディスクI/O、CPU、ネットワークI/Oの3つの観点で、大規模データを処理するときのボトルネックの傾向と改善点について説明しました。それらの改善策をすべてを実施すれば、もう何も心配する必要はないのでしょうか? 残念ながら、よかれと思って実施したチューニングがほかの箇所に影響を与える可能性があります。最終回となる今回は、その具体例を見ていきましょう。 データを圧縮した場合、CPUボトルネックが生じやすくなる 大規模データを扱うときは、データの総量を小さくしてストレージ装置のコストを削減するため、圧縮機能の利用を検討することが多いです。 データを圧縮する場合、RDBMSの機能を利用するのが一般的です。たとえばOracle Databaseには、以下のように何種類かの圧縮機能があります。 標準圧縮機能 OLTP圧縮機能(Adva
初心者にも分かりやすいと人気のHead Firstシリーズのデータ解析バージョン。大量で複雑なデータを分析し、意味のある適切な情報にまとめて把握し、効果的に見せる手法は、ビジネスでも研究でも必須のスキルです。本書ではデータの収集、整理、視覚化、解析、そしてプレゼンテーションというデータ解析の手順に沿って、実際に手を動かしながらやさしく解説します。エクセルやRをはじめさまざまなデータ解析ツールを使って効果的なデータの提示方法が身につくように構成されています。『Head First Statistics』とともに読むとさらに効果的。実践で役立つ情報が満載の一冊です。 関連ファイル サンプルコード 正誤表 ここで紹介する正誤表には、書籍発行後に気づいた誤植や更新された情報を掲載しています。以下のリストに記載の年月は、正誤表を作成し、増刷書籍を印刷した月です。お手持ちの書籍では、すでに修正が施され
みなさん、次のようなことができたらいいと思ったことはありませんか? 「顧客ごとに、適したタイミングと内容で、DMを送信できたら……」 「CGM系サイトへの誹謗中傷なんかのスパム投稿を自動識別できたら……」 「サーバの負荷が高まるタイミングを事前に予測できたら……」 一見するとこれらは実現していることがまったく異なりますが、じつはある共通点があります。それは「データを分析し、その結果を活用している」という点です。 Data is Kingの考えから得られるメリット かつてAmazonに在籍していたRonny Kohaviは「Data is King at Amazon」と言い、データの重要性を説きました。事実、Amazonはユーザの購買履歴から商品のレコメンデーションを行い、ユーザのサイト内の遷移履歴やクリック率からサイト構造の改善を行うなど、データを徹底的に活用していることで知られています
連載バックナンバー はじめに 今回は時系列分析について紹介します。ビジネスで生成されるデータの多くが“時間“の項目を含む時系列データで、1週間の傾向や季節変動などを分析する際など、さまざまな場面で時系列の分析が必要となります。 時系列分析(Time Series Analysis)とは? 時系列分析(Time Series Analysis)は、株価や為替レートなど金融関連の時間とともに変化するデータを分析し予測するために発達してきました。「時系列計量経済学(Time Series Econometrics)」などの学問の中で論じられているデータ分析の中では、比較的歴史のあるテーマです。それだけに、定式化するためのさまざまなモデルが提案されていて、1つの変量を分析するためのモデルだけでも、表1のように多くのモデルがあります。 略称 説明 AR
『MarkeZine』が主催するマーケティング・イベント『MarkeZine Day』『MarkeZine Academy』『MarkeZine プレミアムセミナー』の 最新情報をはじめ、様々なイベント情報をまとめてご紹介します。 MarkeZine Day
何万ものお客様が Amazon Redshift を毎日使用して、データ分析ワークロードを最新化し、ビジネスに役立つインサイトを提供しています。Amazon Redshift は、フルマネージド型で AI を活用した超並列処理 (MPP) アーキテクチャにより、ビジネス上の意思決定を迅速かつコスト効率よく行えます。AWS のゼロ ETL アプローチは、すべてのデータを統合して、強力な分析、ほぼリアルタイムのユースケース、AI/ML アプリケーションを実現します。最先端のセキュリティ機能ときめ細かなガバナンスに支えられて、組織、AWS リージョン、さらにはサードパーティのデータプロバイダー内および組織間で、データを簡単かつ安全に共有および共同編集できます。
ログデータを活用してビジネスに役立てようという最近のトレンドは理解できる。 しかし、なぜログ収集ソフトウェアのFluentdがこれほどまで話題になるのか、不思議に感じている方もいるのではないだろうか。単にログデータを収集するならばsyslog-ngやrsyslogで十分ではないかという意見もあるだろう。 それらは既存のログシステムを置き換えるプロダクトであり、Fluentdのそれとは根本的に異なる。Fluentdは、既存のログシステムに手を入れることなく新たにログの収集を行い、ストリームデータ処理を実現するプロダクトなのである。 一般的にログデータはサーバの数だけ分散しており、それを定期実行処理で収集するということだけでも、なかなか骨の折れる仕事である。さらに集めるだけでなく、日々増え続けるログデータを活用できる形に加工してしかるべきデータストアに保管するということに挫折した方もいるのでは
クラウド上でデータウェアハウスを構築するAmazon Redshiftが公開。あらゆるデータ処理をクラウドへと誘う戦略 大規模なストレージとサーバなどのコンピュータリソースが必要となるデータウェアハウスを、クラウドで提供するサービス「Amazon Redshift」が、昨年秋以来の限定公開を終了し、一般ユーザーからも利用可能になったことが発表されました。 Amazon Redshiftは昨年開催されたイベント「re:Invent」で発表された大型の新サービス。Amazon Web Services シニアバイスプレジデント Andy Jassy氏は、「典型的なオンプレミスのデータウェアハウスが1テラバイトあたり年間1万9000ドルから2万5000ドルかかるのに対して、Redshiftでは1000ドルしかかからない計算になる。ここには10倍以上の開きがあり、圧倒的な違いだ。」と、Amazon
2013/10/19 "第30回 データマイニング+WEB @東京 ( #TokyoWebmining 30th) −機械学習活用・マーケティング 祭り−"を開催しました。 第30回 データマイニング+WEB@東京 ( #TokyoWebmining 30th) ー機械学習活用・マーケティング 祭り−: Eventbrite Google グループ 会場提供し運営を手伝って下さった ニフティ株式会社 のみなさん、どうもありがとうございました。素敵なトークを提供してくれた講師メンバーに感謝します。会場参加、USTREAM参加ともに多くの方々の参加を嬉しく思っています。 参加者ID・バックグラウンド一覧: 参加者Twitter List: Twitter List TokyoWebmining 30th 参加者セキココ:第30回 データマイニング+WEB @東京 セキココ (作成してくれた [
5ヶ月前に書いた記事がだいぶ陳腐化してきた*1気がするので、それ以降出版された書籍や、他にも学術的知識を得るだけでなく「データサイエンティストとして働く上で必要なスキル」について書かれた書籍などを加えて、「2013年秋版」の10冊をチョイスしてみました。 これはあくまでも「データサイエンティストを目指す上で必要な素地が既にある程度備わっている人」向けのスタートアップとしての10冊です。実際にはこの10冊では知識が足りなくなる場面の方が多いので、その場合は適宜発展的な書籍に当たってどんどん独習していくことをお薦めします。逆に、本当にゼロからスタートする初学者の人にはこれでもかなり辛いかもなので、今回は見なかったことにしてください、ということで。。。 そうそう、相変わらずですが僕個人はアフィリエイトやってないので、こちらのリンクから書籍を購入されても儲かるのは僕ではなくはてなです(笑)。 (※
こんにちは。 Kafkaを試している最中で微妙ですが、最近使えるのかなぁ、と情報を集めているのが「Apache Spark」です。 MapReduceと同じく分散並行処理を行う基盤なのですが、MapReduceよりも数十倍速いとかの情報があります。 ・・・んな阿呆な、とも思ったのですが、内部で保持しているRDDという仕組みが面白いこともあり、 とりあえず資料や論文を読んでみることにしました。 まず見てみた資料は「Overview of Spark」(http://spark.incubator.apache.org/talks/overview.pdf)です。 というわけで、読んだ結果をまとめてみます。 Sparkとは? 高速でインタラクティブな言語統合クラスタコンピューティング基盤 Sparkプロジェクトのゴールは? 以下の2つの解析ユースケースにより適合するようMapReduceを拡張
執筆陣12人中8人が直接の知人友人というこの新刊書でございますが。 データサイエンティスト養成読本 [ビッグデータ時代のビジネスを支えるデータ分析力が身につく! ] (Software Design plus) 作者: 佐藤洋行,原田博植,下田倫大,大成弘子,奥野晃裕,中川帝人,橋本武彦,里洋平,和田計也,早川敦士,倉橋一成出版社/メーカー: 技術評論社発売日: 2013/08/08メディア: 大型本この商品を含むブログ (4件) を見る もちろん僕も発刊が決まってAmazonに予約ページができた時点でポチりまして、読んでみたところあまりにも内容が素晴らしかったので早速現職場の図書コーナーに持ち込んだ次第です(笑)。ということで、僭越ながら書評など書かせて頂こうかと思います。 ざっくり内容紹介 正直言って、ものすごーーーく網羅的で非常によく出来ています。1ページ目から順に読んでいっても初学
はじめに 最近超人気の漫画として私のTwitter TLを賑わす作品、その名も「進撃の巨人」。 これだけ人気なんだからきっと面白いに違いないのですが、 なんか絵が怖そうだし、人がバンバン死んでてグロいっぽいという噂を聞くので、 なんとか漫画を読まずに、それでいて進撃の巨人のキャラについては知りたい、 そう願う潜在的進撃の巨人ファンも全国に70万人くらいいらっしゃると思います。 そこで、データから進撃の巨人にどんなキャラが登場するか推測してみましょう。 扱うデータとして、pixivのタグ情報を利用します。 商品レビューコメントなどとは違い、ファンの創作活動がダイレクトに反映されるサービスなので、 そこに付与されるタグ情報は、ファンの熱(過ぎる)いメッセージが込められているに違いありません。 今回、以下のような縛りを入れています。 1.勿論原作は見ない 2.pixivのタグ情報は参照するけど、
最近、講演や勉強会などで、必ず伝えている内容を簡単に紹介します。アクセス解析に限らず、分析全般に期待を抱いているケースが多く、その幻想をぶち壊すぜ!!!というわけではないのですが、アクセス解析や分析を、ビジネスゴールにポジティブな影響を与えるために知っておいてほしい、5つの内容を紹介いたします。 Image from Flickr 1.仮説無ければデータを見ても意味が無い アクセス解析ツールを利用する上で最もやっていけないことは「なんとなくレポートを1つずつ見ていく」という事です。時間の無駄なだけではなく、特にツールを使いはじめた方にとっては出てくる用語の多さやレポートの量に、すぐに解析ツールが嫌いになってしまいます。何の目的もなく携帯電話の説明書を(最近は紙の説明書は少ないですが)最初から最後まで読むようなものです。データを見る前に仮説を立て、その仮説を確認するためにどのレポートを見れば
CEDEC2014にて発表させていただいた内容です。 発表日時 : 2014年9月4日(木) 13:30~14:30 公式URL : http://cedec.cesa.or.jp/2014/session/BP/16553.html 中継URL : http://www.ustream.tv/channel/cedec-ust-c Mobage Developers blogでの予告 : http://developers.mobage.jp/blog/notice-of-cedec2014 反応 : togetter等でとりまとめ予定 セッションの内容 ■ビッグデータという言葉が一般化しつつある昨今、より重要なのは、データを適切に解釈し、価値を生み出す「アナリティクス(分析)」であると言われています。ゲームアプリやソーシャルゲームの世界においても、データからどのようにゲームを面白くする
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く