「DeNAの大規模データマイニング活用したサービス開発」 慶應義塾大学大学院 理工学研究科 2014年度下期 「ビックデータ実践論」 特別講義 の講義資料です。 実際の大規模データマイニング活用したサービス開発での各種挑戦、心がけていること、分散処理基盤、等、話しています。興味ある方はぜひ。Read less
はじめに これから全7回に渡ってTreasure Data Platformを使ったデータ分析の紹介をします。教科書はこちらになります。 Treasure Data Intro for Data Enthusiast!! from Takahiro Inoue 本シリーズの目的は2つ。 Treasure Data Platform Service の概要を理解してもらう。 本シリーズを理解すればデータ分析が誰でも容易にレポーティングが可能になる。 今やデータサイエンティスト() という言葉は,高度な分析手法を駆使してあらゆる問題を解決するプロフェッショナル集団という響きがありますが,それは本質ではありません。データサイエンティストの本質は, 意思決定者(経営者,ディレクター,マネージャー)が容易に理解できるようなシンプルかつ説得力のある分析結果を提供することができること, データ収集からレ
ログデータを活用してビジネスに役立てようという最近のトレンドは理解できる。 しかし、なぜログ収集ソフトウェアのFluentdがこれほどまで話題になるのか、不思議に感じている方もいるのではないだろうか。単にログデータを収集するならばsyslog-ngやrsyslogで十分ではないかという意見もあるだろう。 それらは既存のログシステムを置き換えるプロダクトであり、Fluentdのそれとは根本的に異なる。Fluentdは、既存のログシステムに手を入れることなく新たにログの収集を行い、ストリームデータ処理を実現するプロダクトなのである。 一般的にログデータはサーバの数だけ分散しており、それを定期実行処理で収集するということだけでも、なかなか骨の折れる仕事である。さらに集めるだけでなく、日々増え続けるログデータを活用できる形に加工してしかるべきデータストアに保管するということに挫折した方もいるのでは
5ヶ月前に書いた記事がだいぶ陳腐化してきた*1気がするので、それ以降出版された書籍や、他にも学術的知識を得るだけでなく「データサイエンティストとして働く上で必要なスキル」について書かれた書籍などを加えて、「2013年秋版」の10冊をチョイスしてみました。 これはあくまでも「データサイエンティストを目指す上で必要な素地が既にある程度備わっている人」向けのスタートアップとしての10冊です。実際にはこの10冊では知識が足りなくなる場面の方が多いので、その場合は適宜発展的な書籍に当たってどんどん独習していくことをお薦めします。逆に、本当にゼロからスタートする初学者の人にはこれでもかなり辛いかもなので、今回は見なかったことにしてください、ということで。。。 そうそう、相変わらずですが僕個人はアフィリエイトやってないので、こちらのリンクから書籍を購入されても儲かるのは僕ではなくはてなです(笑)。 (※
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く