タグ

ビッグデータに関するshibacowのブックマーク (5)

  • ログ解析における統計値の妥当性 - wyukawa's diary

    ログ解析における統計値の妥当性をどうやって担保するのかは難しい問題だと思っていてぶっちゃけ最終的にはオレを信じろ、でも間違ってたらゴメンの世界な気がする。 社内で閉じていて外に出ない統計値ならまあいいんだけど、世の中そんな統計値ばかりではない。 例えばWebサービスを展開していてそこに広告を出稿してもらって売り上げをたてたいとする。広告を出す方としてはそのサイトにどれぐらいPV/UUがあるか知りたいと思うのは当然ですよね。 広告を出したら出したでインプレッション数が知りたいとかあるかもしれない。 このような統計値はログを集めて集計することによって求めるわけなんだけど、数値が正しいかどうかをどうチェックするかというのは難しい問題ですよね。 来ならいろんなバリエーションのテストデータを作ってテストするんでしょうけど、テストデータ作るの大変だし、このビッグデータ時代?にはどんなデータが来るかわ

    ログ解析における統計値の妥当性 - wyukawa's diary
  • ビックデータが生活や仕事を変える

    ビジネス書の杜 令和 大人のビジネスパーソンのための書籍紹介をコンセプトに、パソコン通信の時代から25周年になるのを機に、ブログ版として復活させます。 ビクター・マイヤー=ショーンベルガー、ケネス・クキエ(斎藤 栄一郎訳)「ビッグデータの正体 情報の産業革命が世界のすべてを変える」、講談社 (2013) <紙版><Kindle版> お奨め度:★★★★★+α ビックデータについて論じた唯一のだと言われている「Big Data: A Revolution That Will Transform How We Live, Work, and Think」の翻訳。ビックデータについて、その質を知りたい人は、必読。最近、JR東日Suicaのデータの販売を始めて話題になっている。これが何を意味しているかをきちんと理解できていないのであれば、自分のためにも読んでおくことをお奨めしたい一冊。 まず

    ビックデータが生活や仕事を変える
  • 初ボーナスが入ったら築5年のワンルームを買いましょう(データマイニングと不動産の話) - それ、僕が図解します。

    どうも、最近の仕事はビッグデータなRick08です。統計の手法を勉強しようと思って、不動産の取引事例のデータを回帰分析してみました。何しろ9万6千件の取引データが無料で公開されているので、データ分析の題材としてはもってこいです。図は東京都都心5区のワンルームマンションについて、築年数と平米単価の関係を散布図にしたものです。 92年-95年築の取引がすごく少ないですね。バブル期だけに建設も少なかったのでしょうか。多項式近似曲線(4次)が黒い線です。これを見ると、ある特徴がわかります。 建築5年〜10年ぐらいの間は値下がり率が5年で5%程度の美味しい期間。その後、平米単価は急降下します。そして、築20年以上になると、平米単価が40万円程度で安定します。 じゃあ、どんな物件を買えばいいのでしょうか。 当然、値下がりしにくいところがいいわけですが、緑の安定期のところのワンルームというと、実際には3

    初ボーナスが入ったら築5年のワンルームを買いましょう(データマイニングと不動産の話) - それ、僕が図解します。
  • 究極のデータサイエンティストVS至高のデータサイエンティスト - Analyze IT.

    ネットで面白いコピペを発見したので貼り付けておきますね。 山岡「こちらが我々の考える究極のデータサイエンティストです。」 京極「なんやて、経済学部出身やないか!ITに統計学、業務、この中で先の二つの技術的素養が必要なデータサイエンティストには理系出身者が定石やで山岡はん。」 山岡「確かに、数学のスキルが要求されるデータサイエンティストには普通の文系出身者は厳しい。しかし、彼の学部時代の専攻は計量経済学。実務では高度なアルゴリズムやビックデータの解析基盤の構築のスキルなんか当は必要ない、経済学の手法が求められているんだ。」 京極「なんやてっ!」 山岡「ビッグデータといっても、小売りの場合大きくて1千万件程度、普通のRDBMSで処理可能だし、非構造化データなんて必要ない。アルゴリズムもSPSSやRなんかのツールに入力して結果を解釈できれば十分なんだ。一方で、政府の統計を駆使して地域の需要を推

    究極のデータサイエンティストVS至高のデータサイエンティスト - Analyze IT.
  • データ分析の重要性を理解するための入門書5冊 - UNIX的なアレ

    はじめに 今回紹介するは玄人向けではなく「データ分析が重要そうだけど、なんだかよくわかんないと思っている人」向けです。 昨今ではデータマイニングという単語がエンジニアやマーケティング担当者のものだけでなく、経営レイヤーでも重要視されてきています。 ビッグデータというバズワード的なものも頻繁に言われ始めて、めんどくさい上司とかはとにかく口にし出すような状況ではないでしょうか?(想像です) 勉強しないと!と思いはするものの、統計やらHadoopやらRやら、それにまつわるものが多すぎて何から手をつけていいのかわからないもの。 というわけで、私が最近読んだ中でも「何ができるものなのか」という浅く広いテーマについて触れているをいくつか紹介します。 統計学 統計学が最強の学問である 作者:西内 啓ダイヤモンド社Amazon cakesの連載をまとめたですが、統計学がどういった分野に使われているの

    データ分析の重要性を理解するための入門書5冊 - UNIX的なアレ
  • 1