タグ

statisticsに関するyanbeのブックマーク (11)

  • DAUを評価指標から捨てた会社の話 #tokyowebmining

    CEDEC2014にて発表させていただいた内容です。 発表日時 : 2014年9月4日(木) 13:30~14:30 公式URL : http://cedec.cesa.or.jp/2014/session/BP/16553.html 中継URL : http://www.ustream.tv/channel/cedec-ust-c Mobage Developers blogでの予告 : http://developers.mobage.jp/blog/notice-of-cedec2014 反応 : togetter等でとりまとめ予定 セッションの内容 ■ビッグデータという言葉が一般化しつつある昨今、より重要なのは、データを適切に解釈し、価値を生み出す「アナリティクス(分析)」であると言われています。ゲームアプリやソーシャルゲームの世界においても、データからどのようにゲームを面白くする

    DAUを評価指標から捨てた会社の話 #tokyowebmining
  • データサイエンティストを目指すに当たって、ぜひ揃えておきたいテキストたちを挙げてみる - 渋谷駅前で働くデータサイエンティストのブログ

    追記2 2015年末の時点での最新リストはこちらです。 追記 この記事の5カ月後にもう少し更新した内容の「お薦めリスト」記事を2つupしてますのでそちらもお読みください。 2013年秋版:データサイエンティストを目指すなら揃えておくべき10冊 - 六木で働くデータサイエンティストのブログ 2013年秋版:データ分析初心者にお薦めする「基礎を当にゼロから学ぶ」ためのテキスト5冊 - 六木で働くデータサイエンティストのブログ 今回は、僕が実際に自然科学の研究者からデータサイエンティストへと転身するに当たって、いつも脇に置いていたテキストや同僚が参考にしていたテキストをまとめて紹介します。 ※以下僕も持っているものには「*」を打ってあります*1*2*3 統計学 統計学入門 (基礎統計学) 作者: 東京大学教養学部統計学教室出版社/メーカー: 東京大学出版会発売日: 1991/07/09メ

    データサイエンティストを目指すに当たって、ぜひ揃えておきたいテキストたちを挙げてみる - 渋谷駅前で働くデータサイエンティストのブログ
  • ビッグデータ雑感 - 廿TT

    はじめに 神林氏は、「統計の基的な考え方は、大きなデータを全部見なくても、サンプリングで傾向が導き出せるという点。こういう統計技術があったため、今までセンサーデータ*1を採らなくても、分析ができていた。ビッグデータを声高に唱える人は、こういう統計の基礎の習得が不十分なのではないか?と思われることが多い」と言い放つ。 http://ascii.jp/elem/000/000/687/687170/ 「ビッグデータ!ビッグデータ!」と主張する人に「サンプリングしたらええがな」というのは多分禁句.厳格には全データの方使った方がいいってのは確かなんだが,ぶっちゃけ大して変わらん.— koji-toさん (@SavaMiso) 2012年7月21日 基的にはこれらの意見は正しいと思う。けどちょっとちがう見かたもできる。 うん。だからサンプリングしてるよ データセットからもう一回サンプリングしなお

    ビッグデータ雑感 - 廿TT
  • One Race, Every Medalist Ever

    Usain Bolt’s 9.63 set an Olympic record in the 100. So how far ahead of every Olympic medalist is he? Related Article » Sources: "The Complete Book of the Olympics" by David Wallechinsky and Jaime Loucky, International Olympic Committee; Amateur Athletic Assocation; Photographs: Chang W. Lee/The New York Times, Getty Images, International Olympic Committee

  • A/Bテストの数理 - 第1回:人間の感覚のみでテスト結果を判定する事の難しさについて - - doryokujin's blog

    データ解析の重要性が認識されつつある(?)最近でさえも,A/Bテストを始めとしたテスト( = 統計的仮説検定:以後これをテストと呼ぶ)の重要性が注目される事は少なく,またテストの多くが正しく実施・解釈されていないという現状は今も昔も変わっていないように思われる。そこで,シリーズではテストを正しく理解・実施・解釈してもらう事を目的として,テストのいろはをわかりやすく説明していきたいと思う。 スケジュール スケジュール 第1回 [読み物]:『人間の感覚のみでテスト結果を判定する事の難しさについて』:人間の感覚のみでは正しくテストの判定を行うのは困難である事を説明し,テストになぜ統計的手法が必要かを感じてもらう。 第2回 [読み物]:『「何をテストすべきか」意義のある仮説を立てるためのヒント』:何をテストするか,つまり改善可能性のある効果的な仮説を見いだす事は,テストの実施方法うんぬんより

    A/Bテストの数理 - 第1回:人間の感覚のみでテスト結果を判定する事の難しさについて - - doryokujin's blog
  • TechCrunch | Startup and Technology News

    The RAW Dating App aims to shake up the dating scheme by shedding the fake, TikTok-ified, heavily filtered photos and replacing them with a more genuine, unvarnished experience. The app…

    TechCrunch | Startup and Technology News
  • 研究者の多くはエラーバーの意味をろくに理解していない - 音風景ブログ

    研究者の多くはエラーバーの意味をろくに理解していない 今日、私は認知科学日記の読者がエラーバーをどれだけ理解しているかを問うオンライン投票を開始した――エラーバーとはよくグラフに乗っている、あの小さなI字型の、統計学の賜物である。正しく理解していないだろうということは、大体予想済みである。なぜそんなに自信があるかって? それは2005年、サラ・ベリア(Sarah Belia)らのチームが、最前線の心理学、神経科学、医学ジャーナルに論文を掲載したことがある数百人の研究者を対象に行った研究成果があるからである。彼らのうちエラーバーと有意さの関係について正しい知識を示したのはほんの一握りであった。論文を掲載した研究者たちができないなら、どうしてカジュアルなブログの読者ができることを前提としてよいだろうか? 信頼区間 まずそもそも、問題の解決法を知るため、少々の説明が必要である。信頼区間というコン

    研究者の多くはエラーバーの意味をろくに理解していない - 音風景ブログ
  • コンプガチャの数理 -コンプに必要な期待回数の計算方法について- - doryokujin's blog

    目次 1. 『コンプガチャの数理 -コンプに必要な期待回数の計算方法について-』 2. 『「数学ゲームデザイン」というアプローチ』 3. 『コンプガチャの数理 -ガイドラインに基づいたゲームデザイン その1-』 4. 『コンプガチャの数理 -ガイドラインに基づいたゲームデザイン その2-』 目的 コンプガチャのコンプに必要な回数を求める問題は「The Coupon Collector's Problem」と呼ばれる数学モデルの枠組みに沿った美しい問題である事を述べ,いくつかの有用な結果を示す。 ※ あくまで個人研究のつもりで書いたので,色々不備があるかもしれません。その際は一言頂けると助かります。 定義 コンプガチャ問題を Coupon Collector's Problem に準じた形で書くと以下の様になる: 「全部で n 種類のアイテムがあって,1つのガチャの中にアイテムが1つ入って

    コンプガチャの数理 -コンプに必要な期待回数の計算方法について- - doryokujin's blog
  • Amazon.co.jp: Amazonランキングの謎を解く: 確率的な順位付けが教える売上の構造 (DOJIN選書): 哲弥,服部: 本

    Amazon.co.jp: Amazonランキングの謎を解く: 確率的な順位付けが教える売上の構造 (DOJIN選書): 哲弥,服部: 本
  • Rで系列パターンマイニング - sfchaos's blog

    頻出パターンマイニング(Frequent pattern mining)は,頻出するアイテムの組み合わせを抽出する一連の手法を指します.頻出パターンマイニングの代表例として相関ルールのマイニングがありますが,この手法を用いるとPOSデータからビールとおむつを一緒に購入する消費者が多いことなどの知見が得られます. 一方で,頻出パターンマイニングでは,順序性のあるパターンは抽出できません.例えば,ビールを購入した消費者がその後おむつを購入する傾向があることは,頻出パターンマイニングでは分かりません. このように順序性のあるパターンを抽出する手法は,系列パターンマイニング(Sequential pattern mining)と呼ばれており,1995年にIBM研究所のR.AgrawalとR.Srikantによって提唱されました. RのarulesSequencesパッケージを使用すると,系列パター

    Rで系列パターンマイニング - sfchaos's blog
    yanbe
    yanbe 2011/07/24
    deliciousのデータセットを使ってユーザのタグ付けの傾向をマイニング。興味深い
  • 多変量解析

    データの中には、多くのトレンド(傾向)が必ず隠れています。このトレンドをつかむことができるのならば優位に意思決定を進めることができます。 このページでは、データの中からトレンドを見つける多変量解析の手法を紹介します。 ことわざで「木を見て森を見ず(You can't see the forest wood for the trees. )」といわれるように、データマイニングの分野ではマクロ(巨視的)な視点で全体を捉える能力が求められます。 とはいえ、データの要素数が多くなると全体像を捕らえることが困難になるのです。 コンピュータは局所的な数値の集合として全体を把握していますので、意味ある情報として全体を見ることが不得意です。逆に人間には、もともと空間的に全体像を捉える能力が超越しています。 例をあげて解説します。 左図は写真です。写真も「画素」と呼ばれる一つ一つの情報の集まりで全

  • 1