[B! statistics] yanbeのブックマーク

DAUを評価指標から捨てた会社の話 #tokyowebmining

CEDEC2014にて発表させていただいた内容です。発表日時 : 2014年9月4日(木) 13:30～14:30 公式URL : http://cedec.cesa.or.jp/2014/session/BP/16553.html 中継URL : http://www.ustream.tv/channel/cedec-ust-c Mobage Developers blogでの予告 : http://developers.mobage.jp/blog/notice-of-cedec2014 反応 : togetter等でとりまとめ予定セッションの内容 ■ビッグデータという言葉が一般化しつつある昨今、より重要なのは、データを適切に解釈し、価値を生み出す「アナリティクス（分析）」であると言われています。ゲームアプリやソーシャルゲームの世界においても、データからどのようにゲームを面白くする

yanbe 2013/08/16

リンク

データサイエンティストを目指すに当たって、ぜひ揃えておきたいテキストたちを挙げてみる - 渋谷駅前で働くデータサイエンティストのブログ

追記2 2015年末の時点での最新リストはこちらです。追記この記事の5カ月後にもう少し更新した内容の「お薦め本リスト」記事を2つupしてますのでそちらもお読みください。 2013年秋版：データサイエンティストを目指すなら揃えておくべき10冊 - 六本木で働くデータサイエンティストのブログ 2013年秋版：データ分析初心者にお薦めする「基礎を本当にゼロから学ぶ」ためのテキスト5冊 - 六本木で働くデータサイエンティストのブログ今回は、僕が実際に自然科学の研究者からデータサイエンティストへと転身するに当たって、いつも脇に置いていたテキストや同僚が参考にしていたテキストをまとめて紹介します。 ※以下僕も持っているものには「＊」を打ってあります*1*2*3 統計学統計学入門 (基礎統計学) 作者: 東京大学教養学部統計学教室出版社/メーカー: 東京大学出版会発売日: 1991/07/09メ

yanbe 2013/05/13

statistics

リンク

ビッグデータ雑感 - 廿TT

はじめに神林氏は、「統計の基本的な考え方は、大きなデータを全部見なくても、サンプリングで傾向が導き出せるという点。こういう統計技術があったため、今までセンサーデータ*1を採らなくても、分析ができていた。ビッグデータを声高に唱える人は、こういう統計の基礎の習得が不十分なのではないか？と思われることが多い」と言い放つ。 http://ascii.jp/elem/000/000/687/687170/ 「ビッグデータ！ビッグデータ！」と主張する人に「サンプリングしたらええがな」というのは多分禁句．厳格には全データの方使った方がいいってのは確かなんだが，ぶっちゃけ大して変わらん．— koji-toさん (@SavaMiso) 2012年7月21日基本的にはこれらの意見は正しいと思う。けどちょっとちがう見かたもできる。うん。だからサンプリングしてるよデータセットからもう一回サンプリングしなお

yanbe 2013/03/03

リンク

One Race, Every Medalist Ever

Usain Bolt’s 9.63 set an Olympic record in the 100. So how far ahead of every Olympic medalist is he? Related Article » Sources: "The Complete Book of the Olympics" by David Wallechinsky and Jaime Loucky, International Olympic Committee; Amateur Athletic Assocation; Photographs: Chang W. Lee/The New York Times, Getty Images, International Olympic Committee

yanbe 2012/08/06

statistics

リンク

A/Bテストの数理 - 第1回：人間の感覚のみでテスト結果を判定する事の難しさについて - - doryokujin's blog

データ解析の重要性が認識されつつある（?）最近でさえも，A/Bテストを始めとしたテスト（ = 統計的仮説検定：以後これをテストと呼ぶ）の重要性が注目される事は少なく，またテストの多くが正しく実施・解釈されていないという現状は今も昔も変わっていないように思われる。そこで，本シリーズではテストを正しく理解・実施・解釈してもらう事を目的として，テストのいろはをわかりやすく説明していきたいと思う。スケジュールスケジュール第1回 [読み物]：『人間の感覚のみでテスト結果を判定する事の難しさについて』：人間の感覚のみでは正しくテストの判定を行うのは困難である事を説明し，テストになぜ統計的手法が必要かを感じてもらう。第2回 [読み物]：『「何をテストすべきか」意義のある仮説を立てるためのヒント』：何をテストするか，つまり改善可能性のある効果的な仮説を見いだす事は，テストの実施方法うんぬんより本質

yanbe 2012/05/21

statistics

リンク

TechCrunch | Startup and Technology News

The RAW Dating App aims to shake up the dating scheme by shedding the fake, TikTok-ified, heavily filtered photos and replacing them with a more genuine, unvarnished experience. The app…

yanbe 2012/05/17

リンク

研究者の多くはエラーバーの意味をろくに理解していない - 音風景ブログ

研究者の多くはエラーバーの意味をろくに理解していない今日、私は認知科学日記の読者がエラーバーをどれだけ理解しているかを問うオンライン投票を開始した――エラーバーとはよくグラフに乗っている、あの小さなI字型の、統計学の賜物である。正しく理解していないだろうということは、大体予想済みである。なぜそんなに自信があるかって? それは2005年、サラ・ベリア(Sarah Belia)らのチームが、最前線の心理学、神経科学、医学ジャーナルに論文を掲載したことがある数百人の研究者を対象に行った研究成果があるからである。彼らのうちエラーバーと有意さの関係について正しい知識を示したのはほんの一握りであった。論文を掲載した研究者たちができないなら、どうしてカジュアルなブログの読者ができることを前提としてよいだろうか? 信頼区間まずそもそも、問題の解決法を知るため、少々の説明が必要である。信頼区間というコン

yanbe 2012/05/16

statistics

リンク

コンプガチャの数理 -コンプに必要な期待回数の計算方法について- - doryokujin's blog

目次 1. 『コンプガチャの数理 -コンプに必要な期待回数の計算方法について-』 2. 『「数学的ゲームデザイン」というアプローチ』 3. 『コンプガチャの数理 -ガイドラインに基づいたゲームデザインその1-』 4. 『コンプガチャの数理 -ガイドラインに基づいたゲームデザインその2-』目的コンプガチャのコンプに必要な回数を求める問題は「The Coupon Collector's Probl em」と呼ばれる数学モデルの枠組みに沿った美しい問題である事を述べ，いくつかの有用な結果を示す。 ※ あくまで個人研究のつもりで書いたので，色々不備があるかもしれません。その際は一言頂けると助かります。定義コンプガチャ問題を Coupon Collector's Probl em に準じた形で書くと以下の様になる：「全部で n 種類のアイテムがあって，1つのガチャの中にアイテムが1つ入って

yanbe 2012/05/09

statistics

リンク

Amazon.co.jp: Amazonランキングの謎を解く: 確率的な順位付けが教える売上の構造 (DOJIN選書): 哲弥,服部: 本

yanbe 2012/01/24

via http://d.hatena.ne.jp/walf443/20120123/1327325402

リンク

Rで系列パターンマイニング - sfchaos's blog

頻出パターンマイニング(Frequent pattern mining)は,頻出するアイテムの組み合わせを抽出する一連の手法を指します.頻出パターンマイニングの代表例として相関ルールのマイニングがありますが,この手法を用いるとPOSデータからビールとおむつを一緒に購入する消費者が多いことなどの知見が得られます. 一方で,頻出パターンマイニングでは,順序性のあるパターンは抽出できません.例えば,ビールを購入した消費者がその後おむつを購入する傾向があることは,頻出パターンマイニングでは分かりません. このように順序性のあるパターンを抽出する手法は,系列パターンマイニング(Sequential pattern mining)と呼ばれており,１９９５年にIBM研究所のR.AgrawalとR.Srikantによって提唱されました. RのarulesSequencesパッケージを使用すると,系列パター

yanbe 2011/07/24

deliciousのデータセットを使ってユーザのタグ付けの傾向をマイニング。興味深い

リンク

多変量解析

データの中には、多くのトレンド（傾向）が必ず隠れています。このトレンドをつかむことができるのならば優位に意思決定を進めることができます。このページでは、データの中からトレンドを見つける多変量解析の手法を紹介します。ことわざで「木を見て森を見ず（You can't see the forest wood for the trees. ）」といわれるように、データマイニングの分野ではマクロ（巨視的）な視点で全体を捉える能力が求められます。とはいえ、データの要素数が多くなると全体像を捕らえることが困難になるのです。コンピュータは局所的な数値の集合として全体を把握していますので、意味ある情報として全体を見ることが不得意です。逆に人間には、もともと空間的に全体像を捉える能力が超越しています。例をあげて解説します。左図は写真です。写真も「画素」と呼ばれる一つ一つの情報の集まりで全

yanbe 2011/06/07

statistics

リンク

はてなブックマーク

タグ

関連タグで絞り込む (7)

statisticsに関するyanbeのブックマーク (11)

お知らせ

今週のはてなブックマーク数ランキング（2024年7月第2週）

はてなブックマーク透明性レポート（2024年 2月-2024年4月）

今週のはてなブックマーク数ランキング（2024年7月第1週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス