
FIT2012で行われた「ビジネスで生きる機械学習技術」セッションの招待講演資料です。 http://www.ipsj.or.jp/event/fit/fit2012/program/data/html/event/event_A-7.html 【講演概要】 世の中で得られる知見の多くは、何らかの観測対象の時間変化や、観測対象グループにおける珍しい個体の出現を捉えたものと考えることができます。特に急速な変化や異常な個体の検出するための異常検知技術は、ビジネスにおけるデータ収集・蓄積インフラの浸透とともに応用が広がっています。従来は、蓄積されたデータを目で見て確認する、閾値を設けてアラートを出す、あるいは経験に基づいて異常パターンをルール化する、などのアプローチが主流でした。しかしながら、収集できるデータの変数と量が飛躍的に増大する中で、比較的単純かつ過去に起きた異常のみ扱えるルールベース手
「統計的決定理論」とは何か?はじめてこの名前を聞いた方も多いかと思います。まずはざっくりと統計的決定理論について説明してみましょう。 統計的決定理論とは、 「うーん、あっちが良いかもしれないなあ。いや、こっちかなあ。」 と決めかねているときに、 「男ならウダウダ軟弱なこと言ってないで一点に決めてみろ。」 と背中を押してくれる理論のことです。 単に背中を押すだけでなく、1つの答えを決定するための指針と方法を与えてくれます。男前な理論ですね。 とはいえ、この説明ではいったい何のことだか、よくわからないですよね(笑) 以下では、真面目に統計的決定理論について説明てみたいと思います。ちょっと長いですが、お付き合い頂けるとうれしいです。 1. 統計的決定とは ある確率分布にしたがう確率変数 θ を統計的に「妥当な」一点 α に決めるとき、この α を統計的決定といいます。 たとえば、θ の確率分布を
統計の話題で、こういう誤りをよく見るなあ、とか、ここら辺はややこしいなあ、的なものを、エッセイ風に書いてみます。 各トピックの最後に、参考資料を紹介したりします。 色々な話題を扱うので、エントリー全体で、このくらいの知識を持っている層向け、みたいな想定はしていないです。下に行くほど、知っている人向けになる、という感じ。 標本数と標本の大きさ 調べたい集団全体から採り出した個体の数の事を、標本数と書くのをよく見かける。でも正確にはこれは、標本の大きさと言う。この違いは、標本という言葉をどのように捉えるか、に起因するもの。標本を、調べたい集団に属する要素と考えるか、含まれる集合と捉えるか。前者で考えると標本数を使う事になるけれど、抽出した集まりそのものを標本とすれば、標本数とは言えなくなる。で、集合に属する要素の数の事を、集合論では大きさというので、それを踏まえて、標本の大きさと言う。 たとえ
先日の合同企業説明会でご来場いただいた就活生の皆さんにこの話題をだいぶ話したので、続きの意も込めてちょっと書いてみようと思います。実はその時お話した内容について、後日データ分析者同士の飲み会を開いた時に色々議論になったもので(笑)、そのフィードバックも兼ねるかなぁという。 そうそう、この記事でも引き合いに出しますが「アルゴリズム実装系」「アドホック分析系」というデータサイエンティストの分類については、以下のslideshareをお読みあれ。 最新業界事情から見るデータサイエンティストの「実像」 from Takashi J Ozaki そして予めお断りしておきますが、今回の記事も基本的には僕の個人的なデータ分析業界での経験と見聞に基づいて独断を並べているだけで、言ってみればただのポジショントークです。何かしら客観的な数値的根拠とかそういうものがあるわけではないので、悪しからず。。。 バズワ
(※Stan v2.4.0以降でインストール方法に若干変更があります!詳しくはこの記事の中ほどをご覧ください) さて、年初の抱負でも語ったように今年はStanを頑張って会得していこうと思います。理由は簡単で、ありったけの要素を詰め込んでMCMCサンプラーでガンガン推定していくような階層ベイズモデリングに自分の興味としても惹かれる上に、実務でも必要になりそうな見通し*1だからです。 Stan: Project Home Page 既に以前の記事でも簡単に触れてますが、StanはC++ベースのコンパイラで高速化させたMCMCサンプラーです。文法も簡単でなおかつ高速なので、BUGSでは時間がかかり過ぎて辛かった計算でも比較的サクサク回せます。 このシリーズを通して参考にするのは、@berobero11さんのブログです。 Small Data Scientist Memorandum 本当にもう、
講義のーと の内容を詳しく説明したものです 著者: 久保拓弥 出版社: 岩波書店, シリーズ「確率と情報の科学」 編集: 甘利俊一,麻生英樹,伊庭幸人 このペイジの省略 URL: http://goo.gl/Ufq2 刊行と まちがい・修正一覧) 第 1 刷刊行: 2012 年 5 月 18 日 第 15 刷刊行: 2018 年 3 月 15 日 原稿時点の PDF ファイル (参考用) 目次, さくいん, まえがき 韓国語版 (翻訳は滋賀大の李鍾賛さん, 2017-09-15) 「統計モデリング入門」ネット上のあれこれ (のごく一部) 丸善・ジュンク堂書店の「今年驚いた! 1 冊」の「驚きの出版賞」 に選ばれました! (web archive, KuboLog 2012-12-20) Amazon カスタマーレビュー はてな出版物 -- 言及ブログへのリンクなどがあります! ブクログ,
肝心のMCMCの勉強はどこ行ったゴルァとか怒られるとアレなんですが、先にツールの使い方覚えてしまおうと思ってStanで簡単な練習をやってみました。ちなみに参考にした資料はこちら。 Stanチュートリアルの資料を作成しました。 - Analyze IT. StanTutorial 割とよく一緒に飲んでるid:EulerDijkstra氏のブログがとにかく役に立ちました。ありがとさんです!!! あと、MCMCやるのはこれが初めてという人は最低限久保先生の緑本ぐらいは読んでおいて損はないと思います。ただしStanではなくWinBUGSを{R2WinBUGS}で回す系ですが。 データ解析のための統計モデリング入門――一般化線形モデル・階層ベイズモデル・MCMC (確率と情報の科学) 作者: 久保拓弥出版社/メーカー: 岩波書店発売日: 2012/05/19メディア: 単行本購入: 16人 クリック
野球のスコア こんなツイートを見つけました. 本日は神宮で東都大学野球を観戦後、Hさん、Gさんと外苑前の居酒屋で一杯。Gさんから「野球のスコアで一番多いのは何対何だと思う?」とお題。Gさんによれば、過去のMLBの試合を全て調べた人がいて、そのスコアは「3ー1」だったそうだ。続く— ふくださん (@fukudasun) 2014, 4月 22 知りませんでした. 手元にMLBのデータがあるので, 調べてみました. データの取得 http://retrosheet.orgからデータをダウンロードします. メジャーリーグの試合の, 全てのイベントに関するデータが取得できます. 下記参照. Rで野球データを取得したい - 300億円欲しい とりあえず, 1921年から2013年までのデータを取得しました. 全部で2GBくらいです. 準備は整いました. 早速調査しましょう. 2013年のスコア別試合
ある国際会議のkeynote Speechの中で紹介されていた話。非常に面白かった。 Wired: How a Math Genius Hacked OkCupid to Find True Love 「いまどきの若い男は、なんでもコンピュータか!」とか思われるかもしれないけど、何をしたのかを読んでみると「これって、単なるナンパの方が楽だったんじゃないか?」と思わされる。 登場人物のスペック この人の経歴がアメリカ的。 名前:Chris McKinlay (35歳) 経歴 2001年:Middlebury College を卒業。専攻は中国語 同年:世界貿易センターで中国語から英語への翻訳のアルバイト。アルバイトを辞めた5週間後に9・11。 〜2002年:その後、友達に誘われて、an offshoot of MIT’s famed professional blackjack team に
東京大学医学部卒(生物統計学専攻)。東京大学大学院医学系研究科医療コミュニケーション学分野助教、大学病院医療情報ネットワーク研究センター副センター長、ダナファーバー/ハーバードがん研究センター客員研究員を経て、現在はデータを活用する様々なプロジェクトにおいて調査、分析、システム開発および人材育成に従事する。著書に『統計学が最強の学問である』(ダイヤモンド社)、『1億人のための統計解析』(日経BP社)などがある。 統計学が最強の学問である 2013年1月に発売されるや、ビジネス・経済書としては異例のベストセラーとなり、統計学ブームの端緒となった『統計学が最強の学問である』。同書の発刊1周年と30万部突破を記念して行われた、著者の西内啓氏と二人の科学者[多摩大学情報社会学研究所所長・公文俊平氏、物理学者・楽天株式会社執行役員・北川拓也氏]との対談を公開する。 バックナンバー一覧 35万部を突破
(※※※続編記事書きました→「使い分け」ではなく「妥当かどうか」が大事:重回帰分析&一般化線形モデル選択まわりの再まとめ) 今ちょうどadtech tokyo 2013の会期中で、職場からも近い&会社から行ってこいという指示が出たということで僕も色々セッションを聞いたり企業ブースのお話を聞いたりしてる*1ところです。 ところで、いくつかのセッションの中でキーワードとして「重回帰分析」という言葉が出てきてました。ま、それ自体はこのブログでもRによるデータ分析絡みで頻出だし、ぶっちゃけありふれた手法と言って良いでしょう。やりようによっては普通にExcelでもできますし、それだけ人口に膾炙していると言って良いのかもですね。 ただし。意外にも内部のパラメータというか細かい手法の分岐というか、それこそ普通の線形モデルvs.一般化線形モデル(バリエーション多数)があることを無視して漫然と重回帰分析をや
おそらく初心者向けな「フリーソフトではじめる機械学習入門」を読んだ。 おそらく、というのは多少説明が足りない箇所がある本なので、そのへんが受け入れられない人もいるかなあ、と思ったので。 以下、読んだ感想を書いておくので購入を検討している人は参考にどうぞ。 本書の扱う範囲 "データマイニングの基礎"と"はじめてのパターン認識"の内容を合わせたような感じ。決定木やルール学習などの古典的な手法からはじまって識別関数・識別モデル・生成モデルと一通り扱っている。またグラフィカルモデルや系列ラベリングなども少々。さらに多腕バンディット問題、POMDP、深層学習など。新しめの話題も扱っている。 本書の特色 1章あたり10-20ページと少なく、有名どころの手法に絞って解説してあるので最初から通して読むのが苦にならない。"はじめてのパターン認識"も良い入門書だけど、あれを通して読むのは重い、というひとはこち
X-12-ARIMAはアメリカセンサス局(U.S. Census Bureau)で開発された季節調整法(Seasonal Adjustment)です。 日本でも月次や4半期の統計の季節調整法として最もよく使われています。しかし、実際に使ってみようという場合、日本語の資料が少なく、統計的な知識も必要なため、かなり高いハードルがあります。ここでは、とりあえず X-12-ARIMA を使ってみたいという人向けにページを作成してみました。実際に使って見ると、それほど難しいということはないので、多くの人に使ってもらえるようになればと思っています。 毎月の売り上げや4半期の決算数字を比較する場合、季節によって売り上げが変動することが多く、前月や前期と比較することが困難なため、普通は前年同月比や前年同期比を使います。しかし、前年同月比では最近の動きがよくわからないという欠点があります。X-12-ARIM
広野 彩子 日本経済新聞社NAR編集部次長 朝日新聞記者を経て日経ビジネス記者、2013年から日経ビジネス副編集長。日経ビジネスオンラインでコラムの執筆・編集を担当。入山章栄氏の著作『ビジネススクールでは学べない 世界最先端の経営学』を担当。 この著者の記事を見る
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く