タグ

統計に関するaki77のブックマーク (20)

  • murak.net

    murak.net 2024 著作権. 不許複製 プライバシーポリシー

    murak.net
  • 統計屋による新社会人のための統計系入門書お薦め一覧 - あんちべ!

    稿では統計学・データマイニング・機械学習関連書籍について 内容が易しいこと。数学力(特に微積・線形代数)を求められないこと 入手しやすいこと。絶版や学会に入らないと入手不可などではない、値段が安いこと 実務に繋げやすいこと。 持ち運びしやすいこと。忙しい新社会人が通勤中や休み時間ポケットからさっと取り出し、継続して勉強出来ること を主眼に選定したお薦め書籍を紹介します。 (満たせない要望も多いですが) 主な対象者は、文系で数学や統計学をやってこなかった、 プログラミングもわからない(Excelで四則演算やマウス操作くらいは使える) けどいつかマーケティングやデータマイニングやってやるぜ! って考えてる新卒の方です。 筆者自身は経済学科出身の文系で、あまり数学力に自信がないなりに Web企業でデータマイニングをしているという人間です。 ここで紹介している内容で 「統計学・機械学習・データマ

    統計屋による新社会人のための統計系入門書お薦め一覧 - あんちべ!
  • バッドデータハンドブック

    TOPICS Data Science , Database 発行年月日 2013年09月 PRINT LENGTH 310 ISBN 978-4-87311-640-2 原書 Bad Data Handbook FORMAT PDF 値の欠落、形式から外れたレコード、エンコーディング形式が不明な文字列。「バッドデータ」と聞いた時に思い浮べる典型例です。しかし、これら以外にも「そもそもデータにアクセスできない」「消えてしまった」「昨日と違っている」「データはあるが形式が処理に適していない」など、データを収集・分析するエンジニアは、これらの「バッドデータ」と正面から向きあわなければならないことが多々あります。書では、これらの問題のあるデータのパターンを紹介し、その対処法を解説しています。 19人のデータ分析の専門家が、自らの経験を通して得た、さまざまな教訓、実践的な方法論等を詳述した書は

    バッドデータハンドブック
  • さらば!データサイエンティスト

    2. 自己紹介  比戸将平(HIDO Shohei)  TwitterID: @sla  専門:データマイニング、機械学習  経歴:  2006-2012: IBM東京基礎研究所データ解析グループ  機械学習(特に異常検知)のアルゴリズム研究開発  お客様案件でデータ解析プロジェクトに従事  2012-: 株式会社プリファードインフラストラクチャー  大規模オンライン分散機械学習基盤Jubatusチームリーダー  2013-: Preferred Infrastructure America, Inc.  Chief Research Officer 2

    さらば!データサイエンティスト
    aki77
    aki77 2013/08/26
  • 書評:「統計学が最強の学問である」→ はい。

    このを手に取ったのは単に売れているという理由からではない。むしろ話題になっても「なんかミーハーなタイトルだなー」ぐらいにしか思わず、あまり興味がわかなかった。 ところが、先日同僚の木村氏に誘われて参加した飲み会で、なんと著者の西内氏と話すという幸運な機会に恵まれた。西内氏は話が非常に上手で、ユーモアのセンスや頭の回転の速さ、そして匂い立つリア充臭を醸し出していた。著者に興味がわけば、著書にも興味がわくのが人情である。そして読んだ結果、とても面白いだったので皆さんに紹介しようと思う。 統計学のいろはが分かる書はミーハーなタイトルとは裏腹に、ストーリーに沿ってとても上手に「統計学のエッセンス」を伝えてくれる。専門書ではないので統計学のディテールには踏み込まないものの、要点を的確にピックアップしており「統計学ってどんなもの?どんなふうに使うの?」というクエスチョンに見事に答えている。一般向

    書評:「統計学が最強の学問である」→ はい。
  • 非エンジニアにもオススメ。数学が苦手な統計初心者がR言語を触ってみる。

    こんにちは。海原です。 ここ最近、統計学が流行していますね。「統計学が最強の学問である」がきっかけになっているのでしょうか。数年前に比べてマーケティングが重要視される今日、統計の需要が増えたのかもしれません。私はまだこのを読んでいませんが、読もうと思った矢先にたまたま統計ツールRに出会いまして、調べながら少しいじってみました。Rを使った感触から申し上げますと、SQLを叩いて好きなデータをピックアップするよりもずっと簡単で小気味良いのです。 他の統計ツールには色々な種類があるようですが、よく知られるものとしてIBMのSPSS (IBM)(有償)があります。 その点、RはMac/Win両方に対応しており無償です。またSPSSに劣らない機能を備えており、統計学者の間でデファクトスタンダードとなっているようです。 Rに関して検索すれば丁寧な解説サイトがたくさんありますので、インストールから何の心

    非エンジニアにもオススメ。数学が苦手な統計初心者がR言語を触ってみる。
    aki77
    aki77 2013/07/20
  • データサイエンティスト レベル表 - shakezoの日記

    プログラマレベルというページがとても面白かったのでデータサイエンティスト版つくってみました。データサイエンティストの定義は[twitter:@TJO_datasci]さんのQuantitative analystに準拠しつつ技術面に焦点をあててレベル分けしています。 レベル0 このレベルの人はデータ分析をしたことがありません。最近テレビでよく目にするビッグデータについては何だが凄そうというイメージは持っています。そしてデータサイエンティストという言葉を知らない人が大半です。 ありがちな発言 「ビッグデータってすごいらしいね」 レベル1 レベル1の人達は仕事や大学等の課題でExcelを用いた集計や簡単な相関分析などを実施したことがあります。ただし分析にあまり興味を持っておらずデータをニヤニヤしながら眺めている上位レベルの人達を変人だと思っています。彼らにとってビッグデータやデータサイエンティ

    データサイエンティスト レベル表 - shakezoの日記
    aki77
    aki77 2013/07/16
  • Amazon CAPTCHA

    Amazon CAPTCHA
  • 「数式が苦手でも統計やりたいのでRで試す」は現実問題としてはアリだと思う - 渋谷駅前で働くデータサイエンティストのブログ

    むしろ数式が苦手だけど統計を勉強したいという人はRをやるといいかもしれない - Line 1: Error: Invalid Blog('by Esehara' ) ものすごくブコメを集めてるので、読んでみました。で、結論から言うと「四の五の言う人はいるかもしれないけどデータ分析の世界への入り口としてはアリ」だと思った次第です。 ということを書くと、どこからともなく「ハァ?ちゃんとした原理も何も知らずにツールだけ使って分かった気になっても意味ないよ?」みたいなツッコミが飛んできそうな気がしますが。。。有体に書くと、確かにアカデミックの世界ではそうだと思います*1。けれども、ビジネスの現場ではこれも一つのチョイスだと言ってよいと思うのです。以下にその理由を挙げていきます。 「目の前の問題に統計学がどんな結果を返して見せてくれるのか」が分かることは、理解する上で最も手っ取り早い 世の中の人の多

    「数式が苦手でも統計やりたいのでRで試す」は現実問題としてはアリだと思う - 渋谷駅前で働くデータサイエンティストのブログ
    aki77
    aki77 2013/07/09
  • 「小学生のための統計学習」まなぼう統計

    東京都総務局統計部 Statistics Division, Bureau of General Affairs 東京都新宿区西新宿二丁目8番1号 電話:03-5321-1111(都庁代表) Copyright (C) 2000~ Tokyo Metropolitan Government. All Rights Reserved.

  • 「毎日の数字を追いかけ、毎日改善する」ことの意外な落とし穴 - 渋谷駅前で働くデータサイエンティストのブログ

    (※今回の記事の内容はかなり難解かもです) 大竹文雄の経済脳を鍛える(2月13日分記事) 幾何ブラウン運動と見せかけの回帰 - My Life as a Mock Quant 得てして多くの企業では、「毎日の数字(売上高・利益・在庫etc.)を追いかけ」、「その結果を元手に毎日改善する」ということを日々励行しているのではないかと思います。 ところで、こんな体験したことはありませんか? 「毎日毎日、物凄く一生懸命数字を見ながら頑張ってカイゼンし続けて、確かに頑張った時は数字は上がったし、頑張りが足りない時は数字が下がった。それに一喜一憂しつつもずっと物凄く頑張り続けた・・・でも、あれからもう数ヶ月経ったのに全体としては数字は下がってきている。どうしてなんだろう???」 なるほど、もしかしたらその時の改善努力が正しくなかったのかもしれません。でも、実は「そもそも改善努力と数字とは何の関係もなか

    「毎日の数字を追いかけ、毎日改善する」ことの意外な落とし穴 - 渋谷駅前で働くデータサイエンティストのブログ
    aki77
    aki77 2013/04/17
  • [PDF]統計学入門 - 小波秀雄

  • web-analytics-or-die.org - このウェブサイトは販売用です! - web analytics or die リソースおよび情報

    This webpage was generated by the domain owner using Sedo Domain Parking. Disclaimer: Sedo maintains no relationship with third party advertisers. Reference to any specific service or trade mark is not controlled by Sedo nor does it constitute or imply its association, endorsement or recommendation.

    web-analytics-or-die.org - このウェブサイトは販売用です! - web analytics or die リソースおよび情報
  • Google Sites: Sign-in

    Not your computer? Use a private browsing window to sign in. Learn more about using Guest mode

    aki77
    aki77 2013/02/25
  • ABテストのための有意性検定 - Qiita

    こんにちは、awakiaです。今回のアドベントカレンダー、結構、機械学習ガチなメンツが揃ったみたいなので、俺も対抗してやる!!とも思ったのですが、研究を離れて2年が経とうとしているので、真っ向勝負とか今更無理なことに気づきました...w なので、開発者の皆も知っておくと便利なデータサイエンスの話をすることにします。 ABテストと検定の必要性 Webサービスを運営していると、見た目の問題だけでも結構悩みます。ボタンの色や文言などの小さなところから、トップページに盛り込む内容をどうするかまで、いろいろです。 今回、「ABテスト」と呼ぶものは、画面に占める大きさ等にかかわらず、パターンAとパターンBを作って、そのどちらがいいかを判断するための実験と定義することにします。 なお、ABテストの呼び名には結構流派があるので別の名前で聞いたことがあるかもしれません。例えば、Googleのマット・カッツ先

    ABテストのための有意性検定 - Qiita
    aki77
    aki77 2013/02/20
    ABテスト
  • データ分析の重要性を理解するための入門書5冊 - UNIX的なアレ

    はじめに 今回紹介するは玄人向けではなく「データ分析が重要そうだけど、なんだかよくわかんないと思っている人」向けです。 昨今ではデータマイニングという単語がエンジニアやマーケティング担当者のものだけでなく、経営レイヤーでも重要視されてきています。 ビッグデータというバズワード的なものも頻繁に言われ始めて、めんどくさい上司とかはとにかく口にし出すような状況ではないでしょうか?(想像です) 勉強しないと!と思いはするものの、統計やらHadoopやらRやら、それにまつわるものが多すぎて何から手をつけていいのかわからないもの。 というわけで、私が最近読んだ中でも「何ができるものなのか」という浅く広いテーマについて触れているをいくつか紹介します。 統計学 統計学が最強の学問である 作者:西内 啓ダイヤモンド社Amazon cakesの連載をまとめたですが、統計学がどういった分野に使われているの

    データ分析の重要性を理解するための入門書5冊 - UNIX的なアレ
  • 少しの手間で説得力アップ!意外と使える官公庁の統計データ利用法 : LINE Corporation ディレクターブログ

    こんにちは、ウェブサービス部の鳴海です。 突然ですが、あなたが24歳男性だったとすると、同い年の年男は日全国で何人いるでしょう? また36歳男性には、同じく年男の同級生は何人いるでしょうか? 答えは、24歳男性が64万人、36歳男性が87万人。実は、世代間で20万人以上の差があります。また、今年の年男・年女世代の中で、最も人口の少ない12歳女性(57万人)と最も人口の多い48歳男性(89万人)では1.5倍以上の開きがあります。最近、身の回りに小学生の女の子よりも中年男性の方が多いなと思っていましたが、気のせいではなかったようです。 同級生の人口なんて普段意識することはないですが、仕事をする上ではたまに大事だったりします。いま自分が手がけているサービスのターゲットはどの層で、人口で言えばどのくらいの規模なのか、前後の世代に比べてどのような傾向があるのかなどは感覚的に掴めているといいですね

    少しの手間で説得力アップ!意外と使える官公庁の統計データ利用法 : LINE Corporation ディレクターブログ
  • A/Bテストの数理 - 第1回:人間の感覚のみでテスト結果を判定する事の難しさについて - - doryokujin's blog

    データ解析の重要性が認識されつつある(?)最近でさえも,A/Bテストを始めとしたテスト( = 統計的仮説検定:以後これをテストと呼ぶ)の重要性が注目される事は少なく,またテストの多くが正しく実施・解釈されていないという現状は今も昔も変わっていないように思われる。そこで,シリーズではテストを正しく理解・実施・解釈してもらう事を目的として,テストのいろはをわかりやすく説明していきたいと思う。 スケジュール スケジュール 第1回 [読み物]:『人間の感覚のみでテスト結果を判定する事の難しさについて』:人間の感覚のみでは正しくテストの判定を行うのは困難である事を説明し,テストになぜ統計的手法が必要かを感じてもらう。 第2回 [読み物]:『「何をテストすべきか」意義のある仮説を立てるためのヒント』:何をテストするか,つまり改善可能性のある効果的な仮説を見いだす事は,テストの実施方法うんぬんより

    A/Bテストの数理 - 第1回:人間の感覚のみでテスト結果を判定する事の難しさについて - - doryokujin's blog
  • “統計の基礎を無視している”Hadoop使いが考えるビッグデータ

    Hadoopをバッチ処理の高速化に活用しているノーチラス・テクノロジーズは、ビッグデータのブームに真っ向から異論を唱える。「ビッグデータは中身のないバズワード」と断言する代表取締役社長 神林飛志氏に、その真意を聞いた。 Hadoop=ビッグデータは大きな誤解 ノーチラス・テクノロジーズは、基幹系システム向けのミドルウェアを手がける国産ベンチャー。Webサービスのように決して派手ではないが、「そもそもダウンすると、飛行機が飛ばないとか、病院で人が死んでしまうとか、電車が動かないとか、生活に影響が出る分野」(神林氏)という、まさにミッションクリティカルな領域のITで、同社の製品は活用されている。 同社の「Asakusa Framework」は、Hadoopを活用した分散処理により、基幹系バッチの高速化を実現する。神林氏は、「Hadoopというと、WebやSNS系、BIやデータ解析での使い方がメ

    “統計の基礎を無視している”Hadoop使いが考えるビッグデータ
  • 統計を学びたい人へ贈る、統計解析に使えるデータセットまとめ - ほくそ笑む

    はじめに 統計解析の手法を学ぶのに、教科書を読むのは素晴らしい学習方法です。 しかし、教科書で理論的なことを学んだだけでは、統計手法を使いこなせるようにはなりません。 統計解析手法を身につけるには、実際のデータについて手法を適用し、パラメータを変えるなどの試行錯誤を行い、結果を考察するというような経験を積むことが大切です。 それでは実際のデータをどうやって手に入れましょうか? 実験や調査をして実際のデータを得るのは大変でお金もかかります。 幸運なことに、世の中には適度なサイズの自由に使えるデータがたくさん存在します。 例えば、統計言語 R には、100以上ものデータセットがデフォルトで付属しています。 ただし、不幸なことに、それらのほとんどは英語で説明が書かれています。 英語は、いつかは乗り越えなければならない壁ですが、最初のうちはちょっと避けて通りたいところです。 というわけで、今日は、

    統計を学びたい人へ贈る、統計解析に使えるデータセットまとめ - ほくそ笑む
  • 1