タグ

statisticsに関するnakackのブックマーク (59)

  • ヒストグラムベースの異常検知アルゴリズムHBOSとは何か

    HBOSの概要 HBOSはヒストグラムベース、統計ベースの教師なし異常検知アルゴリズムです。非常にシンプルでわかりやすく、論文も読みやすいです。ラベルがついていないデータセットに対して適用し、各データについて異常度(Anomaly Score)を算出してくれます。利用者は結果と相談しながらこの異常度に対して閾値を決め、それ以上を異常として扱うような形で使うことができます。こちらの研究レポートでHBOSが速度・検出精度ともに優秀であることが紹介されています。 ヒストグラムベースとはどういうことか HBOSでは各特徴それぞれについて全データの値からヒストグラムを作成し、それぞれのビン(ヒストグラムのいわゆる縦棒のこと)について、所属するデータの数が多ければそのビンに所属するデータは正常、少ないならば異常という考え方でスコアが付けられます。個人的にはクラスタリングでの異常検知にも近い考え方だと思

    ヒストグラムベースの異常検知アルゴリズムHBOSとは何か
  • Practical Data Science with R and Python: 実践的データサイエンス

    実践的データサイエンス はじめに データ分析のためにコンピュータを利用する際、RおよびPython言語のいずれかを使うことが多いと思います(Julia言語は高レベル・高パフォーマンスな技術計算のための言語で今後期待が膨らみます)。これらの2つの言語では、データ操作や可視化、データ分析、モデリングに使われるライブラリが豊富にあり、 どれを使うのが良いのか迷うような状況が続いていました。しかしその状態は落ち着きを見せ、成熟期を迎えつつあります。 R言語ではパイプ演算子の登場によりデータフレームに対する操作に大きな変化が生じ、tidyverseによるデータ読み込みからデータ整形、可視化までが可能になりました。またtidyverseのような、機械や人間の双方が扱いやすいパッケージが増えてきました。特にR言語の強力な一面でもあったデータ分析の操作はtidymodelsに代表されるパッケージがユーザの

  • 確率統計-機械学習その前に v2.0

    確率統計の勉強会資料を大幅に改定しました。数式を最小限にし、統計分析のためのトピックを総覧的に資料化しています。 2021/11/20 内容や記載を拡充しました(合わせて SpeakerDeckに移動しました) https://speakerdeck.com/hidekatsu_izuno/que-lu-tong-ji-ji-jie-xue-xi-sofalseqian-ni

    確率統計-機械学習その前に v2.0
  • Rによる多変量解析と可視化

    KH Coderの(サポートページへ) 実例 クラスター分析 ※当に分かりやすくて、それでいて大切なことがきちんと書いてある クラスター分析とその応用 ※もう一歩高度な内容へ パソコン多次元尺度構成法 ※Kruskalの非計量多次元尺度法について比較的読みやすい解説あり Applied Multidimensional Scaling ※「よくある間違い」だけでも読んでおけば役立つかも。 対応分析入門 原理から応用まで ※対応分析(コレスポンデンス分析)を主にあつかう数少ない和書 Correspondence Analysis in Practice 2nd Ed. ※対応分析を詳しく知りたい方へ ネットワーク分析 ※読みやすい入門書 ネットワーク分析 第2版 ※Rを使った実践なので、KH Coderの共起ネットワークのカスタマイズにも Self-Organizing Maps 3r

  • Box-Cox変換で変数を正規分布に近づける - About connecting the dots.

    よくある問題 実データを使って分析するときによくあるのが,すっごく偏った分布のデータで,正規性を仮定した分析を行いたいという状況です.具体的には,回帰分析の独立変数に年収とかを使う場合なんかです.回帰分析だと,独立変数が正規分布をしていないと正しく係数や有意性の推定を行えないことがあります*1. Box-Cox変換 そんなときに役立つのが,データを正規分布に近づけてくれるBox-Cox変換という手法です.具体的な数式は以下の通り*2.偏った分布を持つxを正規分布に近づけるようなλを推定しましょう,という話なわけです. Rでこれを行うには,{car}パッケージにあるpowerTransform関数を使います*3*4.データはヘルプの例にも出ているWool$cyclesを使います.このデータについては,めっちゃ分布が右に偏ってますね. > install.packages("car") > l

  • ビッグデータ解析・機械学習・人工知能の発展に伴って「パレートの法則(80:20の法則)」が進化している

    経済において全体の数値の大部分は一部の要素が生み出しているという経験則「パレートの法則」は、さまざまな分野で成り立つことが知られています。コンピューター・ソフトウェアが進化する中で、パレートの法則は変容し進化しています。 AI Is Going to Change the 80/20 Rule https://hbr.org/2017/02/ai-is-going-to-change-the-8020-rule パレートの法則は、イタリアの経済学者でエンジニアでもあるウィルフレッド・パレート氏が発見した概念で、実例を元に「80:20の法則」と呼ばれることがあるべき乗則です。例えば、売上全体の80%は全体の20%の顧客が生み出しているという事例や、売上の80%は全体の2割の銘柄によって生み出されているというような事例が当てはまり、後者の事例は「ロングテール」モデルとして、ウェブ2.0時代に登

    ビッグデータ解析・機械学習・人工知能の発展に伴って「パレートの法則(80:20の法則)」が進化している
  • 『ダメな統計学――悲惨なほど完全なる手引書』の翻訳出版|Colorless Green Ideas

    科学における統計の誤用について説明した『ダメな統計学――悲惨なほど完全なる手引書』というの日語版が翻訳され、出版されることになった。この翻訳書について、どういった内容であるか、どういった人におすすめであるかを紹介する。 はじめに このたび、私の翻訳した『ダメな統計学――悲惨なほど完全なる手引書』というが勁草書房から出版されることになった。2017年1月27日ごろから書店などで手に入るようになる予定である。 アレックス・ラインハート〔著〕・西原史暁〔訳〕.(2017).『ダメな統計学――悲惨なほど完全なる手引書』東京:勁草書房. 訳書版元サイトでの紹介:ダメな統計学――悲惨なほど完全なる手引書|勁草書房 訳書版元サイトでの紹介その2(けいそうビブリオフィル):訳書の「はじめに」を閲覧可能 [1] 原書:Reinhart, A. (2015). Statistics Done Wrong

    『ダメな統計学――悲惨なほど完全なる手引書』の翻訳出版|Colorless Green Ideas
  • 総務省統計局、データサイエンス講座の第2弾「社会人のためのデータサイエンス演習」4/19開講 | Web担当者Forum

    総務省統計局、データサイエンス講座の第2弾「社会人のためのデータサイエンス演習」4/19開講 | Web担当者Forum
  • 基礎からのベイズ統計学入門 輪読会 #1 (2015/11/17 19:00〜)

    新機能 connpass API をメジャーバージョンアップし、「connpass API v2」を公開しました。APIの詳細な仕様や利用方法につきましては、 APIリファレンス をご確認ください。なお、旧バージョンの connpass API v1 は2025年末に廃止される予定です。 新機能 イベント参加者限定の懇親会やミニイベント開催に対応した「サブイベント機能」をリリースしました。 イベント運営を簡素化し、参加者の登録漏れや確認漏れを防ぐのにご活用ください。 主催の方はサブイベントを作成するから、参加者の方はサブイベントが設定されているイベントに参加するから詳細をご確認いただけます。

    基礎からのベイズ統計学入門 輪読会 #1 (2015/11/17 19:00〜)
  • 【統計学】尤度って何?をグラフィカルに説明してみる。 - Qiita

    %matplotlib inline import matplotlib.pyplot as plt import matplotlib.cm as cm import numpy as np import seaborn as sns import numpy.random as rd m = 10 s = 3 min_x = m-4*s max_x = m+4*s x = np.linspace(min_x, max_x, 201) y = (1/np.sqrt(2*np.pi*s**2))*np.exp(-0.5*(x-m)**2/s**2) plt.figure(figsize=(8,5)) plt.xlim(min_x, max_x) plt.ylim(0,max(y)*1.1) plt.plot(x,y) plt.show() この図は、平均$\mu$、標準偏差$\sigma$

    【統計学】尤度って何?をグラフィカルに説明してみる。 - Qiita
  • データセット一覧 : DoDStat@d

    DoDStat@d データ指向統計データベース Data oriented Database of Statistics based on Analysis Scenario/Story

  • 統計を学びたい人へ贈る、統計解析に使えるデータセットまとめ - ほくそ笑む

    はじめに 統計解析の手法を学ぶのに、教科書を読むのは素晴らしい学習方法です。 しかし、教科書で理論的なことを学んだだけでは、統計手法を使いこなせるようにはなりません。 統計解析手法を身につけるには、実際のデータについて手法を適用し、パラメータを変えるなどの試行錯誤を行い、結果を考察するというような経験を積むことが大切です。 それでは実際のデータをどうやって手に入れましょうか? 実験や調査をして実際のデータを得るのは大変でお金もかかります。 幸運なことに、世の中には適度なサイズの自由に使えるデータがたくさん存在します。 例えば、統計言語 R には、100以上ものデータセットがデフォルトで付属しています。 ただし、不幸なことに、それらのほとんどは英語で説明が書かれています。 英語は、いつかは乗り越えなければならない壁ですが、最初のうちはちょっと避けて通りたいところです。 というわけで、今日は、

    統計を学びたい人へ贈る、統計解析に使えるデータセットまとめ - ほくそ笑む
  • ぼくのかんがえたとうけいがくぶかりきゅらむ - Issei’s Analysis 〜おとうさんの解析日記〜

    個人的にもやもやと考えたカリキュラムです。日の大学には存在しない統計学部がもしあったら、こんなカリキュラムを組みたいなぁ、と。 統計学の講義は分布や変数の型を教えるところから入るんだけど、授業を受けていて分かりにくいな〜と学生の頃から常々感じていました。(あくまでも個人的な偏見と妄想に満ち溢れた記事であることをご了承ください。。) それでは、カリキュラムを発表します!! 1. データ解析I一般化線形モデル教師付き機械学習非線形モデル(一般化加法モデル)カテゴリカルデータ解析生存時間解析グラフィカルモデリング経時データの解析探索的データ解析(EDA)多次元データの縮約非教師付き機械学習(クラスタリング)データマイニング 2. データ解析IIデータハンドリングI(R)データハンドリングII(perlrubyなどスクリプト言語)データベースからのデータ取得I(RDBMS系)データベースからの

  • データサイエンティストというかデータ分析職に就くための最低限のスキル要件とは - 渋谷駅前で働くデータサイエンティストのブログ

    追記(2017年7月) こちらのスキル要件ですが、2017年版を新たに書きましたので是非そちらをご覧ください。 「データサイエンティストというかデータ分析職に就くためのスキル要件」という話題が某所であったんですが、僕にとって馴染みのあるTokyoR界隈で実際に企業のデータ分析職で活躍している人たちのスキルを眺めてみるに、 みどりぼん程度の統計学の知識 はじパタ程度の機械学習の知識 RかPythonでコードが組める SQLが書ける というのが全員の最大公約数=下限ラインかなぁと。そんなわけで、ちょろっと色々与太話を書いてみます。なお僕の周りの半径5mに限った真実かもしれませんので、皆さん自身がどこかのデータサイエンティスト()募集に応募して蹴られたとしても何の保証もいたしかねますので悪しからず。 統計学の知識は「みどりぼん以上」 データ解析のための統計モデリング入門――一般化線形モデル・階層

    データサイエンティストというかデータ分析職に就くための最低限のスキル要件とは - 渋谷駅前で働くデータサイエンティストのブログ
  • 「統計学と機械学習の違い」はどう論じたら良いのか - 渋谷駅前で働くデータサイエンティストのブログ

    何かこんなメディア記事が出ていたようです。 これを読んで色々な人がツッコミを入れまくっている模様ですが、この記事の不思議なところは「完全に間違った説明というわけでもないのに何故か(両分野に詳しい)誰が読んでも猛烈な違和感を覚える」ところなんじゃないかなぁと。 正直、これはライター・インタビュアー・コメンテーター・編集者の誰のせいなのかは全く分からないんですが、ツッコミ入れられまくっている内容について色々あげつらってもあまり建設的でないので、ここでは記事中で題として取り上げられている「統計学と機械学習の違い」についてちょっとコメントしてみようと思います。 あ、もちろん僕がこれから書くコメントも別に正しいとは全く限らないので、おかしいところや間違ってるところがあったらバンバン突っ込んでいただければ幸いです*1。そしてガチ勢向けのコメントでもないので何卒悪しからず。 統計学はデータを「説明」す

    「統計学と機械学習の違い」はどう論じたら良いのか - 渋谷駅前で働くデータサイエンティストのブログ
  • 東京大学出版会『統計学入門』は入門を一通り終えた人におすすめ|Colorless Green Ideas

    東京大学出版会から出ている『基礎統計学I 統計学入門』というがある。 東京大学教養学部統計学教室〔編〕 (1991). 『基礎統計学I 統計学入門』 東京:東京大学出版会. このは、統計を学ぶ際によくすすめられる一冊である。例えば、ウェブ上にある記事で、『統計学入門』を挙げているものに以下のようなものがある。 2014年春版:ビジネスにおけるデータ分析のプロを目指すなら揃えておくべき12冊(銀座で働くData Scientistのブログ) 一年で身に付ける!Rと統計学・機械学習の4ステップ(iAnalysis ~おとうさんの解析日記~) 統計分析を学ぶための書籍20選(XICA-Labs データ・統計分析研究所) それでは、なぜこのはすすめられるのだろうか? そして、どういう人がこのを読むべきなのだろうか? タイトルに『統計学入門』とあるように、統計の初心者にとって良いなのだろう

    東京大学出版会『統計学入門』は入門を一通り終えた人におすすめ|Colorless Green Ideas
  • バイオ系研究室PC管理担当のメモ

    バイオ系研究室PC管理担当のメモ

    バイオ系研究室PC管理担当のメモ
  • MOOCで「データサイエンティスト」育成へ--11月から「統計学」開講

    NTTデータ、NTTドコモ、NTTナレッジ・スクウェア、日統計学会は6月9日、大規模公開オンライン講座「MOOC(Massive Open Online Course、ムーク)」のプラットフォーム「gacco(ガッコ)」を活用した、データサイエンティストの育成プロジェクトを開始したと発表した。 gaccoは、ドコモとナレッジ・スクウェアが共同で推進しており、サービスはナレッジ・スクウェアが提供している。今回のプロジェクトでは産官学が連携し、統計学の基礎的な概念からビジネスに役立つ実践的な応用までを学べる機会を提供。社会的ニーズが高まりつつあるデータサイエンティストの育成と輩出を目指す。 ドコモとナレッジ・スクウェアは、統計学講座を11月に開講予定。講座内容は、統計学会が統計検定を通じて体系化している統計教育質保証に沿うものであり、統計学会が推薦する複数の大学教授陣が講師を務めるという。ま

    MOOCで「データサイエンティスト」育成へ--11月から「統計学」開講
  • 2014年春版:ビジネスにおけるデータ分析のプロを目指すなら揃えておくべき12冊 - 渋谷駅前で働くデータサイエンティストのブログ

    さて、前回リストの記事から半年ぐらい経ちましたよーということで、それ以降に発刊された書籍などを吟味した上で更新したリストをお届けしたいと思います。といっても引き続き今回のリストにも入っているものが多いので変わり映えしないかもですが。。。 前回同様、統計学や機械学習にまつわる学術的な知識を得るだけにとどまらず、ビジネスにおけるデータ分析のプロとして知っておきたい知識を得るために必要な書籍もリストに入れてあります。 確率論まわりの基礎理論についての書籍は僕自身が勉強途中なので割愛しました*1。またコーディングまわりのは一旦割愛してあります。というか僕はエンジニアとは言い難い身なので(泣)、コーディングまわりや詳細な実装プロセスなどは適宜必要なを読んで下さいということで。。。 そして改めての断り書きですが、これは「ある程度既に統計学や機械学習などに馴染みがあってそれなりにPythonでコード

    2014年春版:ビジネスにおけるデータ分析のプロを目指すなら揃えておくべき12冊 - 渋谷駅前で働くデータサイエンティストのブログ
  • 社会人が統計学や機械学習を学ぶなら「落下傘方式」で - 渋谷駅前で働くデータサイエンティストのブログ

    今日何気なく呟いたツイートが、見ていたら結構RT&favされていた模様で。 社会人が統計学とか機械学習を独習するには、いわゆる「落下傘方式」が良いと思う。必要な時にその項目だけ学んで実践する。その繰り返しで学問体系のマス目が埋まっていけば良し。あと、初めに体系立ったテキストを分からなくても良いので通読するのも良し。だいたいの地図が頭に入る。— TJO (@TJO_datasci) 2014, 3月 31 この後も色々補足で呟いたんですが、せっかくなので簡単にまとめたものを書いてみました。これから社会人で統計学や機械学習を学ぼうと考えている人の参考になれば嬉しいです。 あ、これはベタな言い方をすれば「データサイエンティスト(死語)になるにはどうしたら良いか」にもつながる話なんですが、ここではもっと広く「統計学や機械学習を使う仕事をしたいと思ったらどう独習するべきか」という話にしておこうと思い

    社会人が統計学や機械学習を学ぶなら「落下傘方式」で - 渋谷駅前で働くデータサイエンティストのブログ