[B! 統計] t_masudaのブックマーク

t_masuda id:t_masuda

統計に関するt_masudaのブックマーク (11)

Google が公開している、より良いデータ分析のためのガイドブック「Good Data Analysis」で、データ分析の要所が簡潔にまとめられていて感動した
Google が公開している、より良いデータ分析のためのガイドブック「Good Data Analysis」で、データ分析の要所が簡潔にまとめられていて感動した 2022-03-08 Google の非公式ブログで、The Unofficial Google Data Science Blog というデータサイエンスをテーマにしたブログがある。その中で、 Practical advice for analysis of large, complex data sets の記事を元にして作られた Google Developers Guides: Machine Learning Guides > Good Data Analysis を昨日見かけて読んでいたら素晴らしいドキュメントだったので、ここでその感動を共有したかったので筆をとったしだい。 Good Data Analysis の概
t_masuda 2022/03/09
仕事

統計

インフラ

機械学習

データ
リンク
競馬の予測をガチでやってみた - stockedge.jpの技術メモ
基本的に競馬なんてやるべきではないと私は思っている。胴元の取り分が多いからだ。宝くじに比べればまだましだが、それでも賭け金の20～30%は胴元に取られることになる。*1 しかし今回は、ちょっと思い立って競馬の予測をやってみることにした。理由は馬券の安さだ。私は現在、資金量が少ない人間でも不利にならない投資先を探しているのだが、馬券の一枚100円という安さは魅力的に映る。株の場合にはどんな安い株であれ最低購入額は数万円以上*2なので、ある程度まとまった資金が必要になる。また、競馬には技術介入の余地（努力次第で勝利できる可能性）がある。例えばこんな例がある。１６０億円ボロ儲け！英投資会社が日本の競馬で荒稼ぎした驚きの手法 - NAVER まとめ彼らは統計解析によって競馬で勝っており、その所得を隠していたらしい。こういうニュースが出るということは、解析者の腕次第では競馬で勝てる可能性が
t_masuda 2016/01/03
統計

R

スクレイピング

競馬

プログラミング
リンク
重回帰分析による米雇用統計の予測モデルを作成してみる
当たると評判！米雇用統計はどうやって予想している？優等生だけじゃダメ！不良もいてはじめて当たる？特に重要な指標はどれ？新規失業保険申... 2 モデル作成 2.1 使用する指標ザイのリンクからにほんばっしーが使っていた指標は以下となっています。新規失業保険申請件数ニューヨーク連銀製造業景気指数の「雇用」フィラデルフィア連銀製造業景況指数の「雇用」ミシガン大学消費者信頼感指数カンザスシティ連銀製造業景況指数の「雇用」ダラス連銀製造業活動指数の「雇用」リッチモンド連銀製造業景況指数の「雇用」消費者信頼感指数の「雇用不十分」消費者信頼感指数の「雇用困難」米ドル/円変化率（１カ月前）ＩＳＭ製造業景況指数の「雇用」Ｓ＆Ｐ500指数変化率（１カ月前）ＡＤＰ雇用統計チャレンジャー人員削減予定数このうち、無料では入手が困難だったカンファレンスボード関連の消費者信頼
t_masuda 2015/12/17
プログラミング

python

統計
リンク
ナンバーズ予想で学ぶ統計学
本書は数字選択式宝くじナンバーズの予想方法を研究する人と、統計学を独学したいけど同じ勉強するなら(宝くじという)エキサイティングな要素も欲しいという人に向けた統計解析の解説書です。統計学を学ぶためにナンバーズのデータを利用し、ナンバーズの予想のためにどのような統計的手法が使えるかを学ぶことができる文書です。本書の目指すところ統計的手法の使い方を学ぶ。統計学の理論は無視する(高度な数式を勉強しない)。統計的手法を使ってナンバーズを予想してみる。統計学の基礎的な知識を学ぶ。データマイニングも含む。ナンバーズの予想に使えないかもしれないけどおもしろそうな予想方法も勉強してみる。統計解析のソフトウェアは Python と関連ライブラリ ( pandas や SciPy library ) を使用します。エクセルや Google スプレッドシート、 R もありますけど個人
t_masuda 2015/11/14
python

統計

ナンバーズ

プログラミング
リンク
機械学習によるデータ分析まわりのお話
2. データサイエンティスト 2 今世紀でもっともセクシーな職業ハーバード・ビジネス・レビュー 2013年年2⽉月号 2018年年までに⽶米国で14〜～19万⼈人不不⾜足マッキンゼー 2011年年5⽉月求められるスキルビジネススキル，機械学習／ビッグデータ，数学／OR，プログラミング，統計 Analyzing the Analyzers, O’reilly 2013 4. 本⽇日お話すること 4 1. データのこと Keywords: ダミー変数，⽋欠損値，正規化，次元の呪い 2. 機械学習のこと Keywords: 機械学習の分類，アルゴリズム，注意点 3. 評価のこと Keywords: 混同⾏行行列列，適合率率率，再現率率率，F値，ROC曲線 4. 分析のこと Keywords: 過学習，交差検証，学習曲線，バイアス・バリアンス教師あり学習(後述)寄りの内容が多いです
t_masuda 2015/02/16
仕事

プログラミング

機械学習

データ分析

ビッグデータ

統計
リンク
当社データサイエンティストがこよなく愛している『mコマンド』で数億行を高速集計する話 - ハウテレビジョンブログ
どうも。 1月に入社したばかりの、データ分析担当のn_maoです。と言いながら、最近はHTMLとjsばかりいじっております。それはそれで楽しいです。さて今回はデータ分析のざっくりとした仕事内容と、その分析にかかる手間を省くツールをご紹介します。データ分析の仕事まずは私の行っているデータ分析という仕事の内容をご紹介します。私の主な仕事は大きく分けて４つです。売上げ、会員登録数などの簡単な集計&自動レポーティングデータベースからの知識発見（いわゆるデータ分析）分析結果をもとにした企画立案実施された企画の効果検証あくまで私個人の仕事内容であり、データ分析者全員に当てはまるわけではありません。アルゴリズムの研究開発の方や、インフラ寄りの方もいらっしゃるでしょう。ですが、同じ職種の方で業務範囲が被っている方も少なからずいらっしゃると思います。これら４つの業務の中で一番時間
t_masuda 2015/02/07
仕事

プログラミング

統計
リンク
社会人のためのデータサイエンス入門／総務省統計局データサイエンス・オンライン講座
本講座と併せて学習していただくことで、よりデータサイエンスへの理解が深まりますので、ぜひご受講ください。こちらのページをご参照ください。第１週：統計データを用いた分析事例を知り、統計リテラシーを学ぶ・大人がデータサイエンスを学ぶべき理由・統計データからわかること① ・統計データからわかること② ・統計データからわかること③ ・統計リテラシーの重要性・統計を利用する際の注意点第２週：データ分析に必要な統計学の基礎を学ぶ・データの種類・代表値～平均・中央・最頻値・ヒストグラムと相対度数・四分位・パーセンタイル・箱ひげ図・分散・標準偏差・相関関係・回帰分析・標本分布・信頼区間
t_masuda 2014/12/20
webサービス

ビジネス

統計

仕事
リンク
「 2 」か「 9 」で割ってみる - ナイトシフト
先日、飲んでたときに「 9 」という数字が面白いというになったのですが、「数字が合わないときに『 9 』で割ったりするよね。」と言ったら誰もやってなかったのでその話をします。たぶん、会計に携わってる人なら知ってる人も多いはず。　例えば、経理の仕事をしてたりすると、仕訳を全部入力したのに帳簿の残高と実際の預金残高が合わないということがあると思います。会計の仕事をしていない人でも、家計簿ソフトを使ってて、レシートを全部入力したのに現金の残高が合わないなんていうことがあるんじゃないでしょうか。そんなときは闇雲に間違いを探しはじめないで、とりあえず差額を「 2 」か「 9 」で割ってみるといいかもしれません。割り切れると↓こんな可能性が考えられます。「 2 」で割り切れる　→　±を逆に入力してる可能性がある「 9 」で割り切れる　→　桁間違い or 数字の一部を逆に入力してる可能性がある　
t_masuda 2009/01/23
統計
リンク
分散分析
分散分析の必要性２つのグループ（水準）の平均の違いを調べる方法がｔ検定といわれる方法でした．ところで，グループ数が３つ（例えばA，B，C）になったらどうしたらよいでしょう． AとB，BとC，そしてCとAのペアでそれぞれｔ検定を行ない，どこかで帰無仮説が棄却されたならば，３つのグループの平均は等しくない，と結論づけることができます．ですが，このやり方には欠点があります．グループ数が増加するとペアの数が増加するグループの数をAとすると，ペアの数はA*(A-1)/2となります．疲れます．有意水準の解釈が難しくなるここでは省略します．統計の本を参照して下さい．と，いうわけで(1)に限ってみてもｔ検定の繰り返しは面倒です．そこで，グループ（水準）が３つ以上の場合に，変数の各水準の母平均に違いがあるかどうかを「分散」の大きさの違いで検定を行なうものを分散分析(Analysis of Va
t_masuda 2008/12/03
研究

統計
リンク
F 分布表
t_masuda 2008/12/03
研究

分散

統計
リンク
dfltweb1.onamae.com – このドメインはお名前.comで取得されています。
このドメインはお名前.com から取得されました。お名前.com は GMOインターネットグループ(株) が運営する国内シェアNo.1のドメイン登録サービスです。 ※表示価格は、全て税込です。 ※サービス品質維持のため、一時的に対象となる料金へ一定割合の「サービス維持調整費」を加算させていただきます。 ※1 「国内シェア」は、ICANN(インターネットのドメイン名などの資源を管理する非営利団体)の公表数値をもとに集計。gTLDが集計の対象。日本のドメイン登録業者(レジストラ)（「ICANNがレジストラとして認定した企業」一覧（InterNIC提供）内に「Japan」の記載があるもの）を対象。レジストラ「GMO Internet Group, Inc. d/b/a Onamae.com」のシェア値を集計。 2023年5月時点の調査。
t_masuda 2008/12/03
研究

分散

統計
リンク
1