タグ

統計に関するt_masudaのブックマーク (11)

  • Google が公開している、より良いデータ分析のためのガイドブック「Good Data Analysis」で、データ分析の要所が簡潔にまとめられていて感動した

    Google が公開している、より良いデータ分析のためのガイドブック「Good Data Analysis」で、データ分析の要所が簡潔にまとめられていて感動した 2022-03-08 Google の非公式ブログで、The Unofficial Google Data Science Blog というデータサイエンスをテーマにしたブログがある。 その中で、 Practical advice for analysis of large, complex data sets の記事を元にして作られた Google Developers Guides: Machine Learning Guides > Good Data Analysis を昨日見かけて読んでいたら素晴らしいドキュメントだったので、ここでその感動を共有したかったので筆をとったしだい。 Good Data Analysis の概

    Google が公開している、より良いデータ分析のためのガイドブック「Good Data Analysis」で、データ分析の要所が簡潔にまとめられていて感動した
  • 競馬の予測をガチでやってみた - stockedge.jpの技術メモ

    的に競馬なんてやるべきではないと私は思っている。胴元の取り分が多いからだ。宝くじに比べればまだましだが、それでも賭け金の20~30%は胴元に取られることになる。*1 しかし今回は、ちょっと思い立って競馬の予測をやってみることにした。 理由は馬券の安さだ。私は現在、資金量が少ない人間でも不利にならない投資先を探しているのだが、馬券の一枚100円という安さは魅力的に映る。株の場合にはどんな安い株であれ最低購入額は数万円以上*2なので、ある程度まとまった資金が必要になる。 また、競馬には技術介入の余地(努力次第で勝利できる可能性)がある。 例えばこんな例がある。 160億円ボロ儲け!英投資会社が日の競馬で荒稼ぎした驚きの手法 - NAVER まとめ 彼らは統計解析によって競馬で勝っており、その所得を隠していたらしい。こういうニュースが出るということは、解析者の腕次第では競馬で勝てる可能性が

    競馬の予測をガチでやってみた - stockedge.jpの技術メモ
  • 重回帰分析による米雇用統計の予測モデルを作成してみる

    当たると評判! 米雇用統計はどうやって予想している? 優等生だけじゃダメ! 不良もいてはじめて当たる? 特に重要な指標はどれ? 新規失業保険申... 2 モデル作成 2.1 使用する指標 ザイのリンクからにほんばっしーが使っていた指標は以下となっています。 新規失業保険申請件数 ニューヨーク連銀製造業景気指数の「雇用」 フィラデルフィア連銀製造業景況指数の「雇用」 ミシガン大学消費者信頼感指数 カンザスシティ連銀製造業景況指数の「雇用」 ダラス連銀製造業活動指数の「雇用」 リッチモンド連銀製造業景況指数の「雇用」 消費者信頼感指数の「雇用不十分」 消費者信頼感指数の「雇用困難」 米ドル/円変化率(1カ月前) ISM製造業景況指数の「雇用」 S&P500指数変化率(1カ月前) ADP雇用統計 チャレンジャー人員削減予定数 このうち、無料では入手が困難だったカンファレンスボード関連の消費者信頼

    重回帰分析による米雇用統計の予測モデルを作成してみる
  • ナンバーズ予想で学ぶ統計学

    書は数字選択式宝くじ ナンバーズ の予想方法を研究する人と、統計学を独学したいけど同じ勉強するなら(宝くじという)エキサイティングな要素も欲しいという人に向けた統計解析の解説書です。 統計学を学ぶためにナンバーズのデータを利用し、ナンバーズの予想のためにどのような統計的手法が使えるかを学ぶことができる文書です。 書の目指すところ 統計的手法の使い方を学ぶ。 統計学の理論は無視する(高度な数式を勉強しない)。 統計的手法を使ってナンバーズを予想してみる。 統計学の基礎的な知識を学ぶ。 データマイニングも含む。 ナンバーズの予想に使えないかもしれないけどおもしろそうな予想方法も勉強してみる。 統計解析のソフトウェアは Python と関連ライブラリ ( pandas や SciPy library ) を使用します。 エクセル や Google スプレッドシート 、 R もありますけど個人

  • 機械学習によるデータ分析まわりのお話

    2. データサイエンティスト 2 今世紀でもっともセクシーな職業 ハーバード・ビジネス・レビュー 2013年年2⽉月号 2018年年までに⽶米国で14〜~19万⼈人不不⾜足 マッキンゼー 2011年年5⽉月 求められるスキル ビジネススキル,機械学習/ビッグデータ, 数学/OR,プログラミング,統計 Analyzing the Analyzers, O’reilly 2013 4. ⽇日お話すること 4 1. データのこと Keywords: ダミー変数,⽋欠損値,正規化,次元の呪い 2. 機械学習のこと Keywords: 機械学習の分類,アルゴリズム,注意点 3. 評価のこと Keywords: 混同⾏行行列列,適合率率率,再現率率率,F値,ROC曲線 4. 分析のこと Keywords: 過学習,交差検証,学習曲線,バイアス・バリアンス 教師あり学習(後述)寄りの内容が多いです

    機械学習によるデータ分析まわりのお話
  • 当社データサイエンティストがこよなく愛している『mコマンド』で数億行を高速集計する話 - ハウテレビジョンブログ

    どうも。 1月に入社したばかりの、データ分析担当のn_maoです。 と言いながら、最近はHTMLとjsばかりいじっております。 それはそれで楽しいです。 さて今回はデータ分析のざっくりとした仕事内容と、その分析にかかる手間を省くツールをご紹介します。 データ分析仕事 まずは私の行っているデータ分析という仕事の内容をご紹介します。 私の主な仕事は大きく分けて4つです。 売上げ、会員登録数などの簡単な集計&自動レポーティング データベースからの知識発見(いわゆるデータ分析) 分析結果をもとにした企画立案 実施された企画の効果検証 あくまで私個人の仕事内容であり、データ分析者全員に当てはまるわけではありません。 アルゴリズムの研究開発の方や、インフラ寄りの方もいらっしゃるでしょう。 ですが、同じ職種の方で業務範囲が被っている方も少なからずいらっしゃると思います。 これら4つの業務の中で一番時間

    当社データサイエンティストがこよなく愛している『mコマンド』で数億行を高速集計する話 - ハウテレビジョンブログ
  • 社会人のためのデータサイエンス入門/総務省統計局データサイエンス・オンライン講座

    講座と併せて学習していただくことで、よりデータサイエンスへの理解が深まりますので、ぜひご受講ください。 こちらのページをご参照ください。 第1週:統計データを用いた分析事例を知り、 統計リテラシーを学ぶ ・大人がデータサイエンスを学ぶべき理由 ・統計データからわかること① ・統計データからわかること② ・統計データからわかること③ ・統計リテラシーの重要性 ・統計を利用する際の注意点 第2週:データ分析に必要な統計学の基礎を学ぶ ・データの種類 ・代表値~平均・中央・最頻値 ・ヒストグラムと相対度数 ・四分位・パーセンタイル・箱ひげ図 ・分散・標準偏差 ・相関関係 ・回帰分析 ・標分布 ・信頼区間

    社会人のためのデータサイエンス入門/総務省統計局データサイエンス・オンライン講座
  • 「 2 」か「 9 」で割ってみる - ナイトシフト

    先日、飲んでたときに「 9 」という数字が面白いというになったのですが、「 数字が合わないときに『 9 』で割ったりするよね。 」と言ったら誰もやってなかったのでその話をします。たぶん、会計に携わってる人なら知ってる人も多いはず。 例えば、経理の仕事をしてたりすると、仕訳を全部入力したのに帳簿の残高と実際の預金残高が合わないということがあると思います。会計の仕事をしていない人でも、家計簿ソフトを使ってて、レシートを全部入力したのに現金の残高が合わないなんていうことがあるんじゃないでしょうか。そんなときは闇雲に間違いを探しはじめないで、とりあえず差額を「 2 」か「 9 」で割ってみるといいかもしれません。割り切れると↓こんな可能性が考えられます。 「 2 」で割り切れる → ±を逆に入力してる可能性がある「 9 」で割り切れる → 桁間違い or 数字の一部を逆に入力してる可能性がある  

  • 分散分析

    分散分析の必要性 2つのグループ(水準)の平均の違いを調べる方法がt検定といわれる方法でした.ところで,グループ数が3つ(例えばA,B,C)になったらどうしたらよいでしょう. AとB,BとC,そしてCとAのペアでそれぞれt検定を行ない,どこかで帰無仮説が棄却されたならば,3つのグループの平均は等しくない,と結論づけることができます. ですが,このやり方には欠点があります. グループ数が増加するとペアの数が増加する グループの数をAとすると,ペアの数はA*(A-1)/2となります.疲れます. 有意水準の解釈が難しくなる ここでは省略します.統計のを参照して下さい. と,いうわけで(1)に限ってみてもt検定の繰り返しは面倒です.そこで,グループ(水準)が3つ以上の場合に,変数の各水準の母平均に違いがあるかどうかを「分散」の大きさの違いで検定を行なうものを分散分析(Analysis of Va

  • F 分布表

  • dfltweb1.onamae.com – このドメインはお名前.comで取得されています。

    このドメインは お名前.com から取得されました。 お名前.com は GMOインターネットグループ(株) が運営する国内シェアNo.1のドメイン登録サービスです。 ※表示価格は、全て税込です。 ※サービス品質維持のため、一時的に対象となる料金へ一定割合の「サービス維持調整費」を加算させていただきます。 ※1 「国内シェア」は、ICANN(インターネットのドメイン名などの資源を管理する非営利団体)の公表数値をもとに集計。gTLDが集計の対象。 日のドメイン登録業者(レジストラ)(「ICANNがレジストラとして認定した企業」一覧(InterNIC提供)内に「Japan」の記載があるもの)を対象。 レジストラ「GMO Internet Group, Inc. d/b/a Onamae.com」のシェア値を集計。 2023年5月時点の調査。

  • 1