統計に関するop0p0のブックマーク (26)

  • 総務省統計局 データサイエンス・オンライン講座 社会人のためのデータサイエンス入門

    統計データを用いた分析事例を知り、 統計リテラシーを学ぶ ・大人がデータサイエンスを学ぶべき理由 ・統計データからわかること① ・統計データからわかること② ・統計データからわかること③ ・統計リテラシーの重要性 ・統計を利用する際の注意点 データ分析に必要な統計学の基礎を学ぶ ・データの種類 ・代表値~平均・中央・最頻値 ・ヒストグラムと相対度数 ・四分位・パーセンタイル・箱ひげ図 ・分散・標準偏差 ・相関関係 ・回帰分析 ・標分布 ・信頼区間 データの見方と 適切なグラフの選び方を学ぶ ・統計表の見方 ・比率の見方①-クロスセクションデータ- ・比率の見方②-使い方と注意点- ・時系列データの見方① ・時系列データの見方② ・グラフの選び方① ・グラフの選び方② ・グラフを作る時・読む時の注意点 誰もが使える公的統計データの取得方法と 使い方を学ぶ ・公的統計とは ・公的データの入手

    総務省統計局 データサイエンス・オンライン講座 社会人のためのデータサイエンス入門
    op0p0
    op0p0 2023/06/05
  • DATAFLUCT Tech Blog

    2022-08-27 データ抽出に特化したAirbyteによるEL(T) 環境構築の実践 データ基盤 Airbyte ELT こんにちは。今回は、データ基盤の構築の一部を実際に体験してみたいと思います。 データ基盤を作成するにあたり、まずは、社内に眠る様々なデータを集めてくる必要があります。前回の記事では、その機能を「収集」と紹介していました。 データ基盤とは何か… データ基盤 データ分析基盤 実践 2022-08-18 Metaflowでモデルの学習をpipeline化するまで MLOps Metaflow Pipeline 皆さんは「MLOps」について取り組んでいらっしゃるでしょうか。私は2018年頃からデータクレンジングや機械学習モデルの構築や運用をしてきましたが、当時の日で私の耳にはMLOpsという言葉が入ってくることはありませんでした。 ただMLOpsの元となった「Dev…

    DATAFLUCT Tech Blog
  • QGISを使って「災害データを地図で分析」してみよう 初心者向けの入門マニュアル|NHK取材ノート

    分析を身につけるには実際に「手を動かす」ことが一番の近道です。 分析ソフトと自治体のオープンデータを使った分析の進め方をとことん詳しく、マニュアル風にご説明します。やってみたいけど難しそう、わからない!という方の参考になればうれしいです。 (※あくまでもイメージをつかむためのものですので、詳しくはネットや参考書など他の情報もご覧ください) 今回のゴール地震による津波で浸水が想定されている区域に、子どもが通う施設がどのくらいあるのか。公開データから分析、可視化する。 以前、私が分析に携わったこの記事では、津波によって浸水が想定されている区域に、高齢者施設がどのくらいあるかを調べました。 このときのデータは、県や自治体などから取材で提供を受けたものがベースになっていました。そのままオープンにすることはできないので、今回は高齢者と同じく避難に手助けが必要な、「子どもの施設」に津波のリスクがあるか

    QGISを使って「災害データを地図で分析」してみよう 初心者向けの入門マニュアル|NHK取材ノート
  • 『データ分析のためのSQL勉強会』資料公開|高橋 光 | 著書『データ分析力を高める ビジネスパーソンのためのSQL入門』

    このでは、無料で公開しているnoteの内容をさらに丁寧に分かりやすく、体系化させてアップデートした内容となっています。 noteの内容を立ち読みだと思ってもらい、より丁寧に学びたい場合は是非書籍を読んでもらえると嬉しいですmm これからSQLを学びたいと思っている方向けに作成したSQL勉強会の資料を公開します!(以下の方向けの勉強会資料です) SQLをこれから学びたい人 仕事SQLを触り始めたけどイマイチよくわからない人 データ集計やデータ分析をエクセル使ってやってる人 資料こちらから最新の資料をダウンロードして下さい。 (※「Source code (zip)」からダウンロードして下さい) 資料の構成は以下の通りです。 docs PDF資料 演習問題など含めて全部で約200ページくらいあります data ハンズオン用テストデータ csvファイル3つ script ハンズオン用テストデ

    『データ分析のためのSQL勉強会』資料公開|高橋 光 | 著書『データ分析力を高める ビジネスパーソンのためのSQL入門』
  • 大阪都構想の投票結果を区ごとに分析してみた - Qiita

    はじめに 私は現在大阪市に住んでおり、一昨日の都構想投票はテレビにかじりつきながら見ていました。 経過を見ていて思ったのが、区ごとの結果の差が顕著に出ており、分析対象として適したデータが得られそうだと感じたため、詳しく分析してみました。 ※下図はおおさか維新の会HP掲載の、都構想における新旧区分け GitHubに、使用したスクリプトやクレンジング後のデータをアップロードしています Qiitaのガイドラインにあるように、あくまで技術記事としての領分を超えないよう、政治的な深い考察は避け、得られた事実のみを列挙していこうと思います。 また、私は因果推論のような高度な分析のスキルは持ち合わせていないので、「さらに深い知見を得るためにはこうしたらいい」 というような手法に関するアドバイスがございましたら、コメント頂けると大変ありがたいです! 結論 結論に至るまでの手順は次章以降で述べますが、以下の

    大阪都構想の投票結果を区ごとに分析してみた - Qiita
  • データサイエンス初学者のための実践的な学習環境 「データサイエンス100本ノック(構造化データ加工編)」をGitHubに無料公開 | 一般社団法人データサイエンティスト協会

    一般社団法人データサイエンティスト協会(所在地:東京都港区、代表理事:草野 隆史、以下データサイエンティスト協会)は、構造化データの加工について実践的に学ぶことができる無料の学習環境「データサイエンス100ノック(構造化データ加工編)」をGitHubに公開しました。 「データサイエンス100ノック(構造化データ加工編)」は、データサイエンス初学者を対象に、データの加工・集計、統計学や機械学習を駆使したモデリングの前処理等を学べるよう、データと実行環境構築スクリプト、演習問題をワンセットにしています。 近年、データ活用の重要性についての認知が広がる中で、書籍やWebサイトなど、データ分析のスキル向上に役立つ情報源も多く提供されています。一方で、実践するための「データ」や「プログラミング実行環境」を持ち合わせていないことも多く、「実践力」を身につける機会が限られていました。特に、「構造化デ

    データサイエンス初学者のための実践的な学習環境 「データサイエンス100本ノック(構造化データ加工編)」をGitHubに無料公開 | 一般社団法人データサイエンティスト協会
  • 統計学に魂が震えた体験をもとに、何を選択できるようにしてきたか? データ活用職のキャリアプランを考える - Findy Engineer Lab

    統計屋のあんちべ(@antibayesian)です。 さまざまな企業でデータ解析やコンサルを請け負ったり、データ活用部署の立ち上げをしたりしながら生活しています。 この記事では、データ活用系職種のキャリアプラン形成に悩んでいる方の参考になればと、私のこれまでのキャリアや、キャリアプランニングの考え方についてシェアしたいと思います。 というのも、データ活用系職種の中でも特に2010年くらいから注目を集めている1データサイエンティスト界隈のキャリアは、まだ職種として歴が浅いこともあって不透明な部分が多く、データサイエンティストなるものの解釈やポジションも多様なため、先行きに懸念を抱いている方も多いかと思います。 また、周辺環境も日進月歩の勢いで成長しています。例えば、全自動で簡単に売上予測や画像の分類などができるCloud AutoMLというサービスも提供されています。この手の仕組みはどんどん

    統計学に魂が震えた体験をもとに、何を選択できるようにしてきたか? データ活用職のキャリアプランを考える - Findy Engineer Lab
    op0p0
    op0p0 2020/06/10
  • ビジネスで使えるPythonを使った統計的データ分析手法まとめ - Qiita

    概要 WEB系のサービスで色々な試作を実施した後に効果を検証するのは非常に重要だと思いますが、 そのやり方として基的な統計学が十分に使えると思っています。 今回は基的な統計学からビジネスで使える試作の効果検証、データ分析を目的にPython+JupyterLab(Docker)を使った統計的データ分析のやり方をまとめました。 また今回使ったnotebookは以下にもありますのでご参考ください。 https://github.com/hikarut/Data-Science/tree/master/notebooks/statisticsSample 環境 以下を参考にDockerでJupyterLabが使える状態を前提とします。 Dockerで起動したJupyterLabでvimキーバインドを使う

    ビジネスで使えるPythonを使った統計的データ分析手法まとめ - Qiita
  • 高校レベルの数学から大学の教養数学くらいまでを独学/学び直した - razokulover publog

    去年の12月頃から数学の学び直しを始めた。 職業柄少し専門的な、特に機械学習の方面の書籍などに手を出し始めると数式からは逃れられなかったりする。とはいえ元々自分は高校時代は文系で数学1A2Bまでしか履修していない。そのせいか少し数学へ苦手意識があり「図でわかるOO」とか「数学無しでもわかるOO」のような直感的に理解出来る解説に逃げることが多かった。実務上はそれで問題ないにしてもこのまま厳密な理解から逃げているのも良くないなと感じたのでもう少し先の数学に取り掛かることにした。 巷には数学の学び直しについての記事が既にたくさんある。それに自分の場合は何かの受験に成功した!とか難関の資格を取得した!というような華々しい結末を迎えている状態ではない。そんな中で自分が何か書いて誰の役にたつかもわからないが、少なくとも自分と似たようなバックグランドを持つ人には意味のある内容になるかもしれないので、どの

    高校レベルの数学から大学の教養数学くらいまでを独学/学び直した - razokulover publog
  • 実務の専門家として機械学習や統計分析を手掛けたい人にオススメの書籍初級5冊&中級8冊+テーマ別11冊(2020年2月版) - 渋谷駅前で働くデータサイエンティストのブログ

    (Image by Pixabay) この記事は以下のオススメ書籍リスト記事のアップデートです。 毎回の断り書きで恐縮ですが、この記事では「データサイエンティストや機械学習エンジニアなどデータ分析の実務の専門家として」*1機械学習や統計分析を手掛けていきたいという、主に初級ないし中級ぐらいのスキルレベルの人たちにお薦めしたい書籍を、初級向け5冊・中級向け8冊及び細かいテーマ別に11冊、それぞれ挙げていきます。スタンスとしては相変わらず「当座の最終到達点を『中級』に置いた時に最初に読んで内容をマスターしておくべき書籍」を初級に置いているので、世の中のこの手のお薦め書籍リストに比べると若干ハードな内容のものが初級向けに多いかもしれません。 後はちょっと気が早いかもしれませんが、機械学習パートに関しては「AutoML時代にあっても実務の専門家であれば知っておくべき知識」を収めた書籍を選んでおきま

    実務の専門家として機械学習や統計分析を手掛けたい人にオススメの書籍初級5冊&中級8冊+テーマ別11冊(2020年2月版) - 渋谷駅前で働くデータサイエンティストのブログ
  • 機械学習モデルを作成する - Training

    Microsoft Learn では、対話的な方法で、従来の機械学習の概要を理解することができます。 これらのラーニング パスは、ディープ ラーニングのトピックに移行するための優れた基盤にもなり、各自の生産性を向上させます。 最も基的な従来の機械学習モデルから、探索的データ分析やカスタマイジングのアーキテクチャまで、ブラウザーを離れることなく、概念的内容や対話型の Jupyter Notebook を簡単に把握することができます。 知識と興味に応じて自分のパスを選択してください。 オプション 1: 完全なコース: 機械学習のためのデータ サイエンスの基礎 ほとんどのユーザーには、このパスがお勧めです。 これには、概念の理解を最大限に高めるカスタム フローを備えた、他の 2 つのラーニング パスと同じモジュールがすべて含まれています。 基になる概念と、最も一般的な機械学習ツールでモデルを構

    機械学習モデルを作成する - Training
  • アンチフェミのための本当の社会構築主義入門

    以下では、フェミオタク叩きをする根幹思想”社会構築主義”とは?における主として次に挙げる2ツイートの問題点の指摘と、関連して宇崎ちゃんの献血ポスターについての議論を行う。 そもそも 「社会構造ってなに? どこにあるの? どうやって見つけるの? それは反証可能性あるの?」 って、どの研究書を読んでもまともに書いてない。ただ、「ある」ってことを前提にして話をしてる。 そもそも「社会構築主義」に限らず、社会学において、社会構造と人間の行為の関係は、最も根的なところでまったく解明されていない。 人間が社会構造を作り、その社会構造が人間を規定するというのがどういうことなのか(ミクローマクロリンク問題)、社会学出来てから100年以上全くわかってない。 この文章を書いた理由としては、上記Togetterがあまりに「社会学」についてのひどい誤りを書き散らしているにもかかわらず「参考になった」的なコメン

    アンチフェミのための本当の社会構築主義入門
  • 南北戦争で南部の奴隷所有者達は奴隷制を守る為に自らも武器を取ったのか?

    ア㊙️イさんのお尻 @bot99795157 「戦う理由:南北戦争における奴隷所有と従軍」として追加しておいたのだ〜。 ア㊙️イさんのお尻と学ぶ統計学 - Togetter togetter.com/li/1342003 2019-09-23 18:23:29 ア㊙️イさんのお尻 @bot99795157 奴隷制の存続を巡って争われたアメリカの南北戦争では、南部の「奴隷州」は連合国として戦うことになるんだけど、果たして奴隷の所有者達は奴隷制を守る為に自らも武器を取ったのか?未だに論争が続くこの問題に大規模なデータ分析で迫った研究が最近出版されたのだ。かなり長いまとめなのだ! (1/27) pic.twitter.com/qTdm9QjFzU 2019-09-23 17:32:07

    南北戦争で南部の奴隷所有者達は奴隷制を守る為に自らも武器を取ったのか?
  • 統計学テキスト

    統計学テキスト 公開ページ このテキストは,京都女子大学現代社会学部の講義「統計学」,および佛教大学通信教育部の数学教員養成課程「確率論」の教科書として使っていたものです。出版するには受講者数が少なすぎるをよいことに,細かい改訂を繰り返して現在の形になっています。 「数式がちゃんと書いてある文系向けの統計のテキスト」がほしかったということで,講義のテキストに使ってくださっている ところもあり,とても喜んでいます(理系や技術系でもこのテキストは使えるらしく,ありがたいコメントをいただいています)。 利用の条件等は文の「まえがき」をごらんください。(小波秀雄) 「統計学入門」 関連URL 公開時の日記 「統計学入門」ダウンロード 2020年末時点の版もダウンロードできます 新しい版をダウンロードするときには,その前にブラウザで「再読み込み」をしてください. 更新履歴 2013/03/11:公

  • ア㊙️イさんのお尻と学ぶ海賊の世界(全14回)

    最近出版された海賊に関する英語の実証論文の中から、「これは…!」と感じたものをまとめたのだ。大量に出版されている研究の中のごく一部でしかないから、今後追加する可能性があるのだ。 史実・事実・政策に関する部分での誤りがあるかもしれないのだ。お尻さんは海賊研究の専門家ではないから、あまり鵜呑みにしないことをオススメするのだ!

    ア㊙️イさんのお尻と学ぶ海賊の世界(全14回)
  • 東大理IIIは本当に男子の合格率が高いのか? - Qiita

    TL;DR 東大の理科3類の男子と女子の合格率の間に統計的に有意(p<0.05)な差はない。 鳥取大,島根大医学部の男女の合格率の間にも統計的に有意な差はない。 背景 最近,上野千鶴子氏の東大での式辞が話題になっていて,その中に,以下のような一節があった。 文科省が全国81の医科大・医学部の全数調査を実施したところ、女子学生の入りにくさ、すなわち女子学生の合格率に対する男子学生の合格率は平均1.2倍と出ました。問題の東医大は1.29、最高が順天堂大の1.67、上位には昭和大、日大、慶応大などの私学が並んでいます。1.0よりも低い、すなわち女子学生の方が入りやすい大学には鳥取大、島根大、徳島大、弘前大などの地方国立大医学部が並んでいます。ちなみに東京大学理科3類は1.03、平均よりは低いですが1.0よりは高い、この数字をどう読み解けばよいでしょうか。統計は大事です、それをもとに考察が成り立

    東大理IIIは本当に男子の合格率が高いのか? - Qiita
    op0p0
    op0p0 2019/04/14
  • 【学習計画】十週間で知識ゼロからのデータ分析入門 - Qiita

    この学習計画について更新しています。 データ分析に欠かせない五つの考え方【データ分析手法をたくさん知っても活用できない根理由】 誰でもすぐわかるデータベース基礎の基礎~ 初心者が押さえておくべきSQLガイド データ分析をやっても無駄?実例から見る当のデータ分析~【連載-1】 データ分析をやっても無駄?実例から見る当のデータ分析~【連載-2】 ダッシュボードを作ってみたらそんなに難しくない 業務知識すら知らないとデータ分析をやれないでしょう【連載-1】 業務知識すら知らないとデータ分析をやれないでしょう【連載-2】 データ分析に最低限押さえるべき10つのビジネスフレームワーク 「文学系の人はデータ分析に向いていますか」 「プログラミング経験がありませんが、データアナリストになれますか」 「データ分析を勉強するなら、RとPythonを勉強しなければならないですか」 などはよく聞かれる話で

    【学習計画】十週間で知識ゼロからのデータ分析入門 - Qiita
  • 統計・機械学習・R・Pythonで用途別のオススメ書籍 - StatModeling Memorandum

    比較的読みやすいを中心に紹介します。今後は毎年このページを更新します。 微分積分 高校数学をきちんとやっておけばそんなに困ることないような。偏微分とテイラー展開は大学演習のようなでしっかりやっておきましょう。ラグランジュの未定乗数法のような、統計・機械学習で必要になる部分は、ネット等で学べばいいかなと思っています。 線形代数 tensorflowなどのおかげで順伝播部分(行列積および行列とベクトルの積)さえ書ければ線形代数の知識はそこまでいらないんじゃないかという流れを感じます。しかし、主成分分析やトピックモデルなどの行列分解や、ガウス過程などのカーネル法のような様々なデータ解析の手法に一歩踏み込むと、きちんとした勉強が必要になります。理解しやすくて使いやすくて、統計や機械学習への応用を主眼においた線形代数のはまだ見たことないです。機械学習シリーズとかで基礎から「The Matrix

    統計・機械学習・R・Pythonで用途別のオススメ書籍 - StatModeling Memorandum
  • データサイエンティストによる統計入門 ― k平均法でデータをクラスタリングしてみよう!|ハイクラス転職・求人情報サイト AMBI(アンビ)

    データサイエンティストによる統計入門 ― k平均法でデータをクラスタリングしてみよう! ビッグデータ、データサイエンス、人工知能など、統計学を主軸においた分野が隆盛ですが、統計学には高いハードルを感じる方も少なくないでしょう。k平均法を実際に手を動かしながら理解することで、データ分析を身近に感じることができます。 はじめまして、藤井健人(@studies)と申します。イタンジ株式会社でデータ基盤周りの運用を担当しています。 「ビッグデータ」「データサイエンス」「人工知能」といったバズワードに代表されるように、統計学を主軸においた分野の隆盛が日常となって久しいです。 しかし「統計学は学問的な要素があり難しい」という印象を持たれやすく、「実務に活かすのはハードルが高い、怖い」と感じる方も少なくないのではないでしょうか。 そういった方を対象に、今回は統計学の手法の一つであるk平均法を学んでいただ

    データサイエンティストによる統計入門 ― k平均法でデータをクラスタリングしてみよう!|ハイクラス転職・求人情報サイト AMBI(アンビ)
  • 新米データサイエンティスト、研修プログラムを考える。 - Qiita

    こんにちは、教育業界に就職した新卒1年目のデータサイエンティストです。 新卒研修ということで自分でコンテンツを探してプログラムを組み立てる機会をいただきました! そこで、折角なので進捗状況や学んだこと等、以後の振り返りのためにポストしていこうと思います。 今回は、自分のスキル状況、目標、具体的なコンテンツについて書いていきます。 現在のスキル SQLのSELECT文の基的な部分が書ける pythonがほんの少し書ける(関数の実装くらいまで) Tableauが使える(Tableau アカデミックプログラムを利用していました) ご覧の通り、一般にデータサイエンティストとして必要なスキルがほぼありません... 当に0からのスタート、何から始めれば良いのか... 目標 目標を立てる上で、こちらの記事を参考にさせていただきました。 データサイエンティストに必要なスキル要件 上記事によると、データ

    新米データサイエンティスト、研修プログラムを考える。 - Qiita