タグ

統計に関するatm_09_tdのブックマーク (107)

  • japanmapライブラリで都道府県データを可視化してみる | DevelopersIO

    はじめに データアナリティクス事業部のkobayashiです。 以前Google Colaboratory(以下Colab)でBigQueryのデータを扱うエントリを書きましたが、その中でデータをColabで可視化する際に都道府県別のデータを日地図で表現するライブラリを使いました。そのライブラリの使い勝手が良かったので深堀りをしてみます。 japanmap · PyPI GitHub - SaitoTsutomu/japanmap japanmapとは できるとこはとてもシンプルで都道府県別に日地図を塗り分けるライブラリです。 使い方は「辞書型で色情報を渡す」のか「PandasのSeriesで色情報を渡す」の2パターンがあります。 辞書型で色情報を渡す 都道府県名:色情報で辞書を作成してjapanmapのライブラリに指定すれば良いだけです。 色情報は以下の型式で指定します。 カラー名

    japanmapライブラリで都道府県データを可視化してみる | DevelopersIO
  • 東京都の人口統計データをAmazon QuickSightのpoints mapで可視化してみた | DevelopersIO

    こんにちは、CX事業部 IoT事業部の若槻です。 前回のエントリでは、東京都の人口統計データをAmazon QuickSightで可視化してみたのですが、データソースにQuickSightで利用可能な地理空間情報が含まれていなかったため、垂直棒グラフで可視化するに留めました。 今回はちゃんと地理空間情報を活用した可視化を行おうということで、同じく東京都の人口統計データをQuickSightのpoints mapで可視化してみました。 やってみた 統計データの入手 まず下記から前回使用したものと同じデータをダウンロードします。 東京都の人口(推計)トップページ 下の方にスクロールすると、令和4年度の最新の7月のCSV(315KB)があるのでダウンロード。 ダウンロードしたファイルの内容はこんな感じ。余分なヘッダーが付いていたり、文字エンコーディングがShift-JISだったりしますが、後述

    東京都の人口統計データをAmazon QuickSightのpoints mapで可視化してみた | DevelopersIO
  • 総務省「誰でも使える統計オープンデータ」無料オンライン講座スタート

    総務省は1月11日、データサイエンスのオンライン講座「誰でも使える統計オープンデータ」を、MOOC講座プラットフォーム「gacco」で開講した。社会人・大学生に、統計オープンデータを活用したデータ分析の手法を解説する講座で、3月7日まで受講できる。 週約3時間×4週間の内容。政府統計の総合窓口「e-Stat」、総務省と統計センターが提供する統計GISAPI機能などを使い、データ分析の手法を学べる。 講師は「統計学が最強の学問である」の著書で知られる統計家の西内啓氏や、総務省統計局の担当者など。 2017年6月に初開講して以来、断続的に開講し、のべ約2万8000人が受講した講座。 関連記事 政府が「ワクチン接種状況ダッシュボード」公開 性別や都道府県別に可視化 政府が、全国の新型コロナワクチンの接種状況を一覧にまとめた「ワクチン接種状況ダッシュボード」を公開。統計情報をまとめたCSVやJS

    総務省「誰でも使える統計オープンデータ」無料オンライン講座スタート
  • じゅじゅ on Twitter: "プログラミング、データサイエンス・統計学関連はネット上にで超優良なテキストが"無料"で公開されており、本当に良い時代。。 本ツイートに各テキストへのリンクもぶらさげておきます。 https://t.co/zSLyLEyQSL"

    じゅじゅ on Twitter: "プログラミング、データサイエンス・統計学関連はネット上にで超優良なテキストが"無料"で公開されており、本当に良い時代。。 本ツイートに各テキストへのリンクもぶらさげておきます。 https://t.co/zSLyLEyQSL"
  • NoSQLデータモデリング技法 · GitHub

    NoSQLデータモデリング技法.markdown #NoSQLデータモデリング技法 原文:NoSQL Data Modeling Techniques « Highly Scalable Blog I translated this article for study. contact matope[dot]ono[gmail] if any problem. NoSQLデータベースはスケーラビリティ、パフォーマンス、一貫性といった様々な非機能要件から比較される。NoSQLのこの側面は実践と理論の両面からよく研究されている。ある種の非機能特性はNoSQLを利用する主な動機であり、NoSQLシステムによく適用されるCAP定理がそうであるように分散システムの基的原則だからだ。一方で、NoSQLデータモデリングはあまり研究されておらず、リレーショナルデータベースに見られるようなシステマティック

    NoSQLデータモデリング技法 · GitHub
  • 統計の入門

    この講座は『受講登録する(無料)』ボタンを押すと受講開始となる『開始日可変型講座』です。 『開始日可変型講座』とは、受講者個々の受講開始日に応じて進行する講座です。 ご自身のスケジュールは、以下の講座スケジュール(PDF)を参考にご確認ください。 講座内容 統計に関する知識は、実験、試験、調査などの結果を用いた実証研究を行う上でなくてはならないものである。生活に関わるさまざまな効果やリスクがデータとともに語られ、生活者としても統計に対するリテラシーが求められるようになった。企業活動では、情報技術の発展によって、日々膨大なデータが生成されており、その活用が求められるようになった。講座は、研究や、生活、社会・経済活動に不可欠な統計を、集計・分析し、理解する力を養うことを目的とした「統計入門」「続統計入門」を圧縮した内容になっている。これから統計を学ぼうとする初学者や、学び直しを目指す学生を主

    統計の入門
  • アメダスのデータから避暑地を探す | DevelopersIO

    避暑地とは Wikipediaによれば避暑地とは以下のような場所らしいです。 避暑地(ひしょち)とは、避暑のために訪れる土地。夏でも冷涼な気候であることが求められるため、標高の高い地域や、緯度の高い地域が選ばれることが多い。 同様にWikipediaによれば以下の場所が避暑地として挙げられるようです。 北海道:釧路、阿寒 青森県:十和田湖、酸ヶ湯 秋田県:田沢湖 岩手県:八幡平 宮城県:蔵王町 福島県:磐梯高原、会津高原 栃木県:那須高原、奥日光 群馬県:草津、嬬恋 埼玉県:秩父郡 新潟県:越後湯沢、苗場 東京都︰高尾山 神奈川県:箱根、大磯 山梨県:富士五湖、清里高原(八ヶ岳山麓) 静岡県:御殿場 長野県:軽井沢、野辺山・蓼科高原(八ヶ岳山麓)、安曇野、上高地、志賀高原、開田高原 岐阜県:奥飛騨温泉郷、根の上高原 兵庫県:六甲山 和歌山県:高野山 鳥取県︰大山 熊県︰阿蘇地方・阿蘇山

    アメダスのデータから避暑地を探す | DevelopersIO
  • データ分析のための統計学入門.pdf

  • 統計学と機械学習の違いは、データの説明かデータの予測か - プログラマの思索

  • 大数の法則や平均回帰で、運をコントロールする|深津 貴之 (fladdict)

    人生のコントロール不能な部分を、もうちょっとコントロール可能にするには、どうすればよいか…というお話。21世紀のサイバー風水学について。 運の良し悪しは、一見するとコントロール不能な現象に見えます。ところが実際は、ある程度までコントロールが可能だったりします。 なぜなら多くの場合、確率的に不利なポジショニングが、「運の悪さ」として観測・説明されているにすぎないからです。因果の順序が逆なのです。「運が悪いから失敗するんじゃなくて、まさかの失敗をしたから運が悪いと呼ばれる」 ですので、「運」と呼ばれるものは、かなりの部分がコントロール可能です。サイバー風水学は、伝統的な風水学のモデルを使いながら、神秘性を排除し、合理と統計により再構築した概念です。 おなじに見える2つのギャンブル以下の2種類のギャンブルの違いを、あなたは瞬間的にイメージできるでしょうか? どちらも、コインを投げて表が出たらお金

    大数の法則や平均回帰で、運をコントロールする|深津 貴之 (fladdict)
  • 【レポート】社会人のためのデータサイエンス入門 ~ Week2 統計学の基礎 ~ | DevelopersIO

    この間新しい服を買ったので、それ見ながらニヤニヤリモートワークをしています…ってそれだけ聞くとやばそうな人間では?と思いながら、こちらを書いている新卒エンジニアのたいがーです? 前回は社会人のためのデータサイエンス入門の1週目のレポートを書かせていただきました。 今回はそちらの2週目、統計学の基礎編についてのレポートを書かせていただきます。 2-1. 代表値〜平均・中央値・最頻値〜 "たくさんのデータをひとつの数値であらわそう" スピーカー 横浜市立大学データサイエンス学部 土屋 隆裕氏 統計的にデータを見るためにグラフを書く 総務省統計局が実施している全国消費実態調査では、世帯の年間収入の状況を調べている。このような調査を通して10000世帯から年間収入のデータが得られたとする。しかし、それらの数字をひとつ一つ見ていくのは大変なので、グラフにしてみることにする。 統計的にデータを見る第一

    【レポート】社会人のためのデータサイエンス入門 ~ Week2 統計学の基礎 ~ | DevelopersIO
  • 統計の素人だけどPythonで機械学習モデルを実装したい、そんな人のための第一歩 - Qiita

    はじめに 『統計にそんなに詳しくないけど、機械学習とかのモデルを自分で実装してみたい!』 ってことよくありますよね? 『そんなこと全くないわー(#^ω^)』って思った人も素直になってください。 絶対に一度は思ったことがあるはずです。 とくにPythonでロジスティック回帰を実装したいと思ったことがある人は多いと思います。 多いはずです。 ここでは、統計の知識をヌルくと説明しつつPythonで実際に動くLogistic回帰モデルを実装します。 統計に詳しくない方でも無理なく出来るよう、統計の説明➔実装 を1ステップづつ進められるようにしました。 なんでかんで、統計モデルとか機械学習も自分で実装しながら覚えると効率がよかったりします。 この記事の対象読者 基的にはデータサイエンスに多少興味ある方向けです。 ロジスティック回帰って聞いたことあるけど、よくわからん 上司がロジスティック回帰でクラ

    統計の素人だけどPythonで機械学習モデルを実装したい、そんな人のための第一歩 - Qiita
  • 【レポート】社会人のためのデータサイエンス入門 ~ Week1 統計データの活用 ~ | DevelopersIO

    仕事のパフォーマンスには金銭的な報酬を出すのが一番だという研究結果を出すために、過去に行われた研究をまとめた研究者の方がすごいですよね… 近頃は末端冷え性がひどい、新卒エンジニアのたいがーです?末端冷え性の改善方法、どなたか教えてください… 弊社 クラスメソッドの新卒エンジニアは、10月現在も新卒研修中です。研修期間では様々な部を周り、その部の業務を体験するという形の研修をさせていただいております。おそらく大抵の企業ではここまで長い研修はあまり例がないかもしれませんが、私はいろいろな部署に関して学ぶことができ、とても楽しいです。今後の予定として、12月にDA(データアナリティクス)事業部での新卒研修を控えています。 私は社内Slackに分報チャンネル#times-tigerを作成しており、もちろん私も書き込んだり、いろんな方が書き込んでくださったりしています。ある日、そこにDA部所属のと

    【レポート】社会人のためのデータサイエンス入門 ~ Week1 統計データの活用 ~ | DevelopersIO
  • 《特別開講》社会人のためのデータサイエンス入門

    2020年9月29日開講予定の「社会人のためのデータサイエンス演習」にさきがけて、「社会人のためのデータサイエンス入門」を特別開講いたします。 入門編と演習(実践編)を受講することで、データ分析の基的な知識から、ビジネスの現場で使われる実践的なデータ分析(統計分析)の手法までを身につけることができます。 「社会人のためのデータサイエンス演習」はこちらのページをご参照ください。 講座内容 今、ビジネスの現場では、統計的な思考力によって様々な課題を解決していく能力、すなわち"データサイエンス"力の高い人材が求められている。このようなことを踏まえ、コースでは"データサイエンス"力の向上を目指し、事例なども踏まえ、データ分析の基的な知識を学ぶ。 コースは4つの部分に分かれている。第1週では、社会でデータがどのように活用されているかについて、実際のデータを用いた分析事例を紹介する。第2週では、

    《特別開講》社会人のためのデータサイエンス入門
  • 「現実」はすべて統計的 - hiroyukikojima’s blog

    今回は、『現代思想』の最新号「統計学/データサイエンス」で巻頭対談しているので、そのことを宣伝するとともに、少しだけ統計学についてエントリーしようと思う。 現代思想 2020年9月号 特集◎統計学/データサイエンス 作者:小島寛之,三中信宏,赤平昌文,稲葉肇,神林博史,喜多千草,北中淳子 発売日: 2020/08/27 メディア: ムック 対談は、生物統計学者の三中信宏先生と。対談内容は、統計学の理解の仕方から、その思想的背景、利用の限界まで多岐に及んで討議している。 ぼく自身は統計学者ではないし、経済学の中でも実証分析を専門としているわけではないので、統計学とは一定の隔たりがある。とは言っても、経済学の中の「意思決定理論」という分野を研究しており、なかでも「ベイジアン意思決定理論」の論文を書いているので、統計学と近接的ではある。 ぼくは経済学者の立場と数学科出身者の立場の両面から、統計学

    「現実」はすべて統計的 - hiroyukikojima’s blog
  • データサイエンティスト生活でお世話になった本|武田邦敬|Kunihiro TAKEDA

    みなさんこんにちは。くにです。 データ分析の世界に足を踏み入れてから9年が過ぎました。 分析実務未経験でキャリアチェンジできたのは幸運としか言えませんが、ある意味無知だったからこそ無謀な挑戦ができたのかもしれません。この挑戦の泥臭い記録は、この記事に書きました。 ポジションは変われど、データを扱う仕事をまだ続けています。 私は実務で手を動かしつつ、不格好に失敗しながら学んできました。わからないことにぶつかるたびにを買い、そのでわからないことがあればまた屋に行き、自分が少しでも理解できそうなを探して買いました。そして、気になる参考文献があれば、それも買って読んでみる…。 こんな生活を続けているうちに、部屋がだらけになってしまいました。 正直に言って読み切ったという実感のあるはありません。しかし、実務で何かしらお世話になったは数多くあり、そういうは手放さずに手元に置いています。

    データサイエンティスト生活でお世話になった本|武田邦敬|Kunihiro TAKEDA
  • pythonのstatisticsを使って数理統計入門 | DevelopersIO

    pythonでは標準ライブラリでstatistics - 数理統計関数が用意されています。 これを使えば、簡単に平均値、中央値、分散、標準偏差を求められます。 動作確認環境 $ python --version Python 3.8.5 平均値 算術平均 import statistics data = [13, 15, 25, 37, 40, 50, 57, 61, 90, 99] result = statistics.mean(data) print(result) >>> 48.7 1.30 ms 調和平均 import statistics data = [13, 15, 25, 37, 40, 50, 57, 61, 90, 99] result = statistics.harmonic_mean(data) print(result) >>> 32.178532252935

    pythonのstatisticsを使って数理統計入門 | DevelopersIO
  • 野球で送りバントが減らないのはなぜか 認知科学研究者が分析する送りバントをする心理学的理由

    Sports Analyst Meetupは、現役スポーツアナリストとスポーツ分析に興味のある方の情報共有イベント。ここでは認知科学研究者のなういず氏が、時間割引の視点からどうしてバントは減らないのか、心理学的アプローチから解説しました。 どうして送りバントは減らないのか? なういず氏(以下、なういず):『どうして送りバントをやめられないのか』というタイトルで発表いたします。なういずと申します。よろしくお願いします。 初めましての方もいると思いますので、最初に簡単に自己紹介させてください。私、なういずというハンドルネームで活動しています。Twitterは@nowism_sportsでやっていますのでフォローしてもらえると嬉しいです。サッカーは柏レイソルを、野球は巨人を応援しています。 普段は東京大学の大学院で認知科学を研究しています。研究の中では人間の非合理的な意思決定というものに興味があ

    野球で送りバントが減らないのはなぜか 認知科学研究者が分析する送りバントをする心理学的理由
  • Python: 中心化移動平均 (CMA: Centered Moving Average) について - CUBE SUGAR CONTAINER

    以前から移動平均 (MA: Moving Average) という手法自体は知っていたけど、中心化移動平均 (CMA: Centered Moving Average) というものがあることは知らなかった。 一般的な移動平均である後方移動平均は、データの対応関係が原系列に対して遅れてしまう。 そこで、中心化移動平均という手法を使うことで遅れをなくすらしい。 この手法は、たとえば次のような用途でひとつのやり方として使われているようだ。 不規則変動の除去 季節変動の除去 使った環境は次のとおり。 $ sw_vers ProductName: Mac OS X ProductVersion: 10.14.6 BuildVersion: 18G3020 $ python -V Python 3.7.7 下準備 下準備として、必要なパッケージをインストールしておく。 $ pip install pa

    Python: 中心化移動平均 (CMA: Centered Moving Average) について - CUBE SUGAR CONTAINER
  • 統計学、データ解析でよくでてくる確率分布のまとめ - Qiita

    統計学では、世の中で起こる出来事の結果を確率変数 (random variable) と呼びます。そして、それぞれの確率変数の起こりやすさを与えてくれるのが確率分布 (probability distribution) です。 確率変数はそれがどんな出来事の結果であるかにより、確率変数が属する確率分布の形が変わってきます。以下に、確率分布を描画するPythonでのコード付きで、統計学で良く用いられる確率分布をまとめました。 確率変数が離散値のとき ある出来事の結果$X$ が、とびとびの値をとる場合です。各分布の例として、確率質量関数 (probability mass function) のグラフを載せています。 確率質量関数とは、各$X$ について、それぞれの確率を与える関数です。 ベルヌーイ分布 (Bernoulli distribution) ある事象Xが、$X = 0$ or $X

    統計学、データ解析でよくでてくる確率分布のまとめ - Qiita