タグ

統計に関するhrksb5029のブックマーク (107)

  • VGChartz.com |

    Register for a free account to gain full access to the VGChartz Network and join our thriving community.

  • 23/7/5 データサイエンスエキスパート合格 チートシートと攻略ガイド - LWのサイゼリヤ

    データサイエンスエキスパート ゲームクリア 攻略チートシート配布 攻略指針 図書館を巡ってアイテム収集 図書館の初見殺しトラップ攻略 参考書籍 統計基礎 統計学(初歩) 統計学(高度) ベイズ統計 分散分析 数学基礎 線形代数 微積分 計算基礎 情報全般 データベース アルゴリズム モデリング・AIと評価 歴史・応用分野・AIなど 多変量解析 時系列解析 グラフィカルモデル テキスト分析 因果推論 機械学習・モデル評価・ニューラルネットワーク データサイエンスエキスパート ゲームクリア 日統計学会が主催するデータサイエンスエキスパート試験に合格した。 www.toukei-kentei.jp データサイエンスエキスパートは、統計検定より実践寄りであるデータサイエンスシリーズの最上位資格という位置付け。下位資格には「データサイエンス基礎」や「データサイエンス発展」があるが簡単そうだったので

    23/7/5 データサイエンスエキスパート合格 チートシートと攻略ガイド - LWのサイゼリヤ
  • Python

    Python(パイソン)はプログラミング言語の一種です。最近は機械学習でよく用いられます。ここではPython 3.xを使って統計・機械学習の計算・グラフ描画をします。Rを使った統計・データ解析の姉妹編を目指しています。 [2024-04-07] コード部分をクリックするとクリップボードにコピーされるようにしました。 お品書き はじめの前に / PEP 8 インストール 実行 / Google Colaboratory / EIN(アイン) / Docker / ipynbを公開する方法 Pythonの初歩 / Collatzの問題 / 配列 / 基数変換 / ゼロ除算 グローバル変数とローカル変数 プロット / 図のラスタライズ / seabornによるプロット / Plotly / プロットをデータに 棒グラフ・積み重ね棒グラフ 曲線を描く / 正規分布の密度関数を描く ヒストグラム

  • 因果推論100本ノック(1)因果効果とランダム割付

    はじめに 因果推論100ノック(自作)1目~10目の問題とPythonのサンプルコードです. 問題の不備や内容の誤り等ありましたら,ご指摘いただけますと幸いです. 設定 アナリストの分析レポートが営業の受注件数にどれくらい貢献しているかを分析するケースを考えます. 今回は,下記フォルダの「causal_knock1.csv」ファイルのデータを利用します. データのカラムの概要は下記の通りです. 変数名 データの概要 備考

    因果推論100本ノック(1)因果効果とランダム割付
  • 統計学の時間 アーカイブ - 統計WEB

    統計学の時間 統計学の基礎から応用までを丁寧に解説しています。「Step1. 基礎編」は、大学で学ぶ統計学の基礎レベルである統計検定®2級の範囲をほぼ全てカバーする内容となっています。最後まで読み進めることで、統計検定®2級に合格できる力がつくことを目標にしています。 学習ページは、数式ばかりではなく具体例を多数掲載し、はじめて統計学を学ぶ方にもイメージしやすい内容になっています。学習ページで勉強した後は、練習問題で腕試しができます。練習問題のすぐ下に解説を掲載していますので、理解度をすぐに確認することができます。 一通り勉強して知識が身に着いたら、実際に統計検定®を受験するのがオススメです。 統計WEBでは、統計検定®の受験者を応援しています! ※統計WEBを使って統計検定®に合格された方の『合格者の声』をブログに掲載しています。こちらからご覧ください。 Step0. 初級編 1. デー

  • 【完全網羅】統計検定2級チートシート | とけたろうブログ

    統計検定2級に満点で合格するために必要な全知識を紹介します。試験範囲に含まれているようで実際には出題されていないものはバッサリとカットしています。 受検前の知識の確認に使ってください! 1変数,2変数の記述統計の分野 代表値 ヒストグラム…データをいくつかの階級に分けて,縦の長さが度数,横の長さが階級の幅に等しい長方形で表したグラフ データの範囲…最大値ー最小値 中央値…データを大きさの順に並べたときの中央の値です。データが偶数個のときは,中央に並ぶ2つの値の平均です。 四分位数…データを大きさの順に並べて中央値(第2四分位数)で2つに分けるとき,第1四分位数は値の小さいグループの中央値,第3四分位数は値の大きいグループの中央値 四分位範囲…第3四分位数ー第1四分位数 箱ひげ図…データの散らばりを,第1四分位数と第3四分位数を両端とする箱と,最大値,最小値を端とするひげで表した図 相対度数

    【完全網羅】統計検定2級チートシート | とけたろうブログ
  • 統計・機械学習の理論を学ぶ手順 - Qiita

    社内向けに公開している記事「統計・機械学習の理論を学ぶ手順」の一部を公開します。中学数学がわからない状態からスタートして理論に触れるにはどう進めばいいのかを簡潔に書きました。僕が一緒に仕事をしやすい人を作るためのものなので、異論は多くあると思いますがあくまでも一例ですし、社員に強制するものではありません。あと項目の順番は説明のため便宜上こうなっているだけで、必ずしも上から下へ進めというわけでもありません。 (追記)これもあるといいのではないかというお声のあった書籍をいくつか追加しました。 数学 残念ながら、統計モデルを正しく用いようと思うと数学を避けることはできません。ニューラルネットワークのような表現力が高くて色々と勝手にやってくれるような統計モデルでも、何も知らずに使うのは危険です。必ず数学は学んでおきましょう。理想を言えば微分トポロジーや関数解析のような高度な理論を知っておくのがベス

    統計・機械学習の理論を学ぶ手順 - Qiita
  • 東京大学、量子コンピューティング入門教材が無料公開 ゼロから自習できる教材目指す | Ledge.ai

    画像は公式サイトより 東京大学素粒子物理国際研究センター(ICEPP)の研究者が選定・執筆した、量子コンピューティングを手を動かして学びたい人向けの入門教材「量子コンピューティング・ワークブック」が無料公開されている。SNS上では教材について「面白そう!」「いい時代になったなぁ」などのコメントが見られる。 教材は、量子力学や計算科学の前提知識を極力必要とせず、大学1年程度の数学Pythonプログラミングの知識があれば、ゼロから量子コンピューティングを自習できるような教材を目指しているという。 公式サイトより 内容は「量子コンピュータに触れる」「超並列計算機としての量子コンピュータ」「量子ダイナミクスシミュレーション」「ショアのアルゴリズム」「グローバーのアルゴリズム」「変分法と変分量子固有値ソルバー」「量子・古典ハイブリッド機械学習」「補足」で成り立っている。 公式サイトでは「私たち

    東京大学、量子コンピューティング入門教材が無料公開 ゼロから自習できる教材目指す | Ledge.ai
  • t-SNE 解説 - Qiita

    Visualizing Data using t-SNE をまとめます。 t-SNE とは SNE (Stochastic Neighbor Embedding) t-SNE (t-Distributed Stochastic Neighbor Embedding) 大規模データへの適用 t-SNE の弱点 t-SNE とは t-SNE は、次元圧縮の手法で、特に可視化に用いることを意図しています。 データの局所的な構造をうまく捉えることができるだけでなく、さまざまなスケールのクラスタなど、大域的な構造も保った可視化ができる点が特徴です。 SNE (Stochastic Neighbor Embedding) 最初に、t-SNE の基となる手法である SNE (Stochastic Neighbor Embedding) を紹介します。 SNE では、元の空間での点同士の近さが、圧縮後の点

    t-SNE 解説 - Qiita
  • 【Python】A/Bテストの結果をピアソンのカイ二乗検定(独立性の検定)で紐解く

    こんにちは、データサイエンティストのたぬ(@tanuhack)です! Web業界で働いていれば、耳にタコができるくらい聞き飽きた『A/Bテスト(ランダム化比較試験)』という言葉。果たして、一体どれくらいの組織が正しくA/Bテストの結果を分析し、次のアクションに繋げられているのでしょうか…。 例えば、次のクロス集計表を見て、「うぉっしゃ、広告Bイケるやん!!!追加で広告費つぎこんだろー!!!」と、真っ先に思い浮かんだ方は要注意です。 CV(購入した)、Not CV(購入していない) このクロス集計表で言えば、Aの購入率は『11.64%』で、Bの購入率は『13.47%』なので、一見するとBの方が優れて見えますよね。 でも、ここには『誤差』という見えない落とし穴が存在します。 そこで今回は、こうしたクロス集計表について、『意味のある偏り』なのか、『誤差でもこれくらいの差は生じるのか』といったこと

    【Python】A/Bテストの結果をピアソンのカイ二乗検定(独立性の検定)で紐解く
  • データ分析レポートを書くときに初心者が気をつけたいこと|Grahamian@データ分析と機械学習|note

    この記事はビジネスにおいてデータ分析のレポートを作成する際に気をつけたほうがよいことを自分なりにまとめたものです。間違いやすい点なんかを集めたTIPSみたいな記事になっています。 レポートの書き方そのものについては良い書籍や記事がたくさんありますのでそちらを参照することをオススメします。 前提データ分析のレポートでは基構成としてIMRAD形式に則るのが良いです。 IMRADとはIntroduction, Methods, Results And Discussionの頭文字を取ったもので、特に論文でよく使われる構成です。 シンプルですが科学的検証に向いた形式でありデータ分析もデータを元に客観的に検証するという観点からIMRAD形式に合わせると適切に記述・検証することが可能になるので強く推奨です。 逆に言えば、ビジネスのプレゼンテーションにありがちなインパクトを優先する恣意的な印象を与える

    データ分析レポートを書くときに初心者が気をつけたいこと|Grahamian@データ分析と機械学習|note
  • ネットのアンケートは世論調査の名に値しない|三春充希(はる) ⭐第50回衆院選情報部

    世論調査の結果が政権にとって厳しくなってくるにつれて、ますますネットではそれに反発した「内閣支持率アンケート」が熱気を帯びています。そうした世論調査を否定したい人たちの憩いの場を侵害するつもりは毛頭ないのですが、それを見て誤った認識を持つ人がでないようにネットのアンケートは世論調査の名に値しないと書いておくことにします。 「時として10万人規模の回答数となるネット調査だと、安倍政権の支持率は8割を超える。旧来的な電話調査は信頼性に疑問がある」と記事に書いてしまったケント・ギルバート氏のように、ネットのアンケートをとりあげる人たちは「回答数の多さ」を持ち出します。しかしケント・ギルバート氏にもぜひ知ってもらいたい話なのですが、実は日の有権者約1憶人を対象にして内閣支持率を調査する目的では10万人規模の回答を集める必要はありません。多ければいいというわけではないのです。それはスープの味見をす

    ネットのアンケートは世論調査の名に値しない|三春充希(はる) ⭐第50回衆院選情報部
  • 【Edward】MCMCの数学的基礎からStochastic Gradient Langevin Dynamicsの実装まで - Gunosyデータ分析ブログ

    こんにちは。初めまして。 データ分析部新入りのmathetake(@mathetake)と申します。 先日個人ブログでこんなエントリを書いた人です: mathetake.hatenablog.com そんなこんなでTwitter就活芸人(?)として活動(?)してましたが、これからは真面目に頑張っていこうと思います。 今日はみんな大好きベイズモデリングおいて、事後分布推定に欠かせないアルゴリズム(群)の一つである*1 マルコフ連鎖モンテカルロ法(Markov chain Monte Carlo) 通称MCMCに関するエントリです。より具体的に、 MCMCの意義(§1.)から始め、マルコフ連鎖の数学的な基礎(§2.,3.,4.)、MCMCの代表的なアルゴリズムであるMetropolis-Hastings法(§5.)、その例の1つである*2Langevin Dynamics(§6.)、そして(僕

    【Edward】MCMCの数学的基礎からStochastic Gradient Langevin Dynamicsの実装まで - Gunosyデータ分析ブログ
  • データから真実を見抜くために抑えたい『因果推論』の基本 - ゆとりずむ

    こんにちは、らくからちゃです。 原価コンサルタント見習として、コスト・マネジメントのお手伝いをさせて頂いております。売上が増えても、製品を作るのに高い材料が必要だったり、工程が複雑で人件費が掛かるようだと利益には繋がりませんよね?そこで製品ごとに製造コストを計算して『いくらなら利益が出るのか?』『いま一番儲かっている製品はどれか?』といったことを分かりやすくお伝えするシステムの導入を支援させて頂いております。 お客様に『このコストは、この実績に連動して増減するから、これを基準に按分して...』なんてヒアリングをしながら設定作業を進めていくのですが、当にその考え方で良いのかなあなんて思うことはよくあります。そんなモヤモヤした気持ちを抱えながら屋さんに行った所、なかなか面白いを発見いたしました。 「原因と結果」の経済学―――データから真実を見抜く思考法[Kindle版] posted w

    データから真実を見抜くために抑えたい『因果推論』の基本 - ゆとりずむ
  • ただの微分幾何学徒だった僕がデータサイエンスを何故/どのように勉強したのか - Obey Your MATHEMATICS.

    こんにちは。久々の投稿です。 僕のTwitterをフォローしてくれている方はご存知かと思いますが、4月から機械学習エンジニア/データサイエンティスト(見習い)として働く事が決まりました。 今日六木の某社から正式に内定を頂きましたが、間違いなくTwitterのおかげでありTwitterこそ就活の全てであると確信した次第でございます— マスタケ (@MATHETAKE) 2017年2月23日 良い区切りですので今回はタイトルの通り、ただの純粋数学の学生だった僕がデータサイエンスの勉強を何故/どのようにしてきたのか、についての思い出せる範囲で書こうと思います。 Disclaimer: この記事は基的に、"What I did" に関する記事であって決して "What you should do" についての記事ではありません。そんな勉強方法おかしいとか、こうすべきだ、みたいなマサカリは一切受

    ただの微分幾何学徒だった僕がデータサイエンスを何故/どのように勉強したのか - Obey Your MATHEMATICS.
  • 【基本】平均値・中央値・最頻値はどう使い分ける? | なかけんの数学ノート

    主なデータの代表値に、平均値、中央値、最頻値の3つがあります。どれも、データ全体の特徴を表すものですが、どうして代表値が3つもあるのでしょうか。「1個なら覚えるのも楽なのに!」と言いたい人もいるでしょう。また、結局どれを使えばいいのかわからないという人もいるかもしれません。 ここではそういった疑問について考えていきます。3つの代表値のメリット・デメリットや、使い分けについて考えていきます。 各代表値の得意・不得意 代表値とは、データ全体の特徴を表した値のことです。平均値は、「すべての数値を足して、数値の個数で割ったもの」、中央値は、「数値を小さい方から並べたときに、真ん中に来るもの」、最頻値は、「一番個数が多いもの」です。どれも「データを特徴づける値」ですが、それぞれの代表値には、得意・不得意があります。 データが次のようにきれいな左右対称の山の形に分布していた場合は、平均値も中央値も最頻

    【基本】平均値・中央値・最頻値はどう使い分ける? | なかけんの数学ノート
  • アプリのトラッキング6大手法まとめ 2016 - Opt Technologies Magazine

    アプリにおける、インストール・トラッキング(流入元判定)手法をまとめます。 アプリのトラッキング6大手法まとめ 2016 トラッキング手法の一覧と整理 1.Cookieを利用した手法 2.端末類推技術を利用した手法 3.Androidリファラを利用した手法 4.広告IDを利用した手法 5.クリックデータを送信する手法 6.メディアに依存した手法 備考:メディアSDKを利用する手法 まとめ アプリのトラッキング6大手法まとめ 2016 はじめまして、アプリプロモーションの総合支援ツールである、Spin AppのPMをしております岩智裕です。アプリプロモーションにおいて、インストールした流入元の情報を取得することは非常に重要です。アプリの流入元の判別は、一度ストアを経由するため困難であり、メディアやOS、計測ツールによって手法が異なります。記事では、2016年現在ある手法を列挙・整理し、そ

    アプリのトラッキング6大手法まとめ 2016 - Opt Technologies Magazine
  • 日本の行政機関等が公開しているAPIについてのまとめ(2016年8月17日暫定版。随時更新) - Qiita

    この記事は下記のURLにあるコミックマーケット90で頒布した同人誌と自分が管理するブログの記事を微修正し、転載したものです。 南関東開発機構 : 同人誌「日の行政機関が公開中のAPIについて調べてみた」を公開しました http://blog.livedoor.jp/south_kanto_dm/archives/52143201.html 南関東開発機構 : 日の行政機関が公開中のAPIについてのまとめ(2016年8月17日暫定版) http://blog.livedoor.jp/south_kanto_dm/archives/52143463.html 前書き この記事の目的は、日の行政機関等が公開しているAPIを紹介する事です。 日の情報技術は他国と比較して、立ち遅れている部分があり、これを立て直すのが喫緊の課題であると言えます。 日政府もこの問題に危機意識を持ち、先日、経

    日本の行政機関等が公開しているAPIについてのまとめ(2016年8月17日暫定版。随時更新) - Qiita
  • 企画書で使える!無料で統計データが手に入るサイト11選|SUKIMANO

    市場調査の結果など、客観的な統計データがあると企画書やプレゼン資料の信頼感がぐっとアップしますよね。 しかし、統計データを企画書やプレゼンの資料として使いたいと思っても、個人でできる調査には限りがありますし、格的に調査するとそれなりに費用や時間がかかるのがネックです。 実はネット上には無料で統計データを公開しているサイトがあるので、企画書やプレゼンのテーマに沿った資料が手に入るなら活用しない手はありません。 無料で統計データが閲覧できるサイトを11個まとめましたので、企画書やプレゼンの資料に活用してみてはいかがでしょう。 ①総務省統計局 出典 http://www.stat.go.jp/index.htm 統計データといえば総務省統計局です。 国勢調査、人口推計、住宅・土地統計調査、家計調査、全国消費実態調査、小売物価統計調査、労働力調査などなど、さまざまな統計データを無料で閲覧できます

    企画書で使える!無料で統計データが手に入るサイト11選|SUKIMANO
  • 「世界のITエンジニア調査結果2016」は年収から人気のプログラミング言語まで興味深いデータがいっぱい - ベルリンのITスタートアップで働くジャバ・ザ・ハットリの日記

    毎年スタックオーバーフローから世界中のITエンジニアを調査対象とした調査結果が出る。基英語圏のエンジニアに向けた調査になっているので、日エンジニアの現状とを比較する際にはとても参考になる。 人気のテクノロジー この手の調査結果ではいつもJavaScriptが1番。Javaも常に高順位にいる。PHPが5位の25.9%と意外にまだまだ人気な様子。 嫌いなテクノロジー 好きなテクノロジーの次のタブがこの嫌いなのランキング。トップ2がVisual BasicとWordPress。個人的にもこの2つにはあまり関わりたくない、という思いがある。 エンジニアの年齢 若い。。。中央値は27歳。27過ぎたらもう老人扱い。 エンジニアの皆さん、年ったらフサフサな髪のズラかぶって、エステ行ってシワのばして若いフリしましょう。辛いですが、そういう世界らしいです。 どっちが好き?スターウォーズ VS スタ

    「世界のITエンジニア調査結果2016」は年収から人気のプログラミング言語まで興味深いデータがいっぱい - ベルリンのITスタートアップで働くジャバ・ザ・ハットリの日記