株式会社ブレインパッドの2023年新卒研修資料です。基礎統計学について扱っています。
「エビデンス」に基づく判断 新コロナウイルスにともなう政府の基本方針の提示をきっかけに、各種イベントや行事の自粛や中止が相次ぐ中、データビークルはパートナー会の実施に踏み切った。そこには医学の専門家である西内氏の判断があったという。冒頭に「お忘れかもしれませんが」と言いつつ、西内氏は自身の経歴を紹介する。 東京大学の医学部を生物統計学の専門で卒業後、同医学部の助教を経て、ハーバード大学の関連研究機関において客員研究員となった。東大病院内にある大学病院医療情報ネットワーク研究センターの副センター長だった時期もある。「公衆衛生学についてはまあまあ詳しい」という。 西内氏はベストセラーになった『統計学が最強の学問である』(ダイヤモンド社)の中で、統計学と医学の関係について述べている。コレラの感染を研究したジョン・スノウの疫学が、近代の医学を大きく進展させた。データと統計解析に基づき最善の判断をす
藤井四段の連勝が止まらないですね。 21日の対局に勝利して、連勝記録を1位タイの28連勝まで伸ばしてきました。26日の対局で勝利すれば単独トップになります。 そんな藤井四段の対戦成績は28勝0負。勝率でいうと1.000です。クラクラするような成績ですが、この「勝率」とは何かを少し数学的にみてみましょう。 単純に言葉だけをみると「藤井四段が勝利する確率」ではないかと考えられます。つまり $$P(\text{勝利}\ |\ \text{藤井四段}) = 1.0$$かのように感じます。 ではここで、26日の対局で藤井四段が勝利する確率はどれだけでしょう? $P(\text{勝利}\ |\ \text{藤井四段}) = 1.0$として考えると、これはつまり藤井四段は必ず勝つので、100%になってしまいます。しかし、もちろんそんなことはありません。藤井四段ですらも負けることはあるはずです。 実はここ
都道府県コード及び市区町村コード 都道府県コード及び市区町村コードは、情報処理の効率化と円滑化に資するため、コード標準化の一環として、総務省(当時:自治省)が昭和43年に全国の都道府県及び市区町村のコードを設定したものです。以来、変更が生じた都度、更新を行っています。 「都道府県コード及び市区町村コード」 (令和6年1月1日更新) PDFファイル Excelファイル 「都道府県コード及び市区町村コード」改正一覧表(平成17年4月1日以降) (令和5年4月1日更新) PDFファイル Excelファイル 一部事務組合等コード 広域連合、一部事務組合等については、都道府県が付番を行い(以下「一部事務組合等コード」といいます。)、毎年4月1日現在で設置されている予定の一部事務組合等コードについて、総務省が都道府県に照会を行い、一覧表を作成しています。また、年度途中で設立・改廃が行われた場合は、都道
IMPORTANT NOTICE: After 14 years of service and being used as a primary source in tens of thousands of articles and publications, we are retiring NetMarketShare in its current form. October, 2020 is the last month of data. All billing for existing accounts has been stopped. All outstanding balances are being refunded. Why? An upcoming change in browsers (https://github.com/WICG/ua-client-hints) wi
配列の要素をto_iした値の平均・分散・標準偏差を求める関数です。 class Array # 要素をto_iした値の平均を算出する def avg inject(0.0){|r,i| r+=i.to_i }/size end # 要素をto_iした値の分散を算出する def variance a = avg inject(0.0){|r,i| r+=(i.to_i-a)**2 }/size end # 要素をto_iした値の標準偏差を算出する def standard_deviation Math.sqrt(variance) end end サンプル。 array = [6,4,6,6,6,3,7,2,2,8] puts array.avg puts array.variance puts array.standard_deviation 実行結果です。 5.0 4.0 2.0
特徴 箱ひげ図はデータのばらつき具合を示すのに用います。データのばらつきはヒストグラムでもみることができますが、箱ひげ図は異なる複数のデータのばらつきを比較する事ができます。 箱ひげ図は四分位を用いてデータの散らばりを表します。四分位とはデータを昇順に並べて、4等分したものです。小さい値から数えて、総数の1/4番目に当たる値が第1四分位、真ん中に当たる値が第2四分位(=中央値)、3/4番目にあたる値が第3四分位となります。 都道府県別人口10万人当たりの医師の数について、下図で2004年と2006年とを比べると、全体として増加しているものの、最大値の増加が大きいことが見てとれます。 ここで紹介したのは、ひげの両端がそれぞれ最小値、最大値になっている箱ひげ図ですが、中には、上下から10%点をひげの両端として描いている箱ひげ図もあります。 新聞やインターネットで箱ひげ図を見かけたときは、ひげの
統計研究彙報 第 72 号 2015 年 3 月 (41~54) 統計実務におけるレンジチェックのための外れ値検出方法 野呂 竜夫 † 、和田 かず美 † AUnivariate Outlier Detection Manual for Tabulating Statistical Survey NORO, Tatsuo WADA, Kazumi 統計調査における調査データは、調査対象から得た情報が調査票等に記入される。その後、調査実 施者が集計を行うが、集計前に調査票等の記入内容に誤りがないかなどの様々な審査が行われる。例 えば数量項目の場合、記入内容の数値が調査単位ごとに大きすぎ(小さすぎ)ないかを確認する。政 府が実施する統計調査はデータ量が多いので、確認すべきデータの基準(レンジ:人手による審査を しない正常値とみなす値の範囲)は、前もって定めておく必要がある。通常、レンジは実際の
データを分析する場合は、まずグラフ要約によりデータ全体の傾向を視覚的にとらえ、その後で数値要約(平均値や最小値・最大値、標準偏差など)を行います。その時点でおかしなデータが含まれていれば十分にチェックし、分析から除外すべき場合はデータセットから取り除きます。おかしなデータにはさまざまなものが考えられますが、その代表的なものが異常値・外れ値です。これは、他のデータに対して著しく大きい(または小さい)データのことです。 たとえば、新卒で入社したばかりの社員の月給が100万円を超えていたとしたら、飛びぬけて高い給与といえます。つまり、異常値・外れ値です。 分析の場面では、異常値・外れ値、どちらの呼び方も耳にしますが、外れ値の呼称のほうが無難かもしれません。理由は、「異常」といった場合には「正常」を定義しなければならないからです。もちろん、分野によって呼称は違いますので、普段利用する言葉を使えば問
Criteoの事業の核を担うのは、機械学習です。当社は、広告を表示させたいときの選択や、個別の製品レコメンド、バナーの概観・雰囲気の最適化(当社は、製品カタログを利用している各パートナーに合わせ、当社独自のバナーを自動生成しているため)を、機械学習を使って行っています。Criteoのモットーは、「パフォーマンスがすべて」であり、できる限り良いパフォーマンスを発揮するために、Irmaと呼ばれる大規模な分散機械学習フレームワークを築き上げてきました。Irmaは、モデルの改善を模索する際、稼働中やテスト中にも使用できるものです。 図1:当社予測チームのロゴ。(photo credits Baba from Dragon Ball) 当社が解決できる問題 これまでの運用型広告では、クリック予測がすべてでした。少し前のことです。それ以来当社は、クリックされたかどうかの予測から、数少ない販売コンバージ
このセミナー、冒頭の渋谷 直正さん(日本航空 旅客販売統括本部Web販売部 1to1マーケティンググループ アシスタントマネジャー)のお話がとても参考になりました。 まず、渋谷さんはご存知のように、2014年に「データサイエンティスト・オブ・ザ・イヤー」を受賞され、ビジネス・サイドにおける、データサイエンスのリーダー的存在です。 その渋谷さんの「実務で使う分析手法は5つで十分、マーケターこそデータサイエンティスト候補」という講演は、多くの示唆に富んだものでした。 まず、みなさんが気にしている5つの手法とは、 クロス集計 ロジスティック回帰 決定木 アソシエーション分析 非階層的クラスター分析(k-meansなど) の5つです。統計の教科書にはさまざまな手法が出てきますが、マーケターが実務で使うのはこの5つ程度だと説明されるのです。でも、この説明には、私も思い当たる部分があります。東大の数学
トレジャーデータはクラウドでデータマネージメントサービスを提供しています。 『「横断」で極めるユーザー行動分析シリーズ』は,様々な業界におけるユーザーの行動分析を、複数のデータをユーザーIDなどで紐付けて横串に(横断的に)見ていく方法・事例をご紹介するものです。 シリーズ①となる今回は,ゲームと小売業界にフォーカスを当てていきます。 はじめに オンラインゲーム業界で日々行われている分析手法と小売業界におけるそれを比較してみると、意外にも共通するポイントが多いことに驚きます。背景には、従来の「面」を中心とした大略的な分析のみならず、「点」である個別のユーザーに焦点を当てたより詳細な分析の重要性が増している状況があります。 本資料では、各々の業界で行われている代表的な分析手法とその特徴を例示し、共通項として浮かび上がるデータ分析のエッセンスについてご紹介していきます。 オンラインゲーム業界にお
スマートニュース、データサイエンス・マシンラーニングチームの高橋力矢と申します。記事選定や広告ターゲティングといった、高度な機械学習アルゴリズムを必要とする仕事全般に携わっています。 記事や広告を選択する際には、 人の好みをアルゴリズムで予測する必要があります。本エントリーでは、機械学習と近年流行った行動経済学とをつなげる試みを通じて、人の好みや選択規範がどれだけ機械的に予測できるものかについて、ご紹介したいと思います。 San Diegoの風にふれて Mission Bay San Diegoは米国カリフォルニア州南部の、メキシコとの国境付近にあるリゾート地です。米国海軍の基地があることで有名ですが、La Jolla ShoreやMission Bayに代表される、マリンリゾート・マリンスポーツのメッカでもあります。加えて、University of California, San Di
プロジェクトを開始する前に、市場調査などで統計データを分析し仮説をたてる事は重要ですが、それらの調査対象が世界規模、全国規模になるとコストが掛かりすぎて(特に個人や中小企業の場合)現実的ではありません。 そこで活用したいのが国や団体、民間企業が公開している無料の統計データです。今日はそんなマーケティング担当者ならきっと必見の情報公開を行なっているサイトをご紹介します。 1. 総務省統計局 総務省統計局では様々な統計データが入手可能です。 国税調査 人口推計 労働力調査 小売物価統計調査 土地統計調査 このようなデータはPDF版が一般的ですがExcel形式でダウンロードできるのも魅力ですね。その他にも以下URLより数多くの統計データが入手できます。 また、統計局ではメール配信サービスも行なっています。興味のある方は登録をおすすめします。 www.stat.go.jp 2. 法務省 法務省でも
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く