株式会社ブレインパッドの2023年新卒研修資料です。基礎統計学について扱っています。
みなさんこんにちは。今日もChatGPTさんを講師にお迎えして、「ChatGPTとPythonで学ぶ k近傍法」というテーマで雑談したいと思います。それではChatGPTさん、よろしくお願いします。 assistant: こんにちは、みなさん。今日はk近傍法について学びましょう。 k近傍法(k-Nearest Neighbors、k-NN)は、分類や回帰の問題を解くためのシンプルな機械学習アルゴリズムの一つです。このアルゴリズムは、新しいデータポイントを分類するために、そのデータポイントの近くにある他のデータポイントを見て、それらの最も一般的なクラスを新しいデータポイントのクラスとして選択します。 Pythonの機械学習ライブラリであるscikit-learnを使ってk近傍法を実装することができます。以下に、基本的なコードを示します。 from sklearn.neighbors impo
この記事では階層ベイズモデルの場合のWAICとは何か、またその場合のWAICの高速な算出方法について書きます。 背景 以下の2つの資料を参照してください。[1]に二種類の実装が載っています。[2]に明快な理論的補足が載っています。 [1] 階層ベイズとWAIC (清水先生の資料です、slideshare) [2] 階層ベイズ法とWAIC (渡辺先生の資料です、pdf, html) モデル1 資料[1]にあるモデルを扱います。すなわち、 ここでは人数、は人のインデックスです。は個人差を表す値になります。このモデルにおいてはを解析的に積分消去することができて、負の二項分布を使う以下のモデル式と等価になります。 ここでは予測として(WAICとして)2通り考えてみましょう。 以降では事後分布による平均を、分散をと書くことにします。 (1) を持つが、追加で新しく1つのサンプルを得る場合 この場合に
【宣伝】2016/09/14 このページに来た方へ。あなたが求めている本はこれです。 StanとRでベイズ統計モデリング (Wonderful R) 作者: 松浦健太郎,石田基広出版社/メーカー: 共立出版発売日: 2016/10/25メディア: 単行本この商品を含むブログ (10件) を見るまずこれを予約してから下記を読むといいです。 【宣伝終】 最近、ベイズ統計の入門書がたくさん出版されているので、ここで一旦まとめてみようと思います。 1. 基礎からのベイズ統計学: ハミルトニアンモンテカルロ法による実践的入門 (2015/6/25) 基礎からのベイズ統計学: ハミルトニアンモンテカルロ法による実践的入門 作者: 豊田秀樹出版社/メーカー: 朝倉書店発売日: 2015/06/25メディア: 単行本この商品を含むブログ (6件) を見る データ分析業界ではかなり有名な豊田秀樹先生の本です
Pythonは機械学習周りのパッケージは充実している感じがあるのですが、どうにも統計周りのパッケージが不足している感じがあって、PythonからRを叩くパッケージを試してみることにしました。 PythonからRをつかうパッケージとしてはRPy2が有名っぽいですが、 There is currently no binaries or support for Microsoft Windows (more for lack of ressources than anything else). とのことで・・・ 試しにeasy_installでインストールしてみましたがエラーが出てインストールできなかったので、違う方法を試すことにしました。 PythonからRを使いたい -だがRPy2おめーはダメだ- - 盆栽日記を見てPypeRのほうを試すことにしました。 インストールはいつもどおりeasy_
2017年1月20日追記:『ダメな統計学――悲惨なほど完全なる手引書』という本が出版されることになった。この本は、ここに掲載されているウェブ版の『ダメな統計学』に大幅に加筆したものだ。ウェブ版の『ダメな統計学』を読んで興味を持った方は、書籍となった『ダメな統計学』をぜひ読んでいただければと思う。書籍版の詳細については「『ダメな統計学――悲惨なほど完全なる手引書』の翻訳出版」という記事をご参照願いたい。 ここに公開する『ダメな統計学』は、アレックス・ラインハート (Alex Reinhart) 氏が書いたStatistics Done Wrongの全訳である。この文章は全部で13章から構成されている。詳しくは以下の目次を参照されたい。 はじめに データ分析入門 検定力と検定力の足りない統計 擬似反復:データを賢く選べ p値と基準率の誤り 有意であるかないかの違いが有意差でない場合 停止規則と
先日行われた第9回「データ解析のための統計モデリング入門」読書会にて、 「可視化で理解するマルコフ連鎖モンテカルロ法」というタイトルで発表させて頂きました。 発表スライドは以下です。 可視化で理解するマルコフ連鎖モンテカルロ法 from hoxo_m この発表は、みどりぼんに登場する、マルコフ連鎖モンテカルロ法(MCMC)のアルゴリズムである「メトロポリス法」と「ギブス・サンプラー」について、可視化して理解しようというお話です。 「マルコフ連鎖モンテカルロ法」というのは、字面だけ見ると難しそうですが、この発表で理解すべきポイントは、次のスライド 1枚に凝縮されています。 このことを念頭に置いて、それぞれの手法を見ていきましょう。 まず、メトロポリス法ですが、これは、 前の状態の近くの点を次の遷移先候補として選ぶ(マルコフ連鎖) そのときの確率比 r < 1 ならば確率 r で棄却する。それ
グロースハックを本格的にしようとすると、統計学が出来ると凄く便利!今回は、この記事を見ておけば今からでも統計学を使いこなせるようになる記事をピックアップしましたので、ご覧下さい! ハンバーガーショップで学ぶ楽しい統計学 本にもなっている統計学の入門には最適な決定版サイト。広く使われている統計手法について分かりやすく解説されています。 オンラインで無料で読める統計書22冊 Web上で閲覧可能な統計書がまとめられている超お得な情報が詰まっている記事。 WEBで読める統計関係の良質な資料 統計に関する良質な資料がまとめられている記事。 統計屋による新社会人のための統計系入門書お薦め一覧 統計について学べる入門書についてまとめられている記事。 統計学を勉強するときに知っておきたい7つのポイント 統計学を学ぶ上で、重要なポイントが整理されている記事。 統計学を勉強するときに知っておきたい
企画書には、市場規模・ユーザーニーズの裏付け等を説明するために調査データは入れたいところ。 ただ、資料作成で焦っている時ほど、検索しても良い情報が見つかりませんよね。そんな時は、今回ご紹介するサイトの中を覗いてみて下さい。スタートアップが投資家の方など社外向けに資料を作る時に、必ずや役に立つデータが見つかるはずです。 目次 【1】政府機関でデータを公開しているサイト(×2サイト) 【2】リサーチ会社の公開調査を横断的に探せるサイト(×3サイト) 【3】公開調査を見れる調査機関のサイト(×4サイト) 【4】自主調査の結果を公開しているリサーチ会社のサイト(+α) 【1】政府機関でデータを公開しているサイト 1.総務省統計局 総務省統計局のサイトでは、「国勢調査」「人口推計」から、「家計消費状況調査」「サービス産業動向調査」など様々な国内統計データが無料で閲覧できます。統計データ一覧はこち
Tweet もはや誰もが当たり前のように使っているSNS。LINE, Facebook, Twitter, mixi, Ameba, GREE, mobageはそれぞれ、会員数1,000万人以上を誇る巨大なSNSである。 今回は、ユーザー規模の大きい上記7つのSNSの、アクティブ率を比較してみた。 LINE >> mixi, Ameba > Twitter, Facebook > mobage, GREE 上のグラフは、7つのSNSアプリ(Android版公式アプリ)の4月の月間アクティブ率である。 ここでいう月間アクティブ率とは、各アプリ所持者の中で、4月中に1度でも利用した人の割合のことである。 [データ元:App Ape(国内10万台のAndroid端末をサンプリング)] これを見ると、LINEのアクティブ率が異常に高いが、こちらのTechCrunchの記事でも89.1%となっていた
追記 2016年3月に以下の記事によってこの内容はupdateされています。今後はそちらをお読み下さい。 主に自分向けのまとめという意味合いが強いんですが(笑)、僕が実際に2013年6月現在webデータ分析&データサイエンスの実務でツール・ライブラリ・パッケージを利用しているものに限って、統計学・機械学習系の分析手法を10個挙げて紹介してみようと思います。 追記 回帰分析(特に線形重回帰分析) 独立性の検定(カイ二乗検定・フィッシャーの正確確率検定) 主成分分析(PCA) / 因子分析 クラスタリング 決定木 / 回帰木 サポートベクターマシン(SVM) ロジスティック回帰 ランダムフォレスト アソシエーション分析(バスケット分析・相関ルール抽出) 計量時系列分析 おわりに おまけ1:「素性ベクトル+分類ラベル」なるデータ前処理 おまけ2:グラフ理論*10 {igraph}パッケージでグラ
ユーザーに届ける価値を徹底的に追求する マーケティングを提供します © Copyright 2022 バズ部. All rights reserved. キャッチコピーは、コピーライティングの中でも群を抜いて重要だ。 キャッチコピーで、一瞬でターゲットの注意を惹き付けることができなければ、ボディコピーにどれだけ素晴らしいことを書いていても、完全にムダに終わる。 そこで、今回は、全く売れないキャッチコピーの共通点とその解決策をご紹介する。あなたがキャッチコピーで失敗してしまうことを防ぐために役立てて欲しい。 それでは、早速解説していく。 また、私たちバズ部は12年で400社以上のメディア支援を行い、 立ち上げから10ヶ月で14.6億円の売上を産んだ不動産メディア8ヶ月で月間140万PVを実現したアプリメディアなど大きな成果を挙げ続けている。 各サイトの成功要因をインタビューしているので、 あ
目次 1. 『コンプガチャの数理 -コンプに必要な期待回数の計算方法について-』 2. 『「数学的ゲームデザイン」というアプローチ』 3. 『コンプガチャの数理 -ガイドラインに基づいたゲームデザイン その1-』 4. 『コンプガチャの数理 -ガイドラインに基づいたゲームデザイン その2-』 目的 コンプガチャのコンプに必要な回数を求める問題は「The Coupon Collector's Problem」と呼ばれる数学モデルの枠組みに沿った美しい問題である事を述べ,いくつかの有用な結果を示す。 ※ あくまで個人研究のつもりで書いたので,色々不備があるかもしれません。その際は一言頂けると助かります。 定義 コンプガチャ問題を Coupon Collector's Problem に準じた形で書くと以下の様になる: 「全部で n 種類のアイテムがあって,1つのガチャの中にアイテムが1つ入って
マイクロソフト社が技術分野でもっと熱い専攻の一つとして分析/統計をあげている(Microsoft JobsBlog)。同社以外でも統計学は、今後最も有益なスキルの一つだと考えているようだ(NYT - For Today’s Graduate, Just One Word: Statistics)。しかし、データマイニングの話も一般化しつつあって学習ノウハウなども公開されているが、経験にあわない部分が多い。統計学を初めて勉強するときに知っておいた方が良い7つのポイントをあげてみた。 1. 学習機会やテキストは山のようにあるので利用する 確率・統計の日本語テキストは山のようにあり、大学のコースワークを振り返っても、理文問わずにほとんどの学部で確率・統計はあったはずだ。大学院のコースワークでは英語の文献を好む傾向があるが、上級テキストでも日本語のものも少なくない。また「マンガでわかる統計学」のよ
2006年のデータマイニング学会、IEEE ICDMで選ばれた「データマイニングで使われるトップ10アルゴリズム」に沿って機械学習の手法を紹介します(この論文は@doryokujin君のポストで知りました、ありがとうございます!)。 必ずしも論文の内容には沿っておらず個人的な私見も入っていますので、詳細は原論文をご確認下さい。また、データマイニングの全体観をサーベイしたスライド資料がありますので、こちらも併せてご覧下さい。 データマイニングの基礎 View more presentations from Issei Kurahashi 1. C4.5 C4.5はCLSやID3といったアルゴリズムを改良してできたもので、決定木を使って分類器を作ります。決定木といえばCARTが良く使われますが、CARTとの違いは以下のとおりです。 CARTは2分岐しかできないがC4.5は3分岐以上もできる C
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く