[B! 統計] deejayrokaのブックマーク

deejayroka id:deejayroka

統計に関するdeejayrokaのブックマーク (12)

パス解析とは？共分散構造分析との違いもわかりやすく解説-GMOリサーチ
商品を販売する上で最も重要な要素について考えたことはあるでしょうか？商品のプロモーションを促進するためには、例えば以下の重要度を明確にする必要があります。ブランディング魅力価格人気度デザインオプション機能では、顧客の購買決定要因に最も大きく関わるのはこの内の一体どれなのでしょうか？この購買決定要因の重要度の分析に役立つのがパス解析です。パス解析を活用することで、商品販売戦略・自社サービスの更なる改善・顧客の創出などにますますリサーチを役立てやすくなります。
deejayroka 2024/03/04
解説

統計
リンク
「仮説ドリブン」という名の甘い罠 - 渋谷駅前で働くデータサイエンティストのブログ
今回の記事では、ちょっと感覚的でふわっとした話をしようと思います。それは「『仮説ドリブン』という考え方には往々にして落とし穴があるのではないか？」という問題提起です。そもそも、「仮説ドリブン」（仮説駆動型：hypothesis-driven）というアプローチは実験科学分野出身の我が身にとっては、個人的には馴染み深いものです。まだ僕がポスドクだった頃、国際会議に際して日本人研究者同士で集まる会が毎回あったのですが、その席上でお話を聞く機会があった当時のトップ研究者の先生から「この世の森羅万象は網羅しようとするにはあまりにも広大過ぎる、故に森羅万象を区切って『仮説で白黒つけられる範囲』に絞り、これを検証するということを繰り返して前に進むべき」ということを聞かされ、感銘を受けたのを覚えています。実際、仮説ドリブンの考え方は非常に有用なものであり、今現在僕自身が主戦場とする広告・マーケティング
deejayroka 2024/01/02
"「仮説を定めてその真偽を検証する」という枠組みは「結果の分かりやすさ」という点では優れているものの、当たり前ながら「仮説を設けた範囲の外側のこと」が分からない"

あとで読む

ブログ

マーケティング

統計
リンク
Slackが「仕事に集中できるのは4時間だけ」「時間外労働で生産性が20％低下」「15時～18時は生産性が急落」など生産性の最大化に役立つ調査結果を公開
コミュニケーションツール「Slack」の開発元であるSlackが、1万人以上の従業員に対して労働時間や生産性に関する調査を行い生産性最大化に役立つ情報をまとめたレポート「Workforce Index」を無料公開しています。 The surprising connection between after-hours work and decreased productivity | Slack https://slack.com/intl/en-gb/blog/news/the-surprising-connection-between-after-hours-work-and-decreased-productivity Slackは2023年8月24日から9月15日にかけて、アメリカやオーストラリア、フランス、ドイツ、日本、イギリスの従業員1万333人を対象に労働時間や生産性に関する調
deejayroka 2023/12/12
“従業員の71％が、「15時から18時の間に生産性が急落する」と回答しました。ヤンツァー氏はこの時間帯について「多くの従業員にとって、この時間は全体的な生産性を高めるために休憩を取るのに理想的な時間かもしれま

時間

仕事

ai

統計
リンク
米Microsoft、生成AI開発のための初心者向け講座を公開　チャットbotや画像生成アプリ構築など
各レッスンでは、まずトピックに関する短いビデオ紹介を提供。これを視聴することで、学ぶ内容の全体像を把握できる。続けて、全レッスンにはREADMEファイルに記載されている詳細なテキストガイドが含まれており、それによって主題に関する深い理解を深められるという。プロジェクトベースのレッスンでは、コード例付きのJupyter Notebookにアクセスできる。このようなハンズオン形式の演習は、学んだ内容を実際に適用する際の助けとなる。そして、各レッスンの終わりには知識の確認を目的としたチャレンジや課題が設けられており、これを通じて習得した概念の理解度を確認可能だ。各レッスンの概要を下記の通り。 Lesson 00: Course Introduction － How to Take This Course（コース紹介　このコースの受講方法） Lesson 01: Introduction to
deejayroka 2023/11/17
ai

チャット

Bot

Microsoft

アプリケーション

無料

開発

アプリ

LLM

統計
リンク
エンジニアが「欲しいと選ぶ技術書」20冊、明らかになる
リベロエンジニアは5月6日、「エンジニアが"欲しい"と選んだ技術書ランキング TOP20」を発表した。調査は2020年2月～2023年2月、「エンジニアの自己学習を応援」キャンペーンに参加したエンジニアを対象にSNSで行われた。調査による1～3位までのランキング結果は以下の通り。エンジニアが"欲しい"と選んだ技術書ランキング TOP20 1位「リファクタリング(第2版):既存のコードを安全に改善する」、2位「ソフトウェアアーキテクチャの基礎―エンジニアリングに基づく体系的アプローチ」、3位「リーダブルコード ―より良いコードを書くためのシンプルで実践的なテクニック(Theory in practice)」だった。「『どの技術書を買うべきか』悩まれるエンジニアは、ぜひ技術書選びの参考にしてみてください」と同社。エンジニアが"欲しい"と選んだ技術書ランキング TOP20
deejayroka 2023/05/17
エンジニア

ランキング

テクニック

アーキテクチャ

technology

統計
リンク
chatGPTにアドバイスをもらったらデータサイエンスを知って1週間の友人がコンペで上位6.5%に入った話
先日、データ解析のセミナーを開催しました。未経験の方でも、2時間で予測モデルを作成することができるハンズオンセミナーでした。好評だったので、その内容をYouTubeにまとめたのでご興味ある方はご覧ください。このハンズオンセミナーで予測モデルの作り方を知った友人がchatGPTにアドバイスをもらって、データサイエンスのコンペティションサイトに応募したところ、上位6.5%に入ることができたという報告を受け、驚愕しました。 chatGPTを上手く使えば素人がプロに勝つことも十分できるのだなと実感しました。友人が参加したデータサイエンスのコンペは、SIGNATEの糖尿病予測問題でした。以下のような進め方をしたとのことでした。まず、問題の概要を説明して、どのように進めていけば良いかを確認したそうです。そうすると、chatGPTからデータサイエンスの問題を解くための手順を一覧化してくれて
deejayroka 2023/04/26
“一度概要を掴んで、あとはchatGPTに聞いていけば、ベストプラクティスを簡単に実践することができるようになり、プロは素人に簡単に負ける時代に入ったよ”

ChatGPT

データ

グラフ

モデル

科学

統計
リンク
39項目で徹底比較　3大クラウドの現在地
3社へのヒアリングに基づき「AWS、Microsoft Azure、Google Cloud比較表」を作成。2018年に実施した同様の調査をベースに、5年間の差分を埋めて収録した。39項目のなかで「開発支援」は昨今のトレンドを考慮し、今回新設したものである。
deejayroka 2023/04/19
programming

トレンド

cloud

Azure

Microsoft

google

AWS

統計

クラウド
リンク
言語にも拡散モデル革命か離散データを生成する「ビット拡散」を解説
deejayroka 2023/01/24
“拡散モデルで離散データを扱うコツは、前向き過程の離散変数の状態の遷移を、カテゴリ分布 (要するに、任意の離散確率分布) として扱い、これを遷移行列 QtQt\bf Q_t によって表現することです”

モデル

データ

研究

画像

解説

統計
リンク
プロでもよくある線形回帰モデルの間違い - Qiita
最近、データサイエンスが流行っていることもあり、線形回帰モデルについても解説記事を見かけることが多くなりました。情報にアクセスしやすくなったのはいいことだと思うんですが、ずっと以前から間違いや解説の不足が多い理論なので、私なりに解説を試みたいと思います。全体的にあまり厳密ではありませんが、線形回帰モデルを学びたての方には有益な記事になるかなと思います。あと、私も勉強中の身なので、間違いがあったらご指摘いただけたら嬉しいです。本題さて、よくある間違いとは以下のような解説です。線形性の仮定が満たされていないので、線形回帰モデルを使ってはいけない残差が正規分布&等分散ではないので、線形回帰モデルを使ってはいけない回帰係数に対するt検定の結果をもとに、p値が大きい説明変数を除外する多重共線性があるとよくないので、変数間で相関が強い、もしくはVIF値が大きい変数を除外する AICが小さ
deejayroka 2023/01/10
"「多重共線性 = 悪いもの」と捉え、考えなしに変数を除外するのは間違いです。交絡因子として必要なのかどうか、背後の関係を考えて慎重に意思決定する必要があります"

あとで読む

python

qiita

データ

モデル

web

統計

データサイエンス
リンク
Python: 特徴量の重要度を Permutation Importance で計測する - CUBE SUGAR CONTAINER
学習させた機械学習モデルにおいて、どの特徴量がどれくらい性能に寄与しているのかを知りたい場合がある。すごく効く特徴があれば、それについてもっと深掘りしたいし、あるいは全く効かないものがあるなら取り除くことも考えられる。使うフレームワークやモデルによっては特徴量の重要度を確認するための API が用意されていることもあるけど、そんなに多くはない。そこで、今回はモデルやフレームワークに依存しない特徴量の重要度を計測する手法として Permutation Importance という手法を試してみる。略称として PIMP と呼ばれたりすることもあるようだ。この手法を知ったのは、以下の Kaggle のノートブックを目にしたのがきっかけだった。 Permutation Importance | Kaggle あんまりちゃんと読めてないけど、論文としては Altmann et al. (2
deejayroka 2018/11/14
machinelearning

Matplotlib

python

機械学習

scikit-learn

統計

ML
リンク
Python: scikit-learn で主成分分析 (PCA) してみる - CUBE SUGAR CONTAINER
主成分分析 (PCA) は、主にデータ分析や統計の世界で使われる道具の一つ。データセットに含まれる次元が多いと、データ分析をするにせよ機械学習をするにせよ分かりにくさが増える。そんなとき、主成分分析を使えば取り扱う必要のある次元を圧縮 (削減) できる。ただし、ここでいう圧縮というのは非可逆なもので、いくらか失われる情報は出てくる。今回は、そんな主成分分析を Python の scikit-learn というライブラリを使って試してみることにした。今回使った環境は次の通り。 $ sw_vers ProductName: Mac OS X ProductVersion: 10.12.4 BuildVersion: 16E195 $ python --version Python 3.6.1 下準備あらかじめ、今回使う Python のパッケージを pip でインストールしておく。
deejayroka 2017/08/08
“ # 主成分分析する”

scikit-learn

python

データ

主成分分析

機械学習

統計
リンク
データサイエンティストに興味があるならまずこの辺りを見ておきな、って文献・動画のまとめ（随時追加） - Qiita
はじめに本記事のターゲット「 "データサイエンティスト"とか"統計"とか最近良く聞くし、興味あるけど、正直その分野それほど詳しいわけじゃねーし、どっから始めればいいんだよチキショーがっ」って人に向けて描いた記事です。つまりは X年前の自分が「あったらいいのにな」って思ったであろう記事です。なので「俺はバリバリのデータサイエンティストだぜ」って人が喜ぶようなマニアックな内容について触れているような書籍などは載せていません。「PRMLがないとか...基本のキだろ、あんたモグリかい？」などと思われた方はこの記事から得られることは無いかもしれません。あくまで初学者をターゲットにした記事になります。 ※ ある程度データサイエンス周りを齧ってる人でも、部分的には参考になるかもしれません。（願望）【こちらもどうぞ】・そろそろデータサイエンティストの定義とスキルセットについて本気で考え
deejayroka 2017/05/31
あとで読む

モデル

データ

初心者

仕事

勉強

データサイエンス

データ分析

統計

学習
リンク
1