商品を販売する上で最も重要な要素について考えたことはあるでしょうか? 商品のプロモーションを促進するためには、例えば以下の重要度を明確にする必要があります。 ブランディング 魅力 価格 人気度 デザイン オプション機能 では、顧客の購買決定要因に最も大きく関わるのはこの内の一体どれなのでしょうか? この購買決定要因の重要度の分析に役立つのがパス解析です。 パス解析を活用することで、商品販売戦略・自社サービスの更なる改善・顧客の創出などにますますリサーチを役立てやすくなります。
今回の記事では、ちょっと感覚的でふわっとした話をしようと思います。それは「『仮説ドリブン』という考え方には往々にして落とし穴があるのではないか?」という問題提起です。 そもそも、「仮説ドリブン」(仮説駆動型:hypothesis-driven)というアプローチは実験科学分野出身の我が身にとっては、個人的には馴染み深いものです。まだ僕がポスドクだった頃、国際会議に際して日本人研究者同士で集まる会が毎回あったのですが、その席上でお話を聞く機会があった当時のトップ研究者の先生から「この世の森羅万象は網羅しようとするにはあまりにも広大過ぎる、故に森羅万象を区切って『仮説で白黒つけられる範囲』に絞り、これを検証するということを繰り返して前に進むべき」ということを聞かされ、感銘を受けたのを覚えています。 実際、仮説ドリブンの考え方は非常に有用なものであり、今現在僕自身が主戦場とする広告・マーケティング
コミュニケーションツール「Slack」の開発元であるSlackが、1万人以上の従業員に対して労働時間や生産性に関する調査を行い生産性最大化に役立つ情報をまとめたレポート「Workforce Index」を無料公開しています。 The surprising connection between after-hours work and decreased productivity | Slack https://slack.com/intl/en-gb/blog/news/the-surprising-connection-between-after-hours-work-and-decreased-productivity Slackは2023年8月24日から9月15日にかけて、アメリカやオーストラリア、フランス、ドイツ、日本、イギリスの従業員1万333人を対象に労働時間や生産性に関する調
各レッスンでは、まずトピックに関する短いビデオ紹介を提供。これを視聴することで、学ぶ内容の全体像を把握できる。続けて、全レッスンにはREADMEファイルに記載されている詳細なテキストガイドが含まれており、それによって主題に関する深い理解を深められるという。 プロジェクトベースのレッスンでは、コード例付きのJupyter Notebookにアクセスできる。このようなハンズオン形式の演習は、学んだ内容を実際に適用する際の助けとなる。そして、各レッスンの終わりには知識の確認を目的としたチャレンジや課題が設けられており、これを通じて習得した概念の理解度を確認可能だ。各レッスンの概要を下記の通り。 Lesson 00: Course Introduction - How to Take This Course(コース紹介 このコースの受講方法) Lesson 01: Introduction to
リベロエンジニアは5月6日、「エンジニアが"欲しい"と選んだ技術書ランキングTOP20」を発表した。調査は2020年2月~2023年2月、「エンジニアの自己学習を応援」キャンペーンに参加したエンジニアを対象にSNSで行われた。 調査による1~3位までのランキング結果は以下の通り。 エンジニアが"欲しい"と選んだ技術書ランキングTOP20 1位「リファクタリング(第2版):既存のコードを安全に改善する」、2位「ソフトウェアアーキテクチャの基礎―エンジニアリングに基づく体系的アプローチ」、3位「リーダブルコード ―より良いコードを書くためのシンプルで実践的なテクニック(Theory in practice)」だった。 「『どの技術書を買うべきか』悩まれるエンジニアは、ぜひ技術書選びの参考にしてみてください」と同社。 エンジニアが"欲しい"と選んだ技術書ランキングTOP20
先日、データ解析のセミナーを開催しました。 未経験の方でも、2時間で予測モデルを作成することができるハンズオンセミナーでした。 好評だったので、その内容をYouTubeにまとめたのでご興味ある方はご覧ください。 このハンズオンセミナーで予測モデルの作り方を知った友人がchatGPTにアドバイスをもらって、データサイエンスのコンペティションサイトに応募したところ、上位6.5%に入ることができたという報告を受け、驚愕しました。 chatGPTを上手く使えば素人がプロに勝つことも十分できるのだなと実感しました。 友人が参加したデータサイエンスのコンペは、SIGNATEの糖尿病予測問題でした。 以下のような進め方をしたとのことでした。 まず、問題の概要を説明して、どのように進めていけば良いかを確認したそうです。 そうすると、chatGPTからデータサイエンスの問題を解くための手順を一覧化してくれて
最近、データサイエンスが流行っていることもあり、線形回帰モデルについても解説記事を見かけることが多くなりました。情報にアクセスしやすくなったのはいいことだと思うんですが、ずっと以前から間違いや解説の不足が多い理論なので、私なりに解説を試みたいと思います。全体的にあまり厳密ではありませんが、線形回帰モデルを学びたての方には有益な記事になるかなと思います。 あと、私も勉強中の身なので、間違いがあったらご指摘いただけたら嬉しいです。 本題 さて、よくある間違いとは以下のような解説です。 線形性の仮定が満たされていないので、線形回帰モデルを使ってはいけない 残差が正規分布&等分散ではないので、線形回帰モデルを使ってはいけない 回帰係数に対するt検定の結果をもとに、p値が大きい説明変数を除外する 多重共線性があるとよくないので、変数間で相関が強い、もしくはVIF値が大きい変数を除外する AICが小さ
学習させた機械学習モデルにおいて、どの特徴量がどれくらい性能に寄与しているのかを知りたい場合がある。 すごく効く特徴があれば、それについてもっと深掘りしたいし、あるいは全く効かないものがあるなら取り除くことも考えられる。 使うフレームワークやモデルによっては特徴量の重要度を確認するための API が用意されていることもあるけど、そんなに多くはない。 そこで、今回はモデルやフレームワークに依存しない特徴量の重要度を計測する手法として Permutation Importance という手法を試してみる。 略称として PIMP と呼ばれたりすることもあるようだ。 この手法を知ったのは、以下の Kaggle のノートブックを目にしたのがきっかけだった。 Permutation Importance | Kaggle あんまりちゃんと読めてないけど、論文としては Altmann et al. (2
主成分分析 (PCA) は、主にデータ分析や統計の世界で使われる道具の一つ。 データセットに含まれる次元が多いと、データ分析をするにせよ機械学習をするにせよ分かりにくさが増える。 そんなとき、主成分分析を使えば取り扱う必要のある次元を圧縮 (削減) できる。 ただし、ここでいう圧縮というのは非可逆なもので、いくらか失われる情報は出てくる。 今回は、そんな主成分分析を Python の scikit-learn というライブラリを使って試してみることにした。 今回使った環境は次の通り。 $ sw_vers ProductName: Mac OS X ProductVersion: 10.12.4 BuildVersion: 16E195 $ python --version Python 3.6.1 下準備 あらかじめ、今回使う Python のパッケージを pip でインストールしておく。
はじめに 本記事のターゲット 「 "データサイエンティスト"とか"統計"とか最近良く聞くし、興味あるけど、正直その分野それほど詳しいわけじゃねーし、どっから始めればいいんだよチキショーがっ」 って人に向けて描いた記事です。 つまりは X年前の自分が「あったらいいのにな」って思ったであろう記事です。 なので「俺はバリバリのデータサイエンティストだぜ」って人が喜ぶようなマニアックな内容について触れているような書籍などは載せていません。 「PRMLがないとか...基本のキだろ、あんたモグリかい?」 などと思われた方はこの記事から得られることは無いかもしれません。 あくまで初学者をターゲットにした記事になります。 ※ ある程度データサイエンス周りを齧ってる人でも、部分的には参考になるかもしれません。(願望) 【こちらもどうぞ】 ・そろそろデータサイエンティストの定義とスキルセットについて本気で考え
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く