タグ

2023年1月10日のブックマーク (6件)

  • プロでもよくある線形回帰モデルの間違い - Qiita

    最近、データサイエンスが流行っていることもあり、線形回帰モデルについても解説記事を見かけることが多くなりました。情報にアクセスしやすくなったのはいいことだと思うんですが、ずっと以前から間違いや解説の不足が多い理論なので、私なりに解説を試みたいと思います。全体的にあまり厳密ではありませんが、線形回帰モデルを学びたての方には有益な記事になるかなと思います。 あと、私も勉強中の身なので、間違いがあったらご指摘いただけたら嬉しいです。 題 さて、よくある間違いとは以下のような解説です。 線形性の仮定が満たされていないので、線形回帰モデルを使ってはいけない 残差が正規分布&等分散ではないので、線形回帰モデルを使ってはいけない 回帰係数に対するt検定の結果をもとに、p値が大きい説明変数を除外する 多重共線性があるとよくないので、変数間で相関が強い、もしくはVIF値が大きい変数を除外する AICが小さ

    プロでもよくある線形回帰モデルの間違い - Qiita
  • 覚え書き: 離散選択モデルの識別性 (Train, 2009) | 読書日記

    2022年の秋から冬にかけて、仕事の都合で延々と一対比較課題の分析のことを考えていたのだけれど(官能評価みたいな伝統的モデルじゃなくて、個人レベル効用を推定したい場合の話)、とにかくややこしいのは識別性の話である。何か論文を読んだり、あれこれ考えたりはしたんだけれど、どうも俺は選択モデルの基礎がわかってないな… という後ろめたさがある。 毎度の疑問ですが、こういうのって皆さんどこで習ってんですかね、いったい。巷のデータサイエンティスト養成コースとかで教えてくれるんでしょうか。そんならぜひ習いたい。実践演習とかいいからさ、基礎を教えてくださいよ、基礎を。 というわけで、手元の教科書を読み直し、弱気になってメモまでとった。最初に読んだときは目からウロコだと思った箇所なんだけど、読み返してみたら、どういうウロコを落としたのか思い出せない。学ぶことの意味とは。 Train, K.E. (2009

  • 実際にscikit-learnで出力されるPrecisionやRecallを事例に、適合率と再現率の意味を説明しようと思う - Qiita

    実際にscikit-learnで出力されるPrecisionやRecallを事例に、適合率と再現率の意味を説明しようと思う機械学習scikit-learn分類Precisionclassification_report 分類モデルの評価指標として、適合率や再現率などがあります。Web上で多くの解説記事がありますが、scikit-learnのclassification_reportに表示される各指標を読み解くためには、プラスアルファの理解が必要です。この記事では、実際にscikit-learnで出力される内容を例にして、適合率と再現率の意味を解説します。 Webとかでよくある説明 機械学習で分類モデルを評価するとき、正解率(Accuracy)、適合率(Precision)、再現率(Recall)、F1-scoreなどの評価指標をよく利用します。これらの解説として、以下のような2値分類の説明

    実際にscikit-learnで出力されるPrecisionやRecallを事例に、適合率と再現率の意味を説明しようと思う - Qiita
  • ChatGPTのヤバさは、論理処理が必要と思ったことが確率処理でできるとわかったこと - きしだのHatena

    ChatGPTのヤバいところは、論理処理が必要だと思っていたことが、じつは多数のデータを学習させた確率処理で解決可能だと示したことだと思います。 たとえば、このように正規表現にマッチする文字列を生成するには、特別に専用の論理処理が必要だと思っていました。 前のブログのときには特殊処理が必要だと考えてましたね。 ウソはウソと見抜ける人じゃないとChatGPTを使うのは難しい - きしだのHatena けど、123_45678world.mdはマッチするのにマッチしないと言っているので、そのような誤りが入ることを考えると、どうも確率処理だけでやっているようです。 考えてみると、3層以上のニューラルネットであれば論理素子を再現できるので、ディープラーニングで論理処理を模倣することは可能なんですよね。 バックプロパゲーションでニューラルネットの学習 - きしだのHatena そもそも論理は、多数の

    ChatGPTのヤバさは、論理処理が必要と思ったことが確率処理でできるとわかったこと - きしだのHatena
  • A/Bテストの評価をベイズ統計でやってみない? - tdualのブログ

    遊びでA/Bテストの評価をベイズ統計でやってみたら、思いのほか面白かったので記事に残します。 用語の定義 コンバージョン コンバージョン率 A/Bテスト コンバージョンの確率分布 なぜベイズ統計を使うのか 割合の問題点 尤度と最尤法 尤度 最尤法 ベイズ統計 ベイズの定理 共役事前分布 ベータ分布 事後分布の導出 事後分布のグラフ ベイジアンA/Bテストの実装 コード 使用例 番っぽい使い方 カイ二乗検定と比較 最後に 用語の定義 コンバージョン コンバージョンとは「Webサイト上で起きた最終的な成果」のことです。 具体的に何を意味するかはサイトの種類によっては様々です。 例えば、ECサイトでは商品の購入で、SNSでは会員登録などです。 コンバージョン率 コンバージョン率は「成果に繋がる最初の行動に対して実際に成果に繋がった割合」のことです。 ECサイトではある商品が購入された数をその商

    A/Bテストの評価をベイズ統計でやってみない? - tdualのブログ
  • 紅白歌合戦を「視聴率以外」のデータから可視化してみる|こちら徒然研究室(仮称)

    2022年の紅白歌合戦については既に視聴率を元にした論評がたくさん出ていると思いますが、当研究室ではデジタル空間上でアクセス可能な様々なオープンデータとプログラミング言語Pythonを使って、その影響を分析してみたいと思います。その結果、世帯視聴率のみから論ずるのとはまた異なった紅白像がみえてきました。 実は過去最高のツイート数今回の紅白のテーマは「LOVE & PEACE -みんなでシェア!-」でした。この時点で紅白が、主にSNSを通じて番組が多数シェアされることを目指し、そのための企画を準備してることが推察できますね。ロゴもTwitterやInstagramでの「いいね」ボタンのアイコンを想起させるものでした。 「第73回NHK紅白歌合戦」 出場歌手発表は 今日・11月16日(水)17:00頃を予定 今年の紅白のテーマは 「LOVE & PEACE -みんなでシェア!-」 そこで今年は

    紅白歌合戦を「視聴率以外」のデータから可視化してみる|こちら徒然研究室(仮称)