タグ

ブックマーク / tekenuko.hatenablog.com (2)

  • Rでスパースモデリング:Elastic Net回帰についてまとめてみる - データサイエンティスト(仮)

    導入 回帰モデル構築の際、汎化性能を向上させるために正則化の手法がたびたび用いられます。これは、考えているデータ数に対して特徴量の数が非常に多い場合や、特徴量間に強い相関(多重共線性)がある場合に有効な方法となっています。このような場合に、通常の回帰モデル構築の際に用いられる2乗誤差などの目的関数に加え、ノルム(は正整数)のような正則化項(もしくは罰則項)加えて最適化をおこなうことで先程の問題を解消することができます。こういった正則化項を加えた上でモデルの最適化をおこなう( = パラメータを推定する)方法を、正則化法といいます。 代表的な正則化法に、Lasso, Ridge, Elastic Net回帰があります。これらは、解釈性も含めた特徴があり、必ずしも高精度のものだからよいわけではない、というのが私の考えです。しかし一方で、{caret}を使ってこの中で最も精度がよいものを採用しまし

    rydot
    rydot 2019/07/08
  • トポロジカルデータアナリシス:データと図形を結びつける - データサイエンティスト(仮)

    導入 不定期でトポロジカルデータアナリシス(TDA)に関する紹介をします。今回の内容は、データから図形を見立てる方法と、TDAにて登場する単体的複体の紹介をします。 データを図形に読み替える 以下の図の左側のような点の集まりを、データの集まりだとします。次に、点の周りにある半径の球を描きます*1。すると、球どうしで重なるものがでます。重なったものは、おおざっぱに「つながっている」ち見なします。すると、データは右側のような図に見立てられます。 この見立てた図から何か情報が引き出せれば、それはデータの持つ大事な性質と関係しているかもしれません。 問題点 情報の引き出し方はいずれ紹介するとして、実際に引き出すにあたって以下の問題があります。 見立てた図形をコンピュータで解析することは難しい 見立てた図は人間が「何となくこんな感じ」と考えたもので、細かくみると変てこりんな形をしています。そのため、

  • 1