生存時間解析・信頼性解析は,患者の生存時間や機器の故障時間など,ある個体に対して特定の事象が生起するまでの時間に関するデータを扱う,統計学の一分野である.本稿は,生存時間解析・信頼性解析に用いられる統計モデルの歴史的背景や統計的性質について,初学者向けに書かれた総説である.生存時間や生存関数,ハザード関数などの基本的な生存時間解析の道具や概念を定義し,それらの統計的性質・解釈を解説する.また,指数分布・ワイブル分布・対数正規分布などの,一般的なパラメトリックモデルや,Cox比例ハザードモデル・加速故障時間モデルなどの回帰モデルについて解説する.競合リスクモデルについても簡単に触れる.本稿で使用したデータ,式の導出,解析に使用したRコードを付録に与える.
はじめに こんにちは、事業会社で働いているデータサイエンティストです。 本記事では、ディリクレ過程回帰モデルという、柔軟に独立変数(共変量、特徴量)と従属変数(結果変数)の関係性をモデリングする手法を紹介します。詳細はHannah, Blei and Powell(2011)を参照してください。 さて、ディリクレ過程回帰はノンパラメトリックベイズの一種なんですが、柔軟に独立変数と従属変数をモデリングする手法でいうとガウス過程で良いのでは?という疑問もあるかもしれません。 勉強不足の状態での個人的な意見になりますが、ガウス過程には二つの大きな課題があります: 独立変数と従属変数の関係を記憶する巨大な共分散行列の逆行列を求める必要があり、そもそもあまりスケールしません 曲線の当てはめに置き換えられるタスク以外で活用しにくい 一つ目の問題はEC2で強力なインスタンスを立ててそこで計算すればある程
分子設計・材料設計・プロセス設計・プロセス管理において、分子記述子・実験条件・合成条件・製造条件・評価条件・プロセス条件・プロセス変数などの特徴量 x と分子・材料の物性・活性・特性や製品の品質などの目的変数 y との間で数理モデル y = f(x) を構築し、構築したモデルに x の値を入力して y の値を予測したり、y が目標値となる x の値を設計したりします。 スモールデータ、すなわちサンプル数が小さいデータセットにおいては、データ解析・機械学習を慎重に行う必要があります。スモールデータにおける問題の詳細は、こちらに書いた通りです。 サンプル数が小さいデータセットには、データ解析で回帰分析やクラス分類をするとき、とてつもなく大きな問題があります。回帰分析やクラス分類における問題というと、精度の高いモデルが構築できないことを想像するかもしれません。 逆です。 精度の高いモ...
経営学や組織行動論を始め、近年の社会科学では、デジタル化の影響もあって大量のデータがとりやすくなってきた。さらに、1人から複数時点でのデータを取得することも昔よりも容易になってきた。そこで、同じ変数を個人とか企業(個体)から時間をおいて何度も取得したデータを分析することが増えてきた。このようなデータは、縦断データとかパネルデータと呼ばれ、より精緻な分析が可能となる。縦断データやパネルデータには、個体間の変動と、個体内での変動(時間的変動など)が混ざっているので、この種のデータを分析する際には、それらをごっちゃにしてしまう単純な重回帰分析のような方法では適切なパラメータ推定ができないため、混合モデルやマルチレベル分析などより高度な統計手法が使われる。 このような縦断データもしくはパネルデータの統計分析で頻出する用語が「固定効果」と「変量効果(ランダム効果)」である。この用語は極めて分かりにく
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く