タグ

ブックマーク / mikuhatsune.hatenadiary.com (30)

  • 帰無仮説検定が正しいのか正しくないのか - 驚異のアニヲタ社会復帰の予備

    検定とp値がいつまで経ってもわからないので久々にシミュレーションした。 対照群 と治療群 があって、なんらかの指標となる値に変化があるかどうか調べたい。 比較するのは、母集団(真の分布)である(ここでは真の分布は正規分布であると自分は分かっているので、 は自分で決められるしシミュレーションでは正確に比較検討できる)の平均 である。 ここではシミュレーションなので は分かっているが、実際のデータ解析においては母集団(真の分布)は分布の形もわからないしもちろん真のパラメータの値もわからないのが、実験して標(サンプル)は分かる。この標のデータを使って 帰無仮説 と対立仮説 を考えるのが一般的な帰無仮説検定とp値の扱いである。 が真と仮定してp値を計算したらp<0.05 なのでこれは棄却(当は有意水準)...というのがよくある考え方である。 単純に総当りとして が真か偽で、それぞれp>0.0

    帰無仮説検定が正しいのか正しくないのか - 驚異のアニヲタ社会復帰の予備
  • 今年読んだ一番好きな論文2016 - 驚異のアニヲタ社会復帰の予備

    この記事は今年読んだ一番好きな論文2016 の25日目の記事です。 今年読んだ論文ではこれがよかったです。 Computational flow cytometry: helping to make sense of high-dimensional immunology data. Nature Reviews Immunology 16, 449–462 (2016) レビューなのでアレですけど、お勉強して知識が増えたという点でこれを推します。 当ならばSPADE (Nature Biotechnology 29, 886–891 (2011)) ですけど今年読んだわけでもないしいろいろ解説ブログもあるので、レビューですけどこれをば。 Nature Review Immunology という免疫学でNature 系のよく読まれる論文ですが、免疫学の話は出てこず(出ないとは言っていない

    今年読んだ一番好きな論文2016 - 驚異のアニヲタ社会復帰の予備
  • single cell RNA-seq のdropout - 驚異のアニヲタ社会復帰の予備

    読んだ。 MAGIC: A diffusion-based imputation method reveals gene-gene interactions in single-cell RNA-sequencing data コードはPython で書かれている。 computational flowcytometry のDana Peer ラボ。RNA-seq のデータ行列が取るであろう高次元空間の形からデータ点(細胞)を復元しようという雰囲気。 single cell RNA-seq ではmRNA の読みの精度の悪さのせいで、全体の80-90% くらいは0 という結果が返ってくるdropout という現象に悩まされる。有効なデータが10% 程度しかなく、他が0 のときに元のデータがどのようなものだったかを推定するのが必要な作業だが、MAGIC(Markov Affinity-base

    single cell RNA-seq のdropout - 驚異のアニヲタ社会復帰の予備
  • 新型肺炎の変異株で若年者は本当に重症化しやすいのか - 驚異のアニヲタ社会復帰の予備

    結論から言うと、0.うんぬん%以内の増加は40-50歳代の年齢層であるようだが、それよりも80歳以上の高齢者での死亡率増加が大きく、かつ感染者数が増えており重症のままベッドを占拠しておりながらもすぐに死亡してベッドを空ける、というわけではないので、医療逼迫感から「若年の重症化が~」というのが広まっている、のではないかと思う(素人の感想レベル この1-2ヶ月くらいでイギリス型変異株が蔓延し、インド型の変異株も蔓延しつつあるので、よくTVやネットで耳にするのが 「40(20代も?)から50代までの若くて、しかも基礎疾患のない人が重症化しており、変異株で重症化リスクが増加しているおそれがある」 という言説である。 大阪で勤務している人のインタビューや市長がそんなことを言っているのでそうなのかもしれないが、少なくとも(大阪ではない場末の)地方勤務の自分の感触では、重症化しているのは高齢者もしくは肥

    新型肺炎の変異株で若年者は本当に重症化しやすいのか - 驚異のアニヲタ社会復帰の予備
    xiangze
    xiangze 2021/05/23
  • 新型肺炎COVID-19の日本の実効再生産数を推定したrstanのコードを解説してみる - 驚異のアニヲタ社会復帰の予備

    西浦先生が日の実効再生産数を推定した。 コードはrstanで下記から取れる。 https://nbviewer.jupyter.org/github/contactmodel/COVID19-Japan-Reff/tree/master/ 解説動画を見逃したのでコードと関連論文からのお勉強になるが、肝としては、 ・知りたいのは「感染した日」である。 ・診断日もしくは報告日は、データを収集して統計を取っているのでわかる。 ・診断されるには検査される必要があるから、だいたい症状か接触歴があって、発症日はそこそこデータがある。 ・感染した瞬間、はもちろん発病(はほとんど)していないのでわからない。 という前提がある。PDFの「患者」の観測データについて、の項。 (誰からから感染させられる)ー感染日ー発症日ー診断日/報告日という一連の流れについて、まったく情報がないわけではなく、いままでの数理モ

  • 新型肺炎COVID-19の感染者数の推移をSEIRモデルを使ってrstanでシミュレーションする - 驚異のアニヲタ社会復帰の予備

    読んだ。 A Simulation on Potential Secondary Spread of Novel Coronavirus in an Exported Country Using a Stochastic Epidemic SEIR Model. - PubMed - NCBI COI:筆者はこの著者とは直接の関係はないので、純粋に統計解析のツッコミです。 こんなツイーヨを観測した。 A Simulation on Potential Secondary Spread of Novel Coronavirus in an Exported Country Using a Stochastic Epidemic SEIR Model. - PubMed - NCBI https://t.co/P2FQHeJkcX— 岩田健太郎 Kentaro Iwata (@georgebe

    xiangze
    xiangze 2020/04/12
  • (サッカー解説)2点差は危険なスコアですね ← ??? - 驚異のアニヲタ社会復帰の予備

    高校サッカーを見ていた。2017年度は前橋育英が初優勝で幕を閉じた。 どの試合だったか忘れてしまったが、2点差がついたときに解説が「2点差は危険」ということを言っていた。 調べてみると、やはりよく言われていることのようだが、実際にデータをとってみると、プレミアリーグでは2点差をひっくり返して勝つ確率は1.71%、Jリーグでは2点差からドローが5%、2点差から敗北5%だったらしい。 自分はユース年代のファンなので、せっかくJFA が公式に試合記録を出してくれるということもあって、冬の高校選手権の得点時間を抽出して、2点差が危険なのかどうかを解析したい。 JFA から公式記録PDF を取得するが、2009年(88回大会)から2017年(96回大会)まで存在していて、各大会47試合ある。ただし、2009年はPDF の都合でデータをパースできなかったので全部で379試合が対象である。 試合記録から

    (サッカー解説)2点差は危険なスコアですね ← ??? - 驚異のアニヲタ社会復帰の予備
    xiangze
    xiangze 2020/03/29
  • 新型肺炎COVID-19 の潜伏期間をrstanで推定する - 驚異のアニヲタ社会復帰の予備

    読んだ。 Incubation period of 2019 novel coronavirus (2019-nCoV) infections among travellers from Wuhan, China, 20-28 January 2020. - PubMed - NCBI 最初に武漢で肺炎が発生したときに、88症例について感染履歴を聴取して、ワイブル分布で潜伏期間を推定すると平均6.4日(95% credible interval (CI): 5.6–7.7)、潜伏期間の幅は2.1から11.1日(2.5th to 97.5th percentile)だった、という。 論文ではワイブル分布のほかに、ガンマ分布、対数正規分布で推定して、looicでもっともよかったのがワイブル分布だった、と言っている。 supplemental にスクリプトがあったのでぱくってやってみる。 結果と

    新型肺炎COVID-19 の潜伏期間をrstanで推定する - 驚異のアニヲタ社会復帰の予備
  • W杯の試合観戦中にトイレはいついくべきか - 驚異のアニヲタ社会復帰の予備

    こんなツイートを観測した。 ハーフタイムに水道使用料が増えているのがわかる。 試合中に離席すると一番盛り上がる得点シーンを見逃してしまうため、試合中はなかなかトイレやお風呂にいけない。 というわけで試合中に離席するにはどの時間帯が一番よいかを調べる。 高校サッカーの点差を解析したときと同様に、過去のW杯の試合結果から得点が入った時刻を取得する。ここで、1930年から2014年大会までの20大会(1942年と1946年は中止)について、836試合あり、得点シーンは2373だった(wikiのFIFA W杯のページをパースしたため、当にそうなのかはわからない)。 1970年大会が6ゴール取得できてなかったようである。 1930 1934 1938 1950 1954 1958 1962 1966 1970 1974 1978 1982 1986 1990 1994 1998 2002 2006

    xiangze
    xiangze 2018/07/07
  • μ's とAqours の人気の差 - 驚異のアニヲタ社会復帰の予備

    こんな記事があった。あるアニメショップでキャラの人気投票をしたら、ラブライブにおいてμ's のメンバーのほうが、Aqours のメンバーより総じて上位だったらしい。 というわけで、2グループの人気はどれくらいの差かを考える。 2グループ各9人、全部で18人のキャラの得票数がある。あるベース に各キャラの効果、グループ効果 があり、18 人の所属は であるとする。18人のハイパーパラメータは 投票確率 はディリクレ分布 得票数は多孔分布 でサンプリングされるとする。 結果としては 程度が多く、収束しなかった。また、n_eff が全然なかった。 また、 が何十万とかなって単純にμ's だと何倍人気になる、というのがわかりにくかったので、 の事後分布を各グループについて中央値を取って何倍人気に差があるか、にしている。すると2.5倍くらいμ's とAqours に人気の差があるようだった。 a <

    μ's とAqours の人気の差 - 驚異のアニヲタ社会復帰の予備
  • はじめての 統計データ分析 ―ベイズ的〈ポストp値時代〉の統計学― - 驚異のアニヲタ社会復帰の予備

    COI:筆者とはなんの関係もありません。 読んだ。 はじめての 統計データ分析 ―ベイズ的〈ポストp値時代〉の統計学― 作者: 豊田秀樹出版社/メーカー: 朝倉書店発売日: 2016/06/02メディア: 単行(ソフトカバー)この商品を含むブログ (11件) を見る細かいところはstan 神が書いているので、rstan ユーザーもしくは生物系解析者の立場で書いてみる。 まとめ ・具体例がたくさんあり、解釈の仕方も丁寧に書いてあるので、買い。 ・新時代の統計の教科書には な り え な い と思う。(辛口) ・初心者向け(大嘘 良い点 ・具体的 これに尽きると思います。 サイトからスクリプトが入手できるように、全部自分の環境で再現できる。 また、各章の解析で、RQ(Research Question)を設定しているが、例えば RQ.2 第1群と第2群の平均値の差の点推定。平均値の差の推定。

    はじめての 統計データ分析 ―ベイズ的〈ポストp値時代〉の統計学― - 驚異のアニヲタ社会復帰の予備
  • 離散曲面上のガウス曲率 - 驚異のアニヲタ社会復帰の予備

    3次元メッシュ上の点のガウス曲率を求める。 これとかこれ (PDF)とかに載っている。 あるvertex の周辺に の点がある。これはよく1-ring と書かれている。 結論から書くと、青で示された面積, で囲まれる三角形のの角度を用いて で定められる。曲面についてオイラー数とかガウス・ボネの定理とか使うと求まる。 のとき、である。これは、もともと基曲率によってガウス曲率がと書けることにより、, のどちらかが0である。このとき、1-ringのは平面となるのに一致してそう。 具体的な計算は、で囲まれる三角形について、が鋭角(non-obtuse)ならば外心点を、が鈍角(obtuse)ならばedge の中点とする。がすべて外心ならばボロノイ分割となるが、中点が混じればmixed cell という。 このとき、青色の領域の面積は 図はPDFより借用。 mesh オブジェクトの四元数座標、三角形

    離散曲面上のガウス曲率 - 驚異のアニヲタ社会復帰の予備
  • 声優統計第九号 声優力 - 驚異のアニヲタ社会復帰の予備

    この記事は R Advent Calendar 2016 Stan Advent Calendar 2016 ごちうさ Advent Calendar 2016 まんがタイムきらら Advent Calendar 2016 の25日目の担当記事です。 C91 で声優統計ネタとして声優力を推定します。声優力とはなんぞや、という話ですが、ある声優がアニメに出演するとき、主役だったりメインヒロインだったりすると、上位にキャストされると思います。そのキャストされるのがどれだけ上位か、というのをデータから得て、声優力の推定をします。 例えば総勢 人の声優が出演するとき、その 番目に名前があったとしたら、として声優力を[0,1] のデータにします。1 に近いと上位にいて、0に近いと末尾に名前があることに相当します。 これは[0,1] にしたかったので適当な変換になります。[0,1] にすると、 がベー

  • antimicrobial cycling - 驚異のアニヲタ社会復帰の予備

    読んだ。 Proc Natl Acad Sci U S A. 2004 Sep 7;101(36):13285-90. antimicrobial cycling という概念がある。細菌感染症に対して抗生物質を使うのだが、うまく治療していても耐性菌は生じることもあるし、適当に使ってしまえばさらに耐性菌のリスクがあがる。 ある抗生物質を使うことが耐性菌を生み出してしまうならば、ある一定期間抗生物質を使ったら、次の期間はごっそりと採用している抗生物質を入れ替えてしまえば、いままでいた耐性菌はいなくなるのではないか(代わりに新たに採用した抗生物質の耐性菌は出てくるけど)、という考えである。 数理モデルを使ったこの論文では、cycling による耐性菌の増加は防げない、ということになっている。 cycling そのものが効果があるかどうかはPLoS Pathog. 2014 Jun 26;10(6

    antimicrobial cycling - 驚異のアニヲタ社会復帰の予備
  • iCluster: オミックスデータの統合 - 驚異のアニヲタ社会復帰の予備

    読んだ。 Bioinformatics(2009)25(22):2906-2912. コピーナンバー(CNV)、発現データ(mRNA)、メチル化などのオミックスデータで、症例数 に対してパラメータ数 のデータ行列が複数ある。 各々の実験を勝手にやるのは、それはそれでいいが、CNV、発現、メチル化、プロテオームetc と 種類のいろいろなデータを取ったら、統合して考えたいと思うのは自然な発想である。 ここで、 次元のデータ行列 が、適当な係数行列、latent と呼ばれる、裏で共通して存在しているであろう(だが、観測はできない)因子 と誤差 を用いて として を求めたい。 iCluster パッケージにある。 あるオミックス実験(gene exprssion とか)は の行列データをヒートマップ化して、階層的クラスタリングで系統樹を書くことが多いが、 個のオミックス実験で 症例たちがk-me

    iCluster: オミックスデータの統合 - 驚異のアニヲタ社会復帰の予備
  • 重回帰のときに必要なデータの数はパラメータの数の10倍です - 驚異のアニヲタ社会復帰の予備

    読んだ。 J Clin Epidemiol. 1995 Dec;48(12):1503-10. パラメータ数が のデータを標数 個観測して重回帰なりなんらかの回帰分析を行うのだが、「標数はいくつあったらいいんですか?」と聞かれることが多々ある。そういうとき、パラメータの10倍(10)あったらいいんじゃないっすかね〜(適当 と答えることが多いのだが、パラメータ数に対する標数の割合(EPV, event per variables)が10 ならいいんじゃないっすかね(適当 と言っている論文。 論文中では673人の患者に対して7つのパラメータが測定されていて、252件の死亡についてCox 回帰を行うが、データセットをすべて使えば252/7 = 36 EPV のところを、2, 5, 10, 15, 20 とEPV の割合を変えてデータセットをリサンプリングしてCox 回帰を繰り返し、パラメー

    重回帰のときに必要なデータの数はパラメータの数の10倍です - 驚異のアニヲタ社会復帰の予備
  • Precision and Recall - 驚異のアニヲタ社会復帰の予備

    機械学習の分野で分類性能の評価に適合率と再現率というものがある。 医学分野での分類には、たいてい病気/非病気のラベルの分類にはReceiver Operating Characteristic (ROC) 曲線と曲線下面積AUC を使うが、情報系ではPrecision-Recall curve (PRC) とF1 値で評価されていることが多い。 ググればよく書いてあることだが、例えばラベルの片方、病気もしくは非病気が1件しかなくて、もう片方のラベルが1000とか十分あるときにどう評価するか、ということが問題になる。 RPC のほうがいいんでない? という話。PLoS One. 2015 Mar 4;10(3):e0118432. ROC とPRC の対応が図で出ていて非常にわかりやすい。 同じグループがprecrec (Bioinformatics. 2016 Sep 1. pii: bt

  • Ricci flow - 驚異のアニヲタ社会復帰の予備

    読んでる。Comput Vis Image Underst. 2013 Sep 1;117(9):1107-1118. Ricci flow という、Willmore flow とはまた違う条件で微分幾何学的物体変換を行う。 その前に下準備。 以前やった(離散)ガウス曲率は、1-ring下の三角形の角度と、と呼ばれる傘の面積で計算していたが、これはMeyer method というらしい。 来は、ガウス曲率は角度だけで計算できて となる。しかし、この場合は、論文の図にもあるけれども、理想的な球体のうえにランダムに点を発生させて三角形を作った時に、ガウス曲率の濃淡ができてしまう。というわけで、疎密に合わせてガウス曲率を補正したい。 というわけでで割る、らしい。 半径 の理想的な球を作っているので、ガウス曲率はである。 ほとんどが1の周辺に分布している。 1からかけ離れたガウス曲率をもつ頂点を

    Ricci flow - 驚異のアニヲタ社会復帰の予備
  • 時系列データにt 検定を行うことに関してstan 神の解析がやばい - 驚異のアニヲタ社会復帰の予備

    時系列データにt 検定を行うことに関して、すごいもにょっていたのだが、そもそもstan 神が既にモデル化してくれていた。 リンクでは2階差分と、変化点検出のコーシー分布の合わせ技を用いている。 そのままパクってやってみる。 diの95%ベイズ信頼区間が0を含んでいない期間が差がある期間と言えるでしょう。さらに、どこから差がありそうなのか、どれほど差がありそうなのかも確率付きで述べることができます。 ということが、stan による柔軟なモデリングで述べることができます。 話は飛ぶけど、読んだ。 はじめての 統計データ分析 ―ベイズ的〈ポストp値時代〉の統計学― 作者: 豊田秀樹出版社/メーカー: 朝倉書店発売日: 2016/06/02メディア: 単行(ソフトカバー)この商品を含むブログ (11件) を見る 書評はまた書くけれども、この時系列データと同じように、このでは、例えば分散分析や分

  • 時系列データにt 検定を行う - 驚異のアニヲタ社会復帰の予備

    読んだ Nature (2016) doi:10.1038/nature18294 PD1/PDL1 系の薬剤は高いので、それが良く効く患者集団を選びたいというのが最近のトレンドォ!!! 3' 側のUTR がないことで、PD-L1 の発現があがり、それによって免疫機構から逃れるPD1/PD-L1 axis がクッソすごいことになっているが、ニボルマブのようなPD1/PD-L1 を阻害するような薬剤で腫瘍増大が抑えられるという話。 Figure 4b で、正常マウス(Mock) にPBS(タダの水みたいなもの)と、自然免疫応答を促進して抗腫瘍効果を持つ(らしい)Poly(I:C)を投与した場合の、腫瘍体積の時間変化の実験と sgPd-l1 (single guide Pd-l1, 3'UTR に干渉してaberrant, つまりこの部分の遺伝子領域が機能しない状態を模倣している)マウスにPB

    時系列データにt 検定を行う - 驚異のアニヲタ社会復帰の予備