サクサク読めて、アプリ限定の機能も多数!
トップへ戻る
アメリカ大統領選
mikuhatsune.hatenadiary.com
西浦先生が日本の実効再生産数を推定した。 コードはrstanで下記から取れる。 https://nbviewer.jupyter.org/github/contactmodel/COVID19-Japan-Reff/tree/master/ 解説動画を見逃したのでコードと関連論文からのお勉強になるが、肝としては、 ・知りたいのは「感染した日」である。 ・診断日もしくは報告日は、データを収集して統計を取っているのでわかる。 ・診断されるには検査される必要があるから、だいたい症状か接触歴があって、発症日はそこそこデータがある。 ・感染した瞬間、はもちろん発病(はほとんど)していないのでわからない。 という前提がある。PDFの「患者」の観測データについて、の項。 (誰からから感染させられる)ー感染日ー発症日ー診断日/報告日という一連の流れについて、まったく情報がないわけではなく、いままでの数理モ
読んだ。 Estimating the asymptomatic proportion of coronavirus disease 2019 (COVID-19) cases on board the Diamond Princess cruise ship, Yokohama, Japan, 2020. - PubMed - NCBI COI:なし ダイヤモンド・プリンセス号のPCR検査と陽性数および症状のある・なしのデータから、無症状でPCR陽性となる患者の割合を推定しようという試み。 The asymptomatic proportion was defined as the proportion of asymptomatically infected individuals among the total number of infected individuals. とあるよ
読んだ。 A Simulation on Potential Secondary Spread of Novel Coronavirus in an Exported Country Using a Stochastic Epidemic SEIR Model. - PubMed - NCBI COI:筆者はこの著者とは直接の関係はないので、純粋に統計解析のツッコミです。 こんなツイーヨを観測した。 A Simulation on Potential Secondary Spread of Novel Coronavirus in an Exported Country Using a Stochastic Epidemic SEIR Model. - PubMed - NCBI https://t.co/P2FQHeJkcX— 岩田健太郎 Kentaro Iwata (@georgebe
読んだ。 Incubation period of 2019 novel coronavirus (2019-nCoV) infections among travellers from Wuhan, China, 20-28 January 2020. - PubMed - NCBI 最初に武漢で肺炎が発生したときに、88症例について感染履歴を聴取して、ワイブル分布で潜伏期間を推定すると平均6.4日(95% credible interval (CI): 5.6–7.7)、潜伏期間の幅は2.1から11.1日(2.5th to 97.5th percentile)だった、という。 論文ではワイブル分布のほかに、ガンマ分布、対数正規分布で推定して、looicでもっともよかったのがワイブル分布だった、と言っている。 supplemental にスクリプトがあったのでぱくってやってみる。 結果と
高校サッカーを見ていた。2017年度は前橋育英が初優勝で幕を閉じた。 どの試合だったか忘れてしまったが、2点差がついたときに解説が「2点差は危険」ということを言っていた。 調べてみると、やはりよく言われていることのようだが、実際にデータをとってみると、プレミアリーグでは2点差をひっくり返して勝つ確率は1.71%、Jリーグでは2点差からドローが5%、2点差から敗北5%だったらしい。 自分はユース年代のファンなので、せっかくJFA が公式に試合記録を出してくれるということもあって、冬の高校選手権の得点時間を抽出して、2点差が危険なのかどうかを解析したい。 JFA から公式記録PDF を取得するが、2009年(88回大会)から2017年(96回大会)まで存在していて、各大会47試合ある。ただし、2009年はPDF の都合でデータをパースできなかったので全部で379試合が対象である。 試合記録から
この記事は 今年読んだ一番好きな論文2017 Advent Calendar 2017 の2日目が空いているということにこの記事を書いてから気づいて、1000円相当の参加賞があることに目がくらんで加筆修正した記事です。2017年で一番好きかというとそうでm(ここで文章が途絶えている けれどもこういう状況でいい検定法がなくて困る人がいるかもと思って書いておく。 昨年度は猫じゃら賞を受賞し、ちまたで噂のがくしん本をいただきました(白目 今年読んだ一番好きな論文2016 - 驚異のアニヲタ社会復帰への道 読んだ。 Cell. 2016 Dec 1;167(6):1495-1510.e12. 腸内フローラの細菌数はoscillation していて、そのoscillation は宿主の遺伝子発現、メチル化状態に影響していて、腸管を超えて肝臓の発現oscillation にも、肝障害応答にも影響してい
という質問を受けた。 http://www.bmj.com/content/342/bmj.d561.long https://www.ncbi.nlm.nih.gov/pmc/articles/PMC3286439/ 設定としては、n=30 人ずつの2群に対して,片方にはアンチエイジング効果がありそうな薬、対照にはプラセボを与えて、投与時(t=0)と6ヶ月後(t=6)に効果をそれぞれ測定する。 介入群では、t=0 とt=6 との比較で有意であり、対照ではt=0 とt=6 との比較で有意ではなかった。これらの結果をもって、「介入群の薬は、有意に効果があった」と結論づけている。 これがダメなのはどうしてだろうか。 帰無仮説検定の枠組みから考えれば、上記の解析で行われたのは、「介入群でt=0 とt=6 の比較」と「対照群でt=0 とt=6 との比較」であり、「介入群と対照群の比較」は行われてい
読んだ。 ClusterSignificance: a bioconductor package facilitating statistical analysis of class cluster separations in dimensionality reduced data Bioinformatics. 2017 Oct 1;33(19):3126-3128. オミックス解析などをすると複数パラメータの高次元データが得られるが、これをPCAやtSNE をして適当に次元削減して3次元プロットはよくする。 このとき、既にラベルが与えられている(病気の症例など)のを、3次元空間になったから目で見てそれっぽいクラスターになっているよね、と判断するのではなく、ノンパラメトリックに解析してクラスターが分かれていることを示すパッケージがClusterSignificance である。 いま、
この記事はRStudio Advent Calendar 2016 の9日目の記事です。 Rstudio、使ってますか? 私は使っていません。 インストールはしてあります。Rstudio を使う利点は、OS が異なっても統一された解析環境を用意できることです。R 初心者にR を使ってもらう時に「Rstudio っていうのが使いやすいらしいから一緒にインストールしておいたらいいよ」って適当なことを言うことがあります。 windows OS では、R ショートカットアイコンをクリックして起動すると、おなじみのR 枠とR GUI がでてきます。 R 枠が邪魔でしょうがないひとは、R ショートカットアイコンを右クリックして、プロパティのリンク先の末尾に --sdi を追加しましょう。幸せになります。 windows 版のRはエディタが貧弱です。Ctrl+R で選択範囲をコンソールに実行することがで
声優統計コーパスというものがある。 日本声優統計学会 プロの女性声優 3 名が 3 パターンの感情表現で読み上げた音声 2 時間分 を「声優統計コーパス」として無料公開します - 糞糞糞ネット弁慶 音素バランス文という、音声言語研究では非常になんかいい例文があって、それをプロの声優に読み上げてもらうことで、テキストマイニング、音声研究に役立てようというデータベース。 基本的に利用、解析、ダウンロードは無料で、「同人誌や論文などで利用される場合」となぜか同人誌のほうが論文に先んじて書かれる始末。 声優は女性声優3人が、100の音素バランス文を普通に、喜んで、怒って、の3つの感情パターンで読み上げているため、音声の感情の研究にも使える。 BGM のない、アフレコ音声なので、音声合成などにも使えそうである。 ここで、音素バランス文の構築自体は、別の話なので上のリンクからたぶん関連記事に辿れるとお
こんな記事があった。あるアニメショップでキャラの人気投票をしたら、ラブライブにおいてμ's のメンバーのほうが、Aqours のメンバーより総じて上位だったらしい。 というわけで、2グループの人気はどれくらいの差かを考える。 2グループ各9人、全部で18人のキャラの得票数がある。あるベース に各キャラの効果、グループ効果 があり、18 人の所属は であるとする。18人のハイパーパラメータは 投票確率 はディリクレ分布 得票数は多孔分布 でサンプリングされるとする。 結果としては 程度が多く、収束しなかった。また、n_eff が全然なかった。 また、 が何十万とかなって単純にμ's だと何倍人気になる、というのがわかりにくかったので、 の事後分布を各グループについて中央値を取って何倍人気に差があるか、にしている。すると2.5倍くらいμ's とAqours に人気の差があるようだった。 a <
PK 戦の順序が勝ちやすさに影響するか考えたかったけど、データを集めた時点で先攻が勝つ確率が50% だったので、いろいろな条件のもとでのPK の成功率を考えていた。 stan でやってみる。 PK は10人が蹴るまでに終わるとする(154試合1389回)。 各PK での成功率は である。これが、1人目から10人目までのうち 番目のキッカーに対して、以下の影響(係数) があるとする。 :切片。他の影響が何もないときの基礎成功率。 :直前の相手の成功(1)/失敗(0) による影響。直前の相手の成功/失敗は のベルヌーイ試行とする。 :直前の味方の成功(1)/失敗(0) による影響。直前の味方の成功/失敗は のベルヌーイ試行とする。 :PK の回が進むに連れて受ける影響。 にそのまま線形に乗ずる。 :そのPK を成功すると勝利、もしくは、失敗すると敗北のフラグに関する影響。そのPK の成功/失敗
こんな記事があった。簡単にいうと、PK戦は先攻有利と言われているから、先攻後攻をABABAB... とやるのではなく、途中で入れ子にしてABBAABBA... というような順序でやろう、という話である。 実際にPK戦が先攻有利かというと、先攻は6割くらい勝つらしい(PDF)。 ということで、英語論文をあたってみると、269のPK戦の、2820回のPK なので間違えているようである。ならば、このデータを取ってこようと思って本文を見ると、FIFA から取れると書いてありながら、ちょっと探したくらいではなかった。というのも、単純なPK戦のスコアだけでなく、各PKごとの順番と成功/失敗のデータが必要なのである。 Psychological Pressure in Competitive Environments: Evidence from a Randomized Natural Experim
ここに書いてあることはすべて個人の感想です。別にデザインについて勉強してきたわけではないので有識者の人は適当に読み流してください。 beamer を使ってスライドを作成してプレゼンしてきた。結果としてはppt と比べて遜色ない発表ができた(適当 beamer を使う理由としてはネット上ではいろいろあるが、個人的にはwindows、ppt を○すために使っている。というのも、数式を使うことが多いのだが、2010で作成したpptx を2007とかで開くと数式オブジェクトが死んで画像になっていたり、windowsで作成したものをmac で開いたら下(上)付き文字が矢印になっていたりして発狂した人は少なくないだろう。 beamer を使うということは、tex で書いているものを流用できるわけだが、markdown などでtex 記法を使って書いているものがそれなりにあると、いろいろ使いまわせて便利
読んだ。 Machine learning-based prediction of adverse drug effects: an example of seizure-inducing compounds プレスリリース COI:なし 薬学も電気生理学も情報科学も何ひとつ専門ではないけど、100%予測に釣られたので書く。 seizure (けいれん)を引き起こす副作用のある薬物を、Caffe を用いたdeep learning とSVM による機械学習で100% 予測しました、というweb ニュースがでているが、実際には、論文でけいれんが報告されているジフェンドラミン、エノキサシン、ストリキニーネ、テオフィリンの4剤とけいれんを絶対に起こすピクロトキシン1剤、けいれんの副作用はないということになっているアスピリン、シメチジン、デキストラン、ジアゼパム、イブプロフェン、イミプラミン、ケタ
この記事は R Advent Calendar 2016 Stan Advent Calendar 2016 ごちうさ Advent Calendar 2016 まんがタイムきらら Advent Calendar 2016 の25日目の担当記事です。 C91 で声優統計ネタとして声優力を推定します。声優力とはなんぞや、という話ですが、ある声優がアニメに出演するとき、主役だったりメインヒロインだったりすると、上位にキャストされると思います。そのキャストされるのがどれだけ上位か、というのをデータから得て、声優力の推定をします。 例えば総勢 人の声優が出演するとき、その 番目に名前があったとしたら、として声優力を[0,1] のデータにします。1 に近いと上位にいて、0に近いと末尾に名前があることに相当します。 これは[0,1] にしたかったので適当な変換になります。[0,1] にすると、 がベー
読んだ。 StanとRでベイズ統計モデリング (Wonderful R) 作者: 松浦健太郎,石田基広出版社/メーカー: 共立出版発売日: 2016/10/25メディア: 単行本この商品を含むブログ (10件) を見るCOI:謹 呈。激甘書評。 rstan の神が丹精込めて書きあげた、至高の一冊。 「StanとRでベイズ統計モデリング」松浦健太郎 という本を書きました - StatModeling Memorandum rstan、統計モデリングをするものでこれを読んでない人は本当読んだほうがよい。 かつて、岩波DS vol.1 をいただいてからというものの、rstan をがんばって声優統計を書いてみたりしたが、この本は筆者の経験による、rstan を使ったり統計モデリングをしたりする際の、細かな注意点と実際のやり方があますとこなく説明されている。 その意味では、数式的に証明がどうとか、理
サンシャインメンバーのセリフ回数を調べたので、そのまま名前の呼び合いグラフを作った話。 名前を呼んでいる、愛称は可。善子が自分のことを「善子ちゃうわヨハネや」というのも両方カウントしている。 ダイヤのことを生徒会長、鞠莉のことを理事長はよそよそしいので除外、ただし、ルビィがダイヤのことをお姉ちゃんと呼ぶのは可。 前回は無向グラフで扱ったが、今回は自分を呼ぶことも含めている有向グラフとした。 結果としては 1話で千歌がラブライブと言い出して2話で梨子を捕まえつつ1年生組にコナかけつつ、3話でなんとかライブをして4話でルビィ、花丸のメンバー入りの気持ちを確かめ、5話で善子をとりこみつつ6-8話でちょいシリアスが入りながら9話で果南を取り込み、10-11話でヨーソローにスポットライトがあたりすぎ感を出しながら12話はなんとかつないで、13話では誰得ミュージカルチックに仕上げているのがわかる。 グ
読んだ。 確率的グラフィカルモデル 作者: 鈴木譲,植野真臣,黒木学,清水昌平,湊真一,石畠正和,樺島祥介,田中和之,本村陽一,玉田嘉紀出版社/メーカー: 共立出版発売日: 2016/07/23メディア: 単行本この商品を含むブログ (2件) を見るCOI:ラボにあった。編集者とは名刺交換したことがある程度。 ベイジアンネットワークのようなグラフィカルネットワークについての話はあまり詳しくないので読んだ。複数人が各章を好き勝手に書いているが、用語や記法は統一されているのでそこまで混乱しない。 統計力学とグラフィカルモデルはほとんど知らない分野だったので意味不明なところがほとんどだったが、それ以外はグラフィカルモデルの基礎と、ゲノム解析に応用した例もあり、なかなかよかった。 用語や定義を覚えていないので写経しておく。 d分離という概念が重要である。A→B→C という逐次結合の時、B の状態が
読んだ。 J Clin Epidemiol. 1995 Dec;48(12):1503-10. パラメータ数が のデータを標本数 個観測して重回帰なりなんらかの回帰分析を行うのだが、「標本数はいくつあったらいいんですか?」と聞かれることが多々ある。そういうとき、パラメータの10倍(10)あったらいいんじゃないっすかね〜(適当 と答えることが多いのだが、パラメータ数に対する標本数の割合(EPV, event per variables)が10 ならいいんじゃないっすかね(適当 と言っている論文。 論文中では673人の患者に対して7つのパラメータが測定されていて、252件の死亡についてCox 回帰を行うが、データセットをすべて使えば252/7 = 36 EPV のところを、2, 5, 10, 15, 20 とEPV の割合を変えてデータセットをリサンプリングしてCox 回帰を繰り返し、パラメー
というよりPC 環境全般の話。 スクリプトを書いている。 しかし、マウスGUI ユーザーなので残念ながら腱鞘炎になってしまった。 通常のマウスをやめてトラックボールにしたが、母指IP 関節が半端無く痛い。 というわけで利き手とは逆の手にマウスもおいている。 腱鞘炎の治療の基本は安静である。というわけで動かす機会を減らすことが重要である。 マウスを使う機会を減らすには、ショートカットキーを駆使したCUI 操作が重要である。 ubuntu 環境ではgedit もしくはtextadept を使い、ターミナル上に起動しているR にAlt + tab で切り替えてコピペ もしくはRstudio のエディタとRstudio 上のR コンソールをCtrl + 1 or 2 で行ったり来たりして使っていた。 これでマウスを使う機会がそれなりに減ったため、腱鞘炎も緩和されてきたが、やはりマウスでクリックして
遺伝統計夏の学校というものに来ている。 データベースが増えすぎていてすべてはもちろんわからないので、知った時に知識を増やしておこう。 スライドより一覧。 ゲノム・遺伝子情報のWebツール UCSC Genome Browser https://genome.ucsc.edu/cgi-bin/hgGateway ゲノム配列の標準的な閲覧サイト。遺伝子周辺のヒトゲノム領域において、塩基配列・遺伝子情報・エピゲノム情報・SNP、等の情報を閲覧することができます。 NCBI Gene http://www.ncbi.nlm.nih.gov/gene/ 遺伝子情報を集約した標準的なデータベースです。 HGNC (HUGO Gene Nomenclature Committee) http://www.genenames.org/ 遺伝子の名称をまとめた公式サイトです。 EMBL-EBI http:/
読んだ Nat Genet. 2016 Aug 1. 様々なデータを取ってきて、遺伝子との相関があるかを解析するわけだが、サンプルの人数、組織、遺伝子の3次元をサンプル×要素(component やfactor と呼ぶ)と要素×遺伝子の行列に分解することで、テンソル分解してデータの構造をいじる。 もちろん、時間次元をいれて4次元テンソルとかN次元テンソルとかも発展版ができる。 遺伝子を扱うときは、たいてい、遺伝子発現データが数万で、サンプルが100から1000といういわゆるp>>n 問題に直面する。そのため、spike-and-slabという方法で変数を減らしている。 個の変数がモデルにあるとする。はと同じ長さで、である。0ならばモデルにパラメータを取り入れず、1なら採用する、というフラグである。が採用される確率は、特に理由がなければベルヌーイ分布を使う。 モデルは普通にパラメータに対して
球面上に均一な点を配置したい。約N個ならばこんな感じでやれるが、厳密にN 個おきたい。 実装が簡単なこれをやってみる。 そもそも、なぜ均一な点を球面上に配置したいかというと、基準点集合として扱えるからである。計算機では3次元データは離散的に持っており、ある球面上の点と別の物体の球面上の点を比較したいときに、両者で揃っていて、なおかつ有限個でありながら無数の点があれば離散でも連続っぽく扱えるため、比較がなんとかできるようになる。だから均一な点をたくさん発生させたい。 しかしながら、数学的に厳密な球面上の均一配置は不可能である。正多面体を考えて、その頂点に点を配置させれば、厳密に均一な点が配置できるが、正多面体は四、六、八、十二、二十に限られているので、たくさん均一な点を置きたいときには不便である。 球面上にランダムに点を発生させたときは、球面全体で見れば均一だが、局所的には疎だったり密だった
COI:筆者とはなんの関係もありません。 読んだ。 はじめての 統計データ分析 ―ベイズ的〈ポストp値時代〉の統計学― 作者: 豊田秀樹出版社/メーカー: 朝倉書店発売日: 2016/06/02メディア: 単行本(ソフトカバー)この商品を含むブログ (11件) を見る細かいところはstan 神が書いているので、rstan ユーザーもしくは生物系解析者の立場で書いてみる。 まとめ ・具体例がたくさんあり、解釈の仕方も丁寧に書いてあるので、買い。 ・新時代の統計の教科書には な り え な い と思う。(辛口) ・初心者向け(大嘘 良い点 ・具体的 これに尽きると思います。 サイトからスクリプトが入手できるように、全部自分の環境で再現できる。 また、各章の解析で、RQ(Research Question)を設定しているが、例えば RQ.2 第1群と第2群の平均値の差の点推定。平均値の差の推定。
時系列データにt 検定を行うことに関して、すごいもにょっていたのだが、そもそもstan 神が既にモデル化してくれていた。 リンクでは2階差分と、変化点検出のコーシー分布の合わせ技を用いている。 そのままパクってやってみる。 diの95%ベイズ信頼区間が0を含んでいない期間が差がある期間と言えるでしょう。さらに、どこから差がありそうなのか、どれほど差がありそうなのかも確率付きで述べることができます。 ということが、stan による柔軟なモデリングで述べることができます。 話は飛ぶけど、読んだ。 はじめての 統計データ分析 ―ベイズ的〈ポストp値時代〉の統計学― 作者: 豊田秀樹出版社/メーカー: 朝倉書店発売日: 2016/06/02メディア: 単行本(ソフトカバー)この商品を含むブログ (11件) を見る 書評はまた書くけれども、この時系列データと同じように、この本では、例えば分散分析や分
読んだ Nature (2016) doi:10.1038/nature18294 PD1/PDL1 系の薬剤は高いので、それが良く効く患者集団を選びたいというのが最近のトレンドォ!!! 3' 側のUTR がないことで、PD-L1 の発現があがり、それによって免疫機構から逃れるPD1/PD-L1 axis がクッソすごいことになっているが、ニボルマブのようなPD1/PD-L1 を阻害するような薬剤で腫瘍増大が抑えられるという話。 Figure 4b で、正常マウス(Mock) にPBS(タダの水みたいなもの)と、自然免疫応答を促進して抗腫瘍効果を持つ(らしい)Poly(I:C)を投与した場合の、腫瘍体積の時間変化の実験と sgPd-l1 (single guide Pd-l1, 3'UTR に干渉してaberrant, つまりこの部分の遺伝子領域が機能しない状態を模倣している)マウスにPB
ASAの声明とそのプレスリリース(100%予測ではない)が話題になっている。 英語自体は平易だが面倒ならば某データサイヤ人が日本語で記事を書いている。 少なくとも、この記事というかp値について個人的見解を言うならば、 Scientific conclusions and business or policy decisions should not be based only on whether a p-value passes a specific threshold. というのは非常によくわかるのだが、だからと言ってp値はクソ!!いまの時代はモデリング!!(言い過ぎ)というのは、たぶん、自分の分野ではまだp値はモデリングとか他のなんかすごいやつにはとって変わらず、この先15年はp値が主流ではないかと思う。 というのも、やはりp値がここまで主流なのは、p値といえばまあそれが何を意味して
まなびラインとは 単純に言うと、2期制作閾値となるアニメBD/DVD 売上枚数のことである。 売りスレとしては、アニメ円盤の第1巻の売上と、すべての巻が出た時の平均などがバロメータとなる。 まなびラインは第1巻の売上が2899枚、全巻平均で約2300枚が相当する、と言われている。堀江由衣が出ているにも関わらずみたことがなくて恐縮だが、2期制作ライン、と冒頭で紹介しておいて実は もっとも、「採算ライン」として広まっているものの、明確な根拠までは無いようで、どうやら、この「まなびストレート!」は作画が良くファンもそこそこいたのに売上は芳しくなかったことで話題になり「作画は良くても売上が伴わないイマイチなアニメ」という印象となったことに加え、「まなび」の後の作品でDVD売上が下回った作品はいずれもイマイチな作品だったことから、そこそこの出来を示す「ライン」として基準扱いされるようになったと思われ
次のページ
このページを最初にブックマークしてみませんか?
『驚異のアニヲタ社会復帰の予備』の新着エントリーを見る
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く