タグ

ブックマーク / ryamada22.hatenablog.jp (15)

  • Rare variant association analysis methods for complex traits - ryamadaの遺伝学・遺伝統計学メモ

    レビュー Rare variant association analysis methods for complex traits, by J. Asimit and E.Zeggini in Anu.Rev.Genet. 2010. 44:293-308 レアバリアント(マイナーアレルが<5%, <1%,further less) Multiple rare variant(MRV) hypothesis vs. Common disease common varinat hypothesis 複数の、比較的寄与度の強いレアバリアントが疾患リスクを構成している。個人は、このうちのいくつかを持つことでリスクが上がっている Common diseases におけるMRVの寄与に関する実例紹介 LD mappinng はレアバリアントに不向き LDでタグマーカーを取り出せない 解析方法3分類

    Rare variant association analysis methods for complex traits - ryamadaの遺伝学・遺伝統計学メモ
  • ブログをまとめる(4) 本にする - ryamadaの遺伝学・遺伝統計学メモ

    このブログを書き始めて5年強。いろんなことを調べて来ました。そんな調べ物をまとめてにする機会があったので、まとめてみました。書き始めの頃は800ページを超えていたのですが、削りに削って300ページ台にまで減らしました。こうしてようやく値段が4000円を切ったところです。。。 2010年9月4日頃から手に入るらしいです オーム社さんのサイトはこちら 遺伝統計学の基礎―Rによる遺伝因子解析・遺伝子機能解析― 作者: 山田亮出版社/メーカー: オーム社発売日: 2010/09/04メディア: 単行(ソフトカバー)購入: 7人 クリック: 155回この商品を含むブログ (38件) を見る に関する補助ページはこちら(はモノクロですが、このサイトではカラー版の図が見られます。また、すべての図の描図用Rソースコードがダウンロードできます) 「ブログをまとめる」に関する記事はこちら

    ブログをまとめる(4) 本にする - ryamadaの遺伝学・遺伝統計学メモ
    ma_ko
    ma_ko 2010/08/22
    急ぎの必要ないけど、手元にあるといいかも。版が上がって修正入った頃に欲しいなw
  • r2dtable()関数 - ryamadaの遺伝学・遺伝統計学メモ

    こちらで、固定した周辺度数のランダム分割表の発生関数r2dtable()を教えていただきました 発生のアルゴリズムはPatefield's algorithmというものだそうです。 RではCで書かれたR_r2dtable()関数を呼び出しています veganというパッケージには、行列(分割表)のパーミュテーション処理(らしき)ものがあるようです。こちらを参照。 SEXP R_r2dtable(SEXP n, SEXP r, SEXP c) { int nr, nc, *row_sums, *col_sums, i, *jwork; int n_of_samples, n_of_cases; double *fact; SEXP ans, tmp; nr = length(r); nc = length(c); /* Note that the R code in r2dtable() al

    r2dtable()関数 - ryamadaの遺伝学・遺伝統計学メモ
    ma_ko
    ma_ko 2010/07/27
  • ジェノタイプデータのPCAその2 - ryamadaの遺伝学・遺伝統計学メモ

    昨日の続き では、正方行列を作らずに、非正方行列のままsvd()をかけるとどうなるかもやってみます。 同じ構造を表す固有値と固有ベクトルが取れました。 #構造化集団をシミュレート Nm<-1000 #マーカー数 Npop<-4 #亜集団数 Ns<-c(100,150,200,250) #集団別人数 M<-NULL #全ジェノタイプデータを納める行列 #亜集団別にアレル頻度を振ってシミュレーション for(j in 1:Npop){ tmpM<-matrix(rep(0,Nm*Ns[j]),nrow=Nm) for(i in 1:Nm){ af<-runif(1)*0.8+0.1 f<-rnorm(1,sd=0.01) if(abs(f)>1) f=0 df<-c(af^2,2*af*(1-af),(1-af)^2) df[1]<-df[1]+f/2*df[2] df[3]<-df[3]+f

    ジェノタイプデータのPCAその2 - ryamadaの遺伝学・遺伝統計学メモ
  • ジェノタイプデータのPCA eigen() - ryamadaの遺伝学・遺伝統計学メモ

    集団構造化があるときに、PCAして、プロットすることがある。 その情報を使って、形質マッピング検定に用いる前座のようなもの。 この論文がEigenstratのそれですが。 ここでやっている、PCA部分をRでなぞってみます #構造化集団をシミュレート Nm<-1000 #マーカー数 Npop<-4 #亜集団数 Ns<-c(100,150,200,250) #集団別人数 M<-NULL #全ジェノタイプデータを納める行列 #亜集団別にアレル頻度を振ってシミュレーション for(j in 1:Npop){ tmpM<-matrix(rep(0,Nm*Ns[j]),nrow=Nm) for(i in 1:Nm){ af<-runif(1)*0.8+0.1 f<-rnorm(1,sd=0.01) if(abs(f)>1) f=0 df<-c(af^2,2*af*(1-af),(1-af)^2) df

    ジェノタイプデータのPCA eigen() - ryamadaの遺伝学・遺伝統計学メモ
  • 疾患関連遺伝子を検索する - ryamadaの遺伝学・遺伝統計学メモ

    友人から、教えてもらいました JSNP で疾患形質関連SNPリストが検索できる(こちら) その元ネタはこちら

    疾患関連遺伝子を検索する - ryamadaの遺伝学・遺伝統計学メモ
    ma_ko
    ma_ko 2009/07/04
    jSNPの"疾患/形質関連SNPリストは、既に見いだされている特定の形質や疾患で見られる多型についての情報を提供します。"の紹介リンク
  • 隠れマルコフモデルについてのイントロダクション - ryamadaの遺伝学・遺伝統計学メモ

    このレビューは短く(2ページ)、述べるべきをほぼ尽くしている 隠れマルコフモデルとは 統計モデルのひとつ 統計モデルは簡単にいうと、知りえた情報をもとに、知りたい真実へとたどり着くための道筋のこと 統計モデルの若干長い説明はこちら 知りたい真実が複数の要素からなっている その要素の間には相互関係がある このような場合には、すべての要素の真実を知ろうとしたときに、突然にすべての要素の真実がわかることはない(あるかも知れないが、現時点のコンピュータ技術ではできないし、ヒトの脳という精密機械では、直観という名の下に可能かもしれないが、その直観は検証不能(他者に説明不能)という意味で、やはり不可能と考えるのが妥当である。ただし、量子コンピュータなどの登場で事情は変わるかも知れない) では、複数の知りたい要素のうち、1つの要素の真実を知ってから(知ったことにしてから)次の真実についてを決める、という

    隠れマルコフモデルについてのイントロダクション - ryamadaの遺伝学・遺伝統計学メモ
    ma_ko
    ma_ko 2008/11/19
    リンク先の Nat. bio. の Primer 記事も読みやすい
  • de novo 変異 - ryamadaの遺伝学・遺伝統計学メモ

    トリオのデータからは、子の全座位のアレルの由来親が確認できます(以下の図参照)。 Father: F1F2F3... f1f2f3... Mother: M1M2M3... m1m2m3... Child: ...CiCi+1Ci+2Ci+3... = ...FiFi+1fi+2fi+3...fjfj+1fj+2fj+3... ...cici+1ci+2ci+3... = ...mimi+1mi+2mi+3...mjmj+1Mj+2Mj+3... 組換えが父方染色体のi+1番とi+2番との間で起きていることが分かります。ただし、塩基レベルでの組換え・交叉にあたっては、1塩基単位ではなく、数百ー千塩基長が巻き込まれますので、これよりは複雑です。 Ref1: Playing hide and seek with mammalian meiotic crossover hotspots. Tre

    de novo 変異 - ryamadaの遺伝学・遺伝統計学メモ
    ma_ko
    ma_ko 2008/11/10
    読んで、構造多型が de novo で起きる頻度はどの程度なのだろう?、という疑問がでた
  • 2006-02-18

    最尤推定や最小自乗法等、ある目的関数の最適化に用いる汎用関数 RWikiの該当ページはこちら Rの Htmlヘルプ"nlm{stats}"も参考のこと ごくごく簡単に 今、に近似できるデータを持っているとする。aの値がわからないので、それを推定したいとする。データは datay,dataxというペアデータとしてもっているとする。 今、このdatay,dataxのデータセットについて、が、yの値の差であり、その自乗をすべてのデータペアについて足し合わせた値がもっとも小さくなるような a の値を求めたいものとする 最小にしたい値を計算する関数 f を次のように書く f<-function(x,y,a) { sum((y-a*x^2)^2) } aの推定にあたっては、この式と、推定を開始するためのaの初期値と、データセットをnlm関数に次のように渡す nlm(f,3,x=datax,y=data

    2006-02-18
    ma_ko
    ma_ko 2007/12/07
    nlm/optim みたいなやつ
  • 価値の高い場合に集中する - ryamadaの遺伝学・遺伝統計学メモ

    マルチプルテスティング補正において頑健な手法としてパーミュテーションテストがある。GWAにおいても形質のラベルシャッフリングの全順列を調べ上げる方法と、全順列は多すぎるので、モンテカルロ・シミュレーションにより、順列を抽出チェックすることで、観測された統計量の帰無仮説棄却の程度を推し量る方法である。 ただし、GWAではマーカー数が数十万(仮説数が数十万からのその数倍)、サンプル数が数千から万になっている今、順列数が多すぎること、また、観測統計量の大きさ(みかけのP値としての小ささ)から、非現実的である。 Am J Hum Genet 79, 481-492. 2006 にてKimmet and Shamirらが示しているように、調べる順列を効率よく選ぶことによって、この問題を越えることも可能である。彼らが論文にて適用しているインポータンスサンプリングは次のような仕組みである。 (1)全順

    価値の高い場合に集中する - ryamadaの遺伝学・遺伝統計学メモ
    ma_ko
    ma_ko 2007/09/19
    importance sampling/RAT
  • Copy Number Variations, CNV - ryamadaの遺伝学・遺伝統計学メモ

    3レビュー Copy number variation: New insights in genome diversity Genome Research 16:949-961, 2006 こちら と Structural variants: changing the landscape of chromosomes and design of disease studies Human Molecular Genetics Volume 15, Review Issue 1 Pp. R57-R66 こちら Nature Reviews Genetics 7, 85-97 (February 2006)こちら もし、電子ジャーナル文にアクセスがあれば、簡潔な図表はこちらとこちら

    Copy Number Variations, CNV - ryamadaの遺伝学・遺伝統計学メモ
    ma_ko
    ma_ko 2006/10/17
  • Joint analysis (Staged design of association study) - ryamadaの遺伝学・遺伝統計学メモ

    Skol AD et al. Joint analysis is more efficient than replication-based analysis for two-stage genome-wide association studies. 2006 Nat Genet 38(2):209-13 リンクはこちら 同論文で実行されている検出力等の計算アプリケーションのダウンロードサイトへのリンクはこちら Staged design サンプルの数(N)が多い。マーカーの数(M)も多い。このようなとき、NxMのタイピングをするのは労多くしてそれに見合う利益が伴わないだろうことは容易に想像がつく。一部のサンプルですべてののマーカーに探りを入れて、有望なマーカーにのみ多くのサンプルをつぎ込むのは正しいやり方に思われる。このように、NxMのタイピングをする代わりに、段階を追って、N数を増や

    ma_ko
    ma_ko 2006/09/12
    2段階に分けて解析する、統合して解析、の話/CaTSの話
  • False Discovery Rate - ryamadaの遺伝学・遺伝統計学メモ

    多数の仮説検定を行っている。ある棄却水準を与え、多数の仮説のどれが棄却されどれは棄却されないかを判定する方法のひとつ。 基となる考え方はこう。 具体的に。 100個の仮説を検定しているとする。100個の仮説のそれぞれに、個別仮説検定P値を得る。独立な100個の仮説があり、それらが独立であるとすると、100個のP値の分布は、0から1までの一様分布をとると期待される。したがって、100個のP値が、100個の仮説検定という条件においても仮説を棄却するかどうかの判断は、仮説が1個の場合よりも厳しくすることが適当であると考える。 Bonferroni補正とFDRを比べるとき、その検出力は、複数の帰無仮説がすべて正しいときには変わらないが、複数の帰無仮説の中に棄却されるべき仮説が多く含まれれば含まれるほど、FDRを用いることによる検出力の改善効果が期待できると言う。この関係は、駆け足で読むシリーズM

    ma_ko
    ma_ko 2006/08/13
    FDRの話
  • 2005-12-28

    あるマーカーとあるマーカーの間の連鎖不平衡の強さは、そのマーカー間におきた組み換えの多寡を反映している。組み換えは、マーカー間の距離と、その2マーカーが共存した時間とに影響を受ける。近接するマーカーよりも互いに遠距離にあるマーカー間の方が組み換えはおきやすくLD指標は小さくなるし、マーカーのうちの若い方が若い方(発生してから間のない)が、両マーカーともが古くから存在しているよりもLD指標は大きくなる。今、ある領域に複数のマーカーがあると、そのマーカーの数Nに対して、ペアがあり、そのそれぞれに連鎖不平衡係数と連鎖不平衡検定とを実施することができる。今、DNA配列上のある1点について、そこにどれくらい組み換えが起きたかは興味の対象である。それを知るには、その1点をまたいでいるSNPペア間のLDの情報がすべて役に立つ。これが、領域のLD解析の基礎である。をプロットしたのが、HaploviewのL

    2005-12-28
    ma_ko
    ma_ko 2005/12/30
    Haploviewのpedファイルの説明あり、GOLDと同じくlinkageファイル形式を採用、0(不明)とすることで独立した個人データも解析可能
  • Haploviewに実装された諸ツールの出典 - ryamadaの遺伝学・遺伝統計学メモ

    HaploviewはHapmapプロジェクトデータからのデータダウンロードに対応したSNPデータの連鎖不平衡解析ツールである。そのウェブサイトはこちら。その公開は論文化に先立ってなされていたが、その概要の論文化は2005年に入ってから(Barrett JC, Fry B, Maller J, Daly MJ. Haploview: analysis and visualization of LD and haplotype maps. Bioinformatics. 2005 Jan 15 [PubMed ID: 15297300](Haploviewホームページによるフリー(多分)アクセスPDF)) 同論文で触れられている諸法の出典は以下のとおり Pairwise LD D', r^2(概説、ただしはr,は) LD指標値の信頼度としてのLOD値に関する説明は遺伝解析パッケージArlequ

    ma_ko
    ma_ko 2005/12/07
    Haploviewが用いてる連鎖不平衡係数、関連検定法、taggerの説明。論文とマニュアルと合わせ読むと良い
  • 1