タグ

ブックマーク / ryamada22.hatenablog.jp (13)

  • なんちゃって平滑化その2 - ryamadaの遺伝学・遺伝統計学メモ

    こちらで『なんちゃって度数分布平滑化』というのをやった 多次元に拡張しよう やり方は同じ。乳幼児の学習過程レベルの処理に限定する 多次元の点分布を「感知」し、それを隣接細胞の刺激を順次足し合わせていく また、順次、差分を取る。ただし多次元に上がったので一次の差分は1地点あたり次元数の方向の偏差分になる また、1次元度数分布では、2次の差分も取ったが、多(n)次元に上げるとの偏差分が必要になる 偏差分の成分がと大きくなることからわかるように、各点の勾配情報はn方向に関する、単調増・単調減・極大・極小の4通りについてn方向組み合わせになってくる まずは、和をとって平滑化することと、2次の偏差分までとってみよう 次元方向の2次の偏差分の正負入れ替わりで最適化してみる 2次元程度なら視細胞数がそこそこだが、次元が上がると、素子数が多くなってコンピュータ上では問題が生じるが… # データの座標によら

    なんちゃって平滑化その2 - ryamadaの遺伝学・遺伝統計学メモ
  • なんちゃって平滑化 - ryamadaの遺伝学・遺伝統計学メモ

    こちらで『なんちゃってPCA』というのをやった どういうことかというと、乳幼児(のようにPCAとか行列とか算数とかがわからない生物)は、そんなことを知らなくても、視覚処理をするし、眺めるべき方向を選択することはできる、という話だった じゃあ、そんな「なんちゃって」な乳幼児が1次元空間の点の標分布を眺めるとき、どんな風に処理するのだろう、処理して「かいつまむ」としたら、どんな風にするだろう、という話 「なんちゃって乳幼児」は、1次元空間上の密度を知りたい、などとは考えない 視覚刺激をなんらかの系統だった、しかも単純な処理をすることで、「いい感じ」な視神経-脳神経電気刺激パターンを得られるように視覚処理系を訓練していくはず 単純な処理としては、網膜の光刺激で励起する細胞の第1層から始まってそれを多段階的に処理する多層があるだろう。そして、その多層の細胞は「和」と「差」を取ることくらいしかしな

    なんちゃって平滑化 - ryamadaの遺伝学・遺伝統計学メモ
  • なんちゃって正規直交基底 - ryamadaの遺伝学・遺伝統計学メモ

    こちらで多次元オブジェクトの減次元視覚という話をしている 何かしらのルールで情報量の多さを定め、その多い順に軸を定めつつ、正規直交基底を取り出したい、ということ PCAと同じ話 ただしPCAでは、情報量の多さとは、軸に関する分散の大きさであって、線形代数的に解けることになっている 今、情報量の多さについての定義を自由にしてしまったので(この先、正規直交基底の『直交』も必要条件でなくしていく予定(かもしれない)だったり、線形独立基底でもなく、適切な数の軸、というくらい自由にするかもしれないのだけれど、ひとまず、正規直交基底は扱いやすいのでそうしておくとする)、線形代数で解くのはよろしくない それよりは、視覚を発達させつつある乳幼児的に『矯めつ眇めつ』する方法を計算機にやらせたい 乳幼児は、情報量の多い軸をどうやって選んでいるのだろう? 大きく2つ考えられる 1つ目の方法は、視点ごとに情報量

    なんちゃって正規直交基底 - ryamadaの遺伝学・遺伝統計学メモ
  • ぱらぱらめくる『A Brief Introduction to Statistical Shape Analysis』形の統計解析 - ryamadaの遺伝学・遺伝統計学メモ

    多次元視覚について書いていて(こちら)、多次元視覚には、「形」の観察と「トモグラム」的観察があることも書いた(こちら) 「形」の観察の統計学は"Statistical shape analysis"(Wiki記事)と言われる分野である そこでは、形の定義があって(形とは、位置・縮尺・回転などによって変わらない幾何学的性質Wiki記事であって、言い換えると、等長変換(rigid transformation)と均等スケーリング(uniform scaling)とによって変化しない幾何学的性質)、それに基づいて、モデル的形のカタログがあり、それとの異同を定量的に評価している そんな形の統計解析の資料PDF(こちら) Rでは"shapes"パッケージというのがあってProcrustes analysis(Wiki)を実装したものらしい ちなみに「トモグラム」的観察の方は情報が一次元分増えるので、

    ぱらぱらめくる『A Brief Introduction to Statistical Shape Analysis』形の統計解析 - ryamadaの遺伝学・遺伝統計学メモ
  • var- - ryamadaの遺伝学・遺伝統計学メモ

    「遺伝統計学トリビア」の実験中(こちらで、年末年始のため、アクセスがほとんどなくなる時期にこっそりと) 科学分野で用いられる術語は一般用語としての意味と区別する必要もあってこんがらがる 「名詞」として使っているのか「形容詞」として使っているのかを区別する必要もある 「名詞」だとわかっても、その術語は「もの」を表しているのか、「こと」を表しているのかを区別する必要もある 科学分野ごとに使い方が異なるのも痛い variant,variation,mutant,mutation 生物学・遺伝学 いずれも名詞 variant,mutantは「もの」を指す名詞、variation,mutationは「こと」を指す名詞 variantとmutantは「遺伝的に(DNA配列の中に)『普通』と異なっている部分を持つようなタイプ」を指す。「変化してできるもの、変異してできるもの(変異体)」 variatio

    var- - ryamadaの遺伝学・遺伝統計学メモ
  • 標的は何? - ryamadaの遺伝学・遺伝統計学メモ

    そろそろ入試の季節 入試で「よい学生」を取りたいとの思いがどこの大学も強い 「よい学生」というのも定義が必要だ 個人としての学生の「よさ」 「卒業して、最終的にヒトカドの人物になる」ことをもって「よい」とする? 「入学から卒業までのプロセスで獲得する成長」が大きいことをもって「よい」とする? 「入学時点での到達度の高さ」をもって「よい」とする? 集団としての学生の「よさ」 上記の3つの「よさ」の基準のうち、前2者は「成長過程」を考慮しており、「成長」は個人のみからは決められないので、難しい 成長過程での環境(機関としての大学、選抜される他の個人と形成する集団)の影響を受けるから 「入試のよさ」も同様だ 個人の「よさ」の算術平均の高さを狙うのか、中央値の高さを狙うのか、上10パーセンタイルの高さを狙うのか、下10%の高さを狙うのか、外れ値が出ることを狙うのか 公平であることはやはりよいこと

    標的は何? - ryamadaの遺伝学・遺伝統計学メモ
  • 分子生物学とオミックスと統計遺伝学と - ryamadaの遺伝学・遺伝統計学メモ

    こんなコメントを、このブログからできたにいただいた 大量データ科学時代の「遺伝」学の解析を勉強するのに、どこから、どう攻めるのがよいかは、画一的なアプローチがない(と思う)ので、難しい 3大分野別では: 分子生物学・分子遺伝学それ自体が、かなり膨大 情報のハンドリングに関することも膨大で、計算機の知識や技術もたくさんある 統計という切り口も、データの読み取り技術・提示技術・共有技術、と言うことで、広範囲 各論の変化 3大分野は「現在」も広いが、新しいことも次々に出てくる、という意味で、対応するのは、やり方を間違えると大変なことになる では、どうする? 分子生物学・分子遺伝学 思い切って、各論は捨てる その上で、総論(20ページのテキストにすら、登場するような内容)を、「情報的」にとらえる(20ページではないけれど"Mathematical slices of molecular biol

    分子生物学とオミックスと統計遺伝学と - ryamadaの遺伝学・遺伝統計学メモ
  • グラフの類似性を評価する - ryamadaの遺伝学・遺伝統計学メモ

    はじめに 参考PDF グラフの同形性評価(graph isomorphism)と類似性評価 Graph isomorphismはグラフ構成要素であるノードの1対1対応とエッジの1対1対応によって定義されている。それに対して、類似性評価は同形性からのはずれの程度の評価であり、その尺度は定義に依存する グラフの類似度評価 評価の指標(グラフ間距離)に求められるもの Metric 同一グラフ間距離は0 グラフAからグラフBへの距離とグラフBからグラフAへの距離は同一(対象性 Symmetry) グラフAからBへの距離とグラフBからCへの距離の和はグラフAからCへの距離を越えない(Triangle inequality) 評価方法 Graph edit distance法 2つのグラフを比較し、グラフに操作(ノードおよびエッジの削除・挿入・置換)を加えることで、両グラフを同一にするときに、その最小

  • コドン対応を図示する - ryamadaの遺伝学・遺伝統計学メモ

    こちらを受けて。 分岐図形式 Wikipediaの図はこちら 絵を省略して分岐図にしたのはこちら いわゆる対応表はこちら(Wikipedia) 3次元で考えれば、4x4x4の立方体にできて、そこを20+1色に塗り分けることもできそうです 対応表にして、関係を「カタログ」的に閲覧するのは、「生物学」的な印象があります。事実のピースを集積することが生物学の中心(だった)からかもしれません。分岐図にすると「全体」が俯瞰できた感じがします(少なくとも俯瞰して把握したいという意思が強いように思います)。コドン対応表に限らず、生物学の記載に関して、「カタログ」か「俯瞰図」かの違いは大きいと思います。「カタログ」が好きな人は、「俯瞰図」のよさに対して否定的であることも多く、話しがかみ合いにくいことも確かです。「俯瞰図」が好きな人は、「カタログ」をみるとかなり疲れます。

    コドン対応を図示する - ryamadaの遺伝学・遺伝統計学メモ
  • 形を決める。 - ryamadaの遺伝学・遺伝統計学メモ

    平面図形を考える。平面に三角形を描く。同一の(合同の)三角形を描くためには、三辺の長さを決めるか、二辺の長さを決めて、その二辺の成す角の大きさを決めるか、一辺の長さとその両端の角度を決めるかすれば、一意に決まる。一意に決まる、ということは、その条件を満足し、そこから逸脱しない拘束をかけると、「変形しない」ということである。 四角形はどうだろうか。簡単な例では、長方形を4の木切れで作ったとする。その木切れの長方形は簡単に平行四辺形にゆがんでしまう。なぜなら、長方形を作ったときの条件「4つの辺の長さを向かい合う二辺の長さが等しいように作る」は、平行四辺形の定義である「向かい合う二辺の長さが等しい」を含んでしまっているからである。 どうしたらいいかというと、四角形を作る際に対角線を1引いて、2つの三角形を対角線で張り合わせたものとすればよい。2個の三角形は不動で、その三角形は一辺を共有してい

    形を決める。 - ryamadaの遺伝学・遺伝統計学メモ
  • グラフレイアウト - ryamadaの遺伝学・遺伝統計学メモ

    数多くの要素について、要素をノードで、要素間の関係をエッジで表したものをグラフという。 グラフはこの定義からもわかるように、図示することが質ではない。 質ではないけれども、図示することで、「全体が持つ情報を的確に捕らえる」ことの手助けができることがある。 その「図示」は、『グラフレイアウト』と呼ばれる。 こちらのPDFによくまとまっている。ちなみに、このPDFシリーズの前後の章は"http://cgi.members.interq.or.jp/pacific/moto/shuron/Master_Thesis_k.pdf" のkに1,2,3,...を入れれば表示される。 先日も紹介した、VGJでは、Springという図示方法が選べるようになっているが、それは、Kamada and Kawai's spring algorithmと呼ばれるもので、すべてのノード間に、グラフ上の最短パスに

    グラフレイアウト - ryamadaの遺伝学・遺伝統計学メモ
  • Rのimage関数を使って、簡単色グラデーション表示 - ryamadaの遺伝学・遺伝統計学メモ

    連鎖不平衡係数などの値を格納した、正方行列型の以下のようなテキストファイル、"hoge.txt"を作ったとする。 Rのimage()関数で、これをグレースケールで表したいとする。84段階表示なら HOGE<-read.table(file="hoge.txt") HOGEmatrix<-as.matrix(HOGE) q<-84 image(1:nrow(HOGEmatrix),1:ncol(HOGEmatrix),HOGEmatrix,col=gray((q:0)/q))色をつけるなら、rgbを使って、 redcolor<-rgb(red=1,(q:0)/q,(q:0)/q, names=paste("red",0:q,sep="."))とすると、q=84=256/3なので、以下のように、"#xxyyzz"のxx部分が赤のff=256(16進数で、0,1,2,3,4,5,6,7,8,9,

    Rのimage関数を使って、簡単色グラデーション表示 - ryamadaの遺伝学・遺伝統計学メモ
    oanus
    oanus 2009/03/21
  • 駆け足で読むRで学ぶクラスタ解析 第6章 混合分布モデル EMアルゴリズム - ryamadaの遺伝学・遺伝統計学メモ

    データの背景に複数のモデルがあり、そのモデルのいずれかによって、観測データのそれぞれは得られ、観測における誤差によって、全データの分布が説明できるとみなす 個々のモデルを、期待値ベクトルで表し、そこからの誤差を多次元正規分布によって近似する 個々のモデルの混合比を与え、個々のデータは、個々のモデルの混成比と個々のモデルのもとでの観測確率との積によって、どのモデルからのデータであるかの帰属を定める モデル数とモデルパラメタを固定した上で、モデルの混成比をEMアルゴリズムによって推定する Rでの解析 mclustパッケージを読み込みMclust関数などを使う

    駆け足で読むRで学ぶクラスタ解析 第6章 混合分布モデル EMアルゴリズム - ryamadaの遺伝学・遺伝統計学メモ
  • 1