サクサク読めて、アプリ限定の機能も多数!
トップへ戻る
アメリカ大統領選
yagays.github.io
PythonとNumpy/Scipyの練習.前回はNumpyを使って混合ガウス分布のEMアルゴリズムを実装で混合ガウス分布について取り扱ったので,今回は混合ガウス分布についての数式をおさらいしつつ,確率密度関数をプロットしようと思う. 混合ガウス分布の概要 混合ガウス分布は,複数のガウス分布の線形結合で表すことができる. ここで,を混合係数,を混合要素と呼ぶ.混合系数は確率の条件およびを満たす. また,混合要素を番目の混合要素が選ばれる事前確率とし,をが与えられた時のの条件付き密度とすると,の周辺分布は で表すことができる.このの選択が,EMを用いたGMMでの隠れ変数に対応している. 一次元の混合ガウス分布 import numpy as np import matplotlib.pyplot as plt import matplotlib.mlab as mlab x = np.lin
/ # ルートディレクトリ /vmlinuz # /bootに置かれているLinuxカーネルにシンボリックリンクが貼られている /bin/ # バイナリ形式の実行ファイル置き場 /boot/ # Linuxカーネルやブート処理に必要なファイル置き場 /dev/ # デバイスファイル置き場 /tty* # 制御端末に対応している.”tty”は”Teletype”が由来 /null # nullデバイス.出力の破棄先に使う /zero # zeroデバイス.Nullが延々返ってくる /etc/ # 設定ファイル置き場 /hosts # ホストとIPの対応付けを行う /hosts.allow # 接続を許可するホスト一覧 /hosts.deny # 接続を拒否するホスト一覧 /passwd # ユーザの名前やホームディレクトリ一覧 /resolv.conf # 名前解決のためのDNSサーバ一覧
まずはじめに,本書はNicholas G. Carrによる”The Glass Cage”の訳書である.前作の「ネット・バカ インターネットがわたしたちの脳にしていること」を踏襲しているとはいえ,タイトルの訳があまりに酷いので,この点をまず触れておきたい.タイトルと中身を考慮すると,yomoyomo氏による書評(link)の「自動化は我々をバカにする?」くらいが適当だろう.急速に発達した電子機器任せで思考と判断をなかば放棄した人間は,ディスプレイという名のガラスの檻に捉えられているのと同じだ,というのが本書のタイトルのニュアンスだろうか. というわけで本書は行き過ぎた科学技術に対する自動化(オートメーション化)に警鐘を鳴らすという内容だが,それ以上に,人間と科学技術の在り方についてかなり広範囲にわたって議論している.「科学技術の発達で雇用がなくなった!?」「科学技術の発達で人間は脳を使わな
お久しぶりです.長らく更新が滞っていましたが,個人的な近況を少し.この3月に奈良先端科学技術大学院大学の情報科学研究科で修士を取得して卒業しました.4月からはリクルートホールディングスという会社で新卒として入ってデータ解析などをやる予定です. バイオインフォマティクスからは離れるということで,このブログでの更新は一旦終了し,新しいブログに移行します.これからどんな形で書いていけるかは分からないですが,ブログという形式で文章を書くこと,そして情報発信をすることは,社会人になっても続けていきたいと思いますので,ぜひともよろしくお願いします. Wolftail Bounds 今までありがとうございました.ではでは.
LASSOの発音、ラスーみたいな感じなのか — 便所糞虫 (@y_benjo) November 6, 2014 Lassoの発音 今までLassoはラッソだと思っていたのだけれども,どうやら違うらしい.YouTubeにある幾つかの動画で確認してみると,ラッソというよりかはラッスーに近い.無理矢理カタカナで書くと「ラッスゥー」で,スにアクセントがある感じ. 実際の発音は以下の動画で確認できる.発音している箇所に動画再生ポイントを合わせてあるので,聞き逃しに注意. ちなみにこれはThe Elements of Statistical Learningでお馴染みのHastie&Tibshirani先生の動画. 他にも幾つか確認してみたが,同様の発音だった. 実際にはどちらの発音もある ただし,オンライン辞書で調べてみると,どうやらどちらの発音もあるらしい.British Englishだと「ラ
タイトルは釣りです(元ネタ:過学習の恐怖,またはいかにして私は1分間でランキングを50位も落としたか(要約) - 糞ネット弁慶) Africa Soil Property Prediction Challenge 8月終わりからKaggleで行われていた“Africa Soil Property Prediction Challenge”,通称AfSISが終わりました.このコンペは衛星から取得したアフリカの各地点の吸光度などの数値情報を元に,その場所のSOC,pH,Ca,P,Sandの計5種類の地質学的な測定値を推定するという問題でした.問題設定としては定番っぽくて取っ付き易いものの,実際にやってみるとこれまた難しい感じでした. 私は開催当初から参加していて,一時期9位まで上がったものの,そこから何もしなかったらどんどん抜かされたというわけです. Hold my calls. Top 10
Kaggleで行われていたcriteoのDisplay Advertising Challengeが終了し,最終的にPublic LB:0.47880,Private LB:0.47831の354th/718だった.1位のチームが0.44464,Top10あたりが0.44台のスコアを叩き出しているので,結果としては惨敗だけれども,初めてにしては健闘できたほうだと思う.まあ最初の方はLogistic regressionのBenchmarkすら越せなくて厳しい状態だったが,そこから抜けだしてある程度成果が出始めると,あとは計算してはサブミットしてを繰り返しスコアに一喜一憂するという感じで競技性があって非常に楽しめた.次はもっと上の方に行きたいと思いつつ,現在参加しているAfrica Soil Property Prediction Challengeは一時期10位圏内まで行ったもののそこから
Netflixの中の人によるKDD2014 Tutorialの”The Recommender Problem Revisited”のスライド1を読んだので,簡単にまとめてみた.レコメンドのこれまでと現状をひと通り網羅したチュートリアルという感じ.このスライドはKDD2014 Tutorial向けだけれど,今度のRecSys 2014のTutorialでも同様の発表があるようだ(link). レコメンドの大まかな流れを知りたい人 このチュートリアルもいいけど,日本語で書かれたしましま先生の資料の方が丁寧でわかりやすいかも レコメンドの具体的な手法や流行を知りたい人 このチュートリアルで興味ある分野の箇所を見て個別にReferenceを当たる どっちにしろ素人のまとめなので,以下のメモは参考程度にお願いします. Kdd 2014 Tutorial - the recommender prob
VWとは The Vowpal Wabbit (VW) project is a fast out-of-core learning system sponsored by Microsoft Research and (previously) Yahoo! Research. Home · JohnLangford/vowpal_wabbit Wiki Install 要Boost. Linux vowpal_wabbit/README.mdに書いてある通り,git cloneしてmakeする.それが駄目なら./autogen.shしてからmakeする. 自分の場合は./autogen.shがエラーを吐いたので調べたところ,./autogen.sh内部でldconfigに失敗してBOOST_DIR_ARGが取得できていないのが原因だった.su権限でldconfigをしてLIBFILEの箇
ふとKaggleに参加している日本人がどれくらいいるのかが気になったので,簡単にクローラーを作って調べてみた. Kimonoを使ったクロール 手動でクローラーを書いてもいいのだけれども,今回はkimonoというクローラーを使ってみた. 参考:プログラミング・レスで5分でサックリWebスクレイピング「kimonolabs」 - プログラマになりたい kimonoはWebから簡単にクローラーを作成してAPIやJSON形式で取得できるようにするようなアプリケーションで,Chrome Extensionを使うことでインタラクティブにクロールする内容を選択することができる.今回は,Kaggle Rankingsのランキング500ページ分をクロールして,20000人分のユーザの情報(名前,ランク,ポイント,ロケーション)を取得した.今回クロールした結果は,以下のkimonoのウェブページから誰でも利用
TL;DR ipython notebook --pylab inlineのかわりにipython notebook --matplotlib inlineを使おう.もしくはipythonの始めに%matplotlib inlineを実行しておく. iPython Notebookについて 周知の事実だとは思うが,iPythonは超便利なPythonのインタラクティブシェルだ.その一部としてiPython Notebookというのがあり,ブラウザでコードを実行できたり,実行結果をノートとして保存したり,matplotlibなどで描写したグラフをノートの中にそのまま表示したりできる.RでいうところのRstudio+knitrのような,解析レポートを作るときには重宝するツールとなっている. (http://nbviewer.ipython.org/gist/twiecki/3962843より)
某所で発表を予定していたんだけど,台風のせいで飛びそうなので先に公開しておきます.読んだのはWWW2014のMatchingセクションに採択されたKickstarterに関する論文. 補足 まずFrequent InvestorsとOccasional Investorsの和訳について スライド中では「常連投資家」と「気まぐれ投資家」と訳したが,あまり適切な訳語が思い浮かばなかった 無理に訳す必要もないんだけど,FIとOIとかにしてもぱっと見意味不明だし,スライドの都合上日本語にした KickstarterにはAPIがないから自力でクロールしたらしい Twitterのアカウントとの紐付けなども考えると,かなり大変そう 既存研究あんまり書かなかったんだけど,投資分野の予測なのでいろいろある Kickstarterにおいて特定のフレーズプロジェクトの成功予測に役立つとか(http://dl.a
まずは著者が書いたブログを紹介しておこう.ここを読めば本書のことはだいたいわかる. 数学は異世界を創り出す - hiroyukikojimaの日記 世界を見つめる「思想」としての数学 - hiroyukikojimaの日記 数学は、人生を総動員して理解するとよいのだ、とわかった - hiroyukikojimaの日記 さて,本書の最大の特徴は,現代数学の概念を中学・高校で習うような基本的な知識で理解しようとするところにある.ただし,ここではその思想を理解するための骨組みだけが示される.その構成要素こそ,本書のトピックとして登場するイデアル,有限体,ホモロジー群,位相空間,スキームといった概念である.過去の数学者がどういう発想をして,どうしてそこにたどり着いたのかということをここではトレースする.その試みは意外と基本的な代数の知識だけで何とかなってしまうということを,本書は示してくれる. 読
声優ラジオの知見をより一層深めるために超!A&G+のストリーミングを録画する環境を作った. (追記2014/4/2:y_benjo氏がより書きやすいyaml構造のスクリプトに改良してくれているので,そちらも参照https://gist.github.com/ybenjo/9904543) (追記2014/11/23:rtmpのURLを更新) (追記2015/04/13:以下のスクリプトにはバグが有ります.ybenjo氏のスクリプトを利用して下さい:https://gist.github.com/ybenjo/9904543) 注意 この記事に含まれているスクリプトの利用はすべて自己責任でお願いします.また,この記事に関する質問等は一切お答えしませんのでご了承下さい. 想定している環境は以下の通り. 常にインターネットに繋がっていてRubyが動いてcronが回せる環境 スクリプトを定期実行し
3/24から28までクックパッドのインターンシップに参加してきた.あんまり写真は無いけれども,一人の参加者として考えたこととか感じたことを書いていこうと思う. 参加前 ESとウェブテストを受けて合格の連絡を貰うとともに,人事の方に「iOSかAndroidのネイティブアプリの開発をしてもらいたいのですが」と言われ,iOS開発の方を選ぶ.インターン参加の連絡を受けてから1ヶ月近くは,とにかくiOS開発の勉強に追われた.結果から言うと参加者の大半はネイティブアプリ開発の初心者だったのだが,それぞれの技術力は高く,自分としても準備しておいて良かったと本当に思った. インターン期間中 1日目は全員が集まってまずは自己紹介.参加者は合計で11人.個性豊かなメンツが揃っていて,上は博士後期課程から下は高専生,ガチなプログラマーがいたり,はてなインターンの経験者がいたりと,本当にバリエーションに富んでいて
「細胞の物理生物学」”Physical Biology of the Cell” 本書は,2008年11月にGarland Science社から出版された”Physical Biology of the Cell”の翻訳版である.学部または大学院における基礎コース向けに作られた本書は,細胞生物学を生物物理学の側面から再構成するという大胆な内容となっている.すなわち,細胞内の機能や性質ごとに物理学の知見を適用するというこれまでの体系とは違い,物理モデルや物理法則から生物というものを捉えたときに,細胞内の高分子の挙動や生物的な構造をどのように分類できどのように認識できるだろうかという観点から,生物物理学を構築し直すということである.本書のタイトルに”Biophysics”ではなく”Physical biology”と付けていることからも,その意図が伝わってくる.全20章1000ページちかい分量
まとめ:RNA-Seqの数理―生成モデルによる発現量推定:アーカイブ - Wolfeyes Bioinformatics beta 前回はCount Based Modelの基礎やRPKMとの関連を解説したが,これらはすべてシングルエンドを前提とした発現量推定の方法だった.そこで今回は,現在主流となっているペアエンドに対応できるようモデルの一部を拡張し,その際に必要になるフラグメント長の分布を考慮した有効配列長の考え方について紹介する. ペアエンドによるシーケンスは,illuminaなどで現在もっとも広く使われているNGSの手法だ.ペアエンドのショートリードは,ゲノムやmRNAを特定の長さのフラグメントに細かく分割したあと,その両端にアダプターを付けて左右同時にシーケンスすることによって得られる.この方法によって,単純にシーケンスのデータ量が2倍になるだけでなく,ある程度離れた距離の2つの
はじめに Machine Learning Advent Calendar 2013の15日目を担当する@yag_aysです.専門はバイオインフォマティクスという計算機を使って生物学をする分野で,生モノではなく遺伝子の文字列相手に格闘している大学院生です.今回は初心者の人を対象に,なるべく数式を使わずにEMアルゴリズムについて解説してみたいと思います. EMアルゴリズムは,SVMやニューラルネットワークといった華々しい機械学習の手法の一つではなく,機械学習の中で使われる尤度最大化という一部分を担当するアルゴリズムです.そのため多くの人にとってEMアルゴリズムは,それ単体を使ってみたりだとか独自に改良をしたりするような対象ではないでしょう.でも,EMアルゴリズムなんて仰々しい名前が付けられているだけあって,いざ自分の仕事に組み込む場合には中身を理解していないと「なぜEMアルゴリズムを使ったの
Home | bioRxiv 論文のプレプリント・サーバといえばarXivが有名だが,その生物学バージョンが”bioRxiv“(バイオアーカイブ)としてスタートしている.これまでにもarXivにおいて生物学といえばQuantitative Biology(q-bio)という分類があったが,今回作られたbioRxivはそれを補完するような形でライフサイエンス分野に絞って作られているようだ.生物学という括りの中で,以下の24分野に分かれている.また,2013年12月2日時点では59の論文が投稿されている. Biochemistry Bioengineering Bioinformatics Biophysics Cancer Biology Cell Biology Developmental Biology Ecology Evolutionary Biology Genetics Geno
課題のために遺伝的アルゴリズムを使う必要があったので,Pythonで遺伝的アルゴリズムを動かすことのできるライブラリPyevolveを試してみた. 始めの一歩 動かし方はとてもシンプルなので,公式ドキュメントのGet Startedをざっと見たあとにExampleでどういう使い方ができるのかを個別に見ていけばいいと思う. Get Started - Tutorial — Pyevolve v0.5 documentation Examples — Pyevolve v0.5 documentation 日本語資料なら,自分が確認した限りでは以下のサイトが一番詳しい. Pyevolveで学ぶ遺伝的アルゴリズム - mfumiの日記 Pyevolveの基本的な使い方 ゲノムインスタンスの生成 ゲノムの構造はバイナリや1次元配列,2次元配列,木構造などを取ることができ,初期値が取りうる値の幅など
pdf中毒者のためのwget入門 大学の先生方が用意する講義資料やプレゼンテーションのスライドの類なんかは,得てして個人のウェブページにまとまりなくリストアップされているだけの場合が多い.必要なときにダウンロードするようにすると既に持っているファイルを再度ダウンロードしてしまって重複することがあるし,まとめてダウンロードするためにブラウザ上でいちいちクリックするのも面倒くさい.そのため,ウェブページにリストアップされているpdfファイルをコマンド一発でまとめてダウンロードしたい!というときには,wgetコマンドが非常に便利だ. これだけでいいのだ.このコマンドを使えば,example.com/hoge/index.htmlというウェブページにリストアップされているpdfファイルを一括してダウンロードすることができる.指定したオプションを少し解説しよう. -r -l 1 -rと-lオプション
Pythonの練習ということで,Numpyを使って混合ガウス分布のEMアルゴリズムによる最尤推定を実装してみた.そもそもPythonを書いた経験があまり無いうえに,全く知らないNumpyを使って行列演算や確率計算をしようということで,手探りでかなり苦戦してしまったが,何とか形にはなったと思う.ということで,次の勉強に活かすためにもここでコードを振り返ってみる. 注意:以下のコードはテストデータでしか確かめてないので多分どこかバグってる.あと確率値に対数を取ってないので,値が限りなく小さくなってゼロ除算になることがある. とっかかり まずscipyあたりで多変量正規分布が無いか探す 普通の正規分布scipy.stats.normはあるが多変量は無いっぽい 自分で関数を書く 逆行列とか転置とか書き方が複数あって混乱する 今回はとりあえず動いたらいいので適当に使う np.matrixとnp.ar
トップレベルの大学の授業が無料で受けられるウェブサービス「Coursera」で,UCSDのバイオインフォマティクスのコースが10月からスタートする.Courseraでは初の英語で行われるバイオインフォマティクス分野のコースだ. Bioinformatics Algorithms (Part 1) | Coursera This course will cover some of the common algorithms underlying the following fundamental topics in bioinformatics: assembling genomes, comparing DNA and protein sequences, finding regulatory motifs, analyzing genome rearrangements, identif
オバマ政権の医療保険改革法をめぐって10月からの新年度予算案が成立しなかった場合,その予算案が与野党で合意に至るまでのあいだ,一部政府機関が閉鎖される可能性がある 対象となる一部政府機関にはNIHやNSF,CDC,NASAなどの科学技術に関わる機関が含まれている 国防や治安,医療に関わる一部の活動は限定的に継続されるが,多くの職員は一時帰休/無給休暇(FURLOUGH)になり,様々な活動に影響が出る見込み 日本の科学者が気をつけるべきこと NCBIなど各政府機関が管理しているウェブサービス/データベースが使用できない可能性がある 海外論文誌の査読などに遅れが生じる場合がある アメリカへの渡航に必要なESTA申請ができない恐れがある 参考:October 1, 2013 Government Shutdown NEWS FLASH!! ESTAのウェブサイトには現在はアクセスができない現在は
今回初めてポスターを作るにあたって知ったこと・気付いたこと・考えたことなどをまとめておく.次にポスターを作る時の自分,これを見て前回のことを思い出して頑張ってくれ. 心得その1:ポスターにフォーマットは無い ポスターは与えられた制約のもとで自由に作ってよい.どのようにレイアウトをしようが,どんな内容を書こうが,ポスターを貼れるボードの大きさの範囲内で好き勝手に作ることができる.掲載する研究内容だって自由.テキストのフォントや大きさだって自由.PowerPointで作ったってKeynoteで作ったって手書きで作ったって自由.すべて好きなように作れる.ポスターという形でなくても,プレゼンテーションのスライドをA4に印刷して並べて掲示することもできるし,何ならiPadを飾ったって良い.コンビニによくある商品のポップをポスターに貼ることで内容を強調することもできるし,ポストイットに意見を書き込んで
アセンブリ界隈ではすっかりスタンダートな手法になったde Bruijn graphによるアセンブルだが,正直言ってこの単語の発音はよく分からない!私自身も人が発音しているのを聞いて参考にしたり色々調べたりして確認してはいるものの,いまだに自信を持って口に出して言えないトコロがある.Blogに書くときもカタカナ表記を避けているのが現状だ. The Genome Factory: How to pronounce “de Bruijn” さて,この発音問題は英語圏でもかなり混乱があるようだ.上記のBlog記事によると,今年のISMB 2013という学会でも様々な発音の仕方を耳にしたという.例えば -broon -broo-en, brewin’ -bra-jen, brar-djen -brin -brun -bruggin, bruggen -broin, broyn といった具合だ.要する
まとめ:RNA-Seqの数理―生成モデルによる発現量推定:アーカイブ - Wolfeyes Bioinformatics beta 生成モデルの話を始める前に,まずはRNA-Seqの発現量としてよく知られているRPKMという指標からスタートし,生成モデルの話へと繋げていこう. RNA-Seqの発現量推定の基本 RNA-Seqで得られるデータは,ある長さの配列(ショートリード)とクオリティスコアのセットして表現される.それをリファレンスとなるゲノム配列の中から探しだして,読まれた配列が何の転写物由来かを見つける作業をマッピングという.このマッピングをNGSから出力された数千万本/数億本のショートリードに対して行い,ある遺伝子の部位にどのくらい貼り付いたかをカウントすることで特定の転写物がどれくらい発現していたかを推定するという方法が,RNA-Seqの発現量推定では基本となる. この図はRNA
今回はCount Based Modelと呼ばれる最も基本的な生成モデルを作って発現量推定を定式化し,それがRPKMの計算式と同じ意味を持つことを示してみよう.なお,以降の内容はPachter 2011をベースにしている. Models for transcript quantification from RNA-Seq. q-bio.GN, (2011). http://arxiv.org/abs/1104.3889v2 Count Based Modelにおける仮定 Count based Modelは非常にシンプルな生成モデルだ.単純化のために3つの前提条件を置いて,RNA-Seqをモデル化している. NGSのシーケンスはシングルエンド ショートリードはただ1箇所だけにマッピングされる すべての転写物はただ1つのアイソフォームを持つ NGSのシーケンスに関しても,トランスクリプトーム
この「RNA-Seqの数理」シリーズでは,次世代シーケンサを用いたRNA-Seqにおける発現量推定の数理モデルを理解することを目的とする. 副題にある「生成モデル」とは,観測データの生成過程を確率的にモデル化し,データが与えられたときの事後確率を用いて分類したいクラスや予測したい値を推定する方法のことを指す.今回のRNA-Seqにおける生成モデルでは,次世代シーケンサで読み取られた配列が,どのようにして細胞内のトランスクリプトームから実験によって読み取られて観測されたかという一連の流れを,生成モデルとして表現する.そして確率的なもっともらしさやパラメータの推定をおこない,トランスクリプトームの発現量を求める. このシリーズについて 次世代シーケンサによるRNA-Seqの発現量推定といっても,実験対象は大腸菌レベルから人に至るまでゲノムサイズや遺伝子数は多種多様であり,実験機器も各メーカーご
次のページ
このページを最初にブックマークしてみませんか?
『Wolfeyes Bioinformatics beta』の新着エントリーを見る
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く