ブックマーク / yagays.github.io (21)

  • 近況 - Wolfeyes Bioinformatics beta

    お久しぶりです.長らく更新が滞っていましたが,個人的な近況を少し.この3月に奈良先端科学技術大学院大学の情報科学研究科で修士を取得して卒業しました.4月からはリクルートホールディングスという会社で新卒として入ってデータ解析などをやる予定です. バイオインフォマティクスからは離れるということで,このブログでの更新は一旦終了し,新しいブログに移行します.これからどんな形で書いていけるかは分からないですが,ブログという形式で文章を書くこと,そして情報発信をすることは,社会人になっても続けていきたいと思いますので,ぜひともよろしくお願いします. Wolftail Bounds 今までありがとうございました.ではでは.

    yag_ays
    yag_ays 2015/03/31
  • L1 regularizationのLassoはなんと発音するのか? - Wolfeyes Bioinformatics beta

    LASSOの発音、ラスーみたいな感じなのか — 便所糞虫 (@y_benjo) November 6, 2014 Lassoの発音 今までLassoはラッソだと思っていたのだけれども,どうやら違うらしい.YouTubeにある幾つかの動画で確認してみると,ラッソというよりかはラッスーに近い.無理矢理カタカナで書くと「ラッスゥー」で,スにアクセントがある感じ. 実際の発音は以下の動画で確認できる.発音している箇所に動画再生ポイントを合わせてあるので,聞き逃しに注意. ちなみにこれはThe Elements of Statistical Learningでお馴染みのHastie&Tibshirani先生の動画. 他にも幾つか確認してみたが,同様の発音だった. 実際にはどちらの発音もある ただし,オンライン辞書で調べてみると,どうやらどちらの発音もあるらしい.British Englishだと「ラ

    yag_ays
    yag_ays 2014/11/06
  • 私は如何にしてKaggleで9位から600位台まで順位を落とし,private leaderboardでベンチマークすら下回ったか? - Wolfeyes Bioinformatics beta

    タイトルは釣りです(元ネタ:過学習の恐怖,またはいかにして私は1分間でランキングを50位も落としたか(要約) - 糞ネット弁慶) Africa Soil Property Prediction Challenge 8月終わりからKaggleで行われていた“Africa Soil Property Prediction Challenge”,通称AfSISが終わりました.このコンペは衛星から取得したアフリカの各地点の吸光度などの数値情報を元に,その場所のSOC,pH,Ca,P,Sandの計5種類の地質学的な測定値を推定するという問題でした.問題設定としては定番っぽくて取っ付き易いものの,実際にやってみるとこれまた難しい感じでした. 私は開催当初から参加していて,一時期9位まで上がったものの,そこから何もしなかったらどんどん抜かされたというわけです. Hold my calls. Top 10

    yag_ays
    yag_ays 2014/10/23
  • Kaggle初心者がDisplay Advertising Challengeに挑んだ結果354th/718だった - Wolfeyes Bioinformatics beta

    Kaggleで行われていたcriteoのDisplay Advertising Challengeが終了し,最終的にPublic LB:0.47880,Private LB:0.47831の354th/718だった.1位のチームが0.44464,Top10あたりが0.44台のスコアを叩き出しているので,結果としては惨敗だけれども,初めてにしては健闘できたほうだと思う.まあ最初の方はLogistic regressionのBenchmarkすら越せなくて厳しい状態だったが,そこから抜けだしてある程度成果が出始めると,あとは計算してはサブミットしてを繰り返しスコアに一喜一憂するという感じで競技性があって非常に楽しめた.次はもっと上の方に行きたいと思いつつ,現在参加しているAfrica Soil Property Prediction Challengeは一時期10位圏内まで行ったもののそこから

    yag_ays
    yag_ays 2014/09/26
  • スライドメモ:KDD2014 Tutorial "The Recommender Problem Revisited" - Wolfeyes Bioinformatics beta

    Netflixの中の人によるKDD2014 Tutorialの”The Recommender Problem Revisited”のスライド1を読んだので,簡単にまとめてみた.レコメンドのこれまでと現状をひと通り網羅したチュートリアルという感じ.このスライドはKDD2014 Tutorial向けだけれど,今度のRecSys 2014のTutorialでも同様の発表があるようだ(link). レコメンドの大まかな流れを知りたい人 このチュートリアルもいいけど,日語で書かれたしましま先生の資料の方が丁寧でわかりやすいかも レコメンドの具体的な手法や流行を知りたい人 このチュートリアルで興味ある分野の箇所を見て個別にReferenceを当たる どっちにしろ素人のまとめなので,以下のメモは参考程度にお願いします. Kdd 2014 Tutorial - the recommender prob

    yag_ays
    yag_ays 2014/09/08
  • 私的Vowpal Wabbitまとめ - Wolfeyes Bioinformatics beta

    VWとは The Vowpal Wabbit (VW) project is a fast out-of-core learning system sponsored by Microsoft Research and (previously) Yahoo! Research. Home · JohnLangford/vowpal_wabbit Wiki Install 要Boost. Linux vowpal_wabbit/README.mdに書いてある通り,git cloneしてmakeする.それが駄目なら./autogen.shしてからmakeする. 自分の場合は./autogen.shがエラーを吐いたので調べたところ,./autogen.sh内部でldconfigに失敗してBOOST_DIR_ARGが取得できていないのが原因だった.su権限でldconfigをしてLIBFILEの箇

    yag_ays
    yag_ays 2014/08/31
  • kimonoでKaggleユーザのクロールをしてみた - Wolfeyes Bioinformatics beta

    ふとKaggleに参加している日人がどれくらいいるのかが気になったので,簡単にクローラーを作って調べてみた. Kimonoを使ったクロール 手動でクローラーを書いてもいいのだけれども,今回はkimonoというクローラーを使ってみた. 参考:プログラミング・レスで5分でサックリWebスクレイピング「kimonolabs」 - プログラマになりたい kimonoはWebから簡単にクローラーを作成してAPIやJSON形式で取得できるようにするようなアプリケーションで,Chrome Extensionを使うことでインタラクティブにクロールする内容を選択することができる.今回は,Kaggle Rankingsのランキング500ページ分をクロールして,20000人分のユーザの情報(名前,ランク,ポイント,ロケーション)を取得した.今回クロールした結果は,以下のkimonoのウェブページから誰でも利用

    yag_ays
    yag_ays 2014/08/18
  • iPython Notebookの--pylab inlineは使うのをやめようという話 - Wolfeyes Bioinformatics beta

    TL;DR ipython notebook --pylab inlineのかわりにipython notebook --matplotlib inlineを使おう.もしくはipythonの始めに%matplotlib inlineを実行しておく. iPython Notebookについて 周知の事実だとは思うが,iPythonは超便利なPythonのインタラクティブシェルだ.その一部としてiPython Notebookというのがあり,ブラウザでコードを実行できたり,実行結果をノートとして保存したり,matplotlibなどで描写したグラフをノートの中にそのまま表示したりできる.RでいうところのRstudio+knitrのような,解析レポートを作るときには重宝するツールとなっている. (http://nbviewer.ipython.org/gist/twiecki/3962843より)

    yag_ays
    yag_ays 2014/08/15
  • 論文紹介:Recommending Investors for Crowdfunding Projects - Wolfeyes Bioinformatics beta

    某所で発表を予定していたんだけど,台風のせいで飛びそうなので先に公開しておきます.読んだのはWWW2014のMatchingセクションに採択されたKickstarterに関する論文. 補足 まずFrequent InvestorsとOccasional Investorsの和訳について スライド中では「常連投資家」と「気まぐれ投資家」と訳したが,あまり適切な訳語が思い浮かばなかった 無理に訳す必要もないんだけど,FIとOIとかにしてもぱっと見意味不明だし,スライドの都合上日語にした KickstarterにはAPIがないから自力でクロールしたらしい Twitterのアカウントとの紐付けなども考えると,かなり大変そう 既存研究あんまり書かなかったんだけど,投資分野の予測なのでいろいろある Kickstarterにおいて特定のフレーズプロジェクトの成功予測に役立つとか(http://dl.a

    yag_ays
    yag_ays 2014/07/14
  • クックパッドのウィンターインターンシップに参加してきた - Wolfeyes Bioinformatics beta

    3/24から28までクックパッドのインターンシップに参加してきた.あんまり写真は無いけれども,一人の参加者として考えたこととか感じたことを書いていこうと思う. 参加前 ESとウェブテストを受けて合格の連絡を貰うとともに,人事の方に「iOSかAndroidのネイティブアプリの開発をしてもらいたいのですが」と言われ,iOS開発の方を選ぶ.インターン参加の連絡を受けてから1ヶ月近くは,とにかくiOS開発の勉強に追われた.結果から言うと参加者の大半はネイティブアプリ開発の初心者だったのだが,それぞれの技術力は高く,自分としても準備しておいて良かったと当に思った. インターン期間中 1日目は全員が集まってまずは自己紹介.参加者は合計で11人.個性豊かなメンツが揃っていて,上は博士後期課程から下は高専生,ガチなプログラマーがいたり,はてなインターンの経験者がいたりと,当にバリエーションに富んでいて

    yag_ays
    yag_ays 2014/03/30
  • MLAC2013 数式を使わずイメージで理解するEMアルゴリズム - Wolfeyes Bioinformatics beta

    はじめに Machine Learning Advent Calendar 2013の15日目を担当する@yag_aysです.専門はバイオインフォマティクスという計算機を使って生物学をする分野で,生モノではなく遺伝子の文字列相手に格闘している大学院生です.今回は初心者の人を対象に,なるべく数式を使わずにEMアルゴリズムについて解説してみたいと思います. EMアルゴリズムは,SVMやニューラルネットワークといった華々しい機械学習の手法の一つではなく,機械学習の中で使われる尤度最大化という一部分を担当するアルゴリズムです.そのため多くの人にとってEMアルゴリズムは,それ単体を使ってみたりだとか独自に改良をしたりするような対象ではないでしょう.でも,EMアルゴリズムなんて仰々しい名前が付けられているだけあって,いざ自分の仕事に組み込む場合には中身を理解していないと「なぜEMアルゴリズムを使ったの

    yag_ays
    yag_ays 2013/12/15
    Machine Learning Advent Calendar 2013の記事です.
  • ライフサイエンス分野のためのプレプリント・サーバ bioRxiv - Wolfeyes Bioinformatics beta

    Home | bioRxiv 論文のプレプリント・サーバといえばarXivが有名だが,その生物学バージョンが”bioRxiv“(バイオアーカイブ)としてスタートしている.これまでにもarXivにおいて生物学といえばQuantitative Biology(q-bio)という分類があったが,今回作られたbioRxivはそれを補完するような形でライフサイエンス分野に絞って作られているようだ.生物学という括りの中で,以下の24分野に分かれている.また,2013年12月2日時点では59の論文が投稿されている. Biochemistry Bioengineering Bioinformatics Biophysics Cancer Biology Cell Biology Developmental Biology Ecology Evolutionary Biology Genetics Geno

    ライフサイエンス分野のためのプレプリント・サーバ bioRxiv - Wolfeyes Bioinformatics beta
    yag_ays
    yag_ays 2013/12/03
  • 米国予算案の不成立による生命科学系政府機関への影響まとめ - Wolfeyes Bioinformatics beta

    オバマ政権の医療保険改革法をめぐって10月からの新年度予算案が成立しなかった場合,その予算案が与野党で合意に至るまでのあいだ,一部政府機関が閉鎖される可能性がある 対象となる一部政府機関にはNIHやNSF,CDC,NASAなどの科学技術に関わる機関が含まれている 国防や治安,医療に関わる一部の活動は限定的に継続されるが,多くの職員は一時帰休/無給休暇(FURLOUGH)になり,様々な活動に影響が出る見込み 日の科学者が気をつけるべきこと NCBIなど各政府機関が管理しているウェブサービス/データベースが使用できない可能性がある 海外論文誌の査読などに遅れが生じる場合がある アメリカへの渡航に必要なESTA申請ができない恐れがある 参考:October 1, 2013 Government Shutdown NEWS FLASH!! ESTAのウェブサイトには現在はアクセスができない現在は

    yag_ays
    yag_ays 2013/10/02
  • RNA-Seqの数理―生成モデルによる発現量推定:アーカイブ - Wolfeyes Bioinformatics beta

    この「RNA-Seqの数理」シリーズでは,次世代シーケンサを用いたRNA-Seqにおける発現量推定の数理モデルを理解することを目的とする. 副題にある「生成モデル」とは,観測データの生成過程を確率的にモデル化し,データが与えられたときの事後確率を用いて分類したいクラスや予測したい値を推定する方法のことを指す.今回のRNA-Seqにおける生成モデルでは,次世代シーケンサで読み取られた配列が,どのようにして細胞内のトランスクリプトームから実験によって読み取られて観測されたかという一連の流れを,生成モデルとして表現する.そして確率的なもっともらしさやパラメータの推定をおこない,トランスクリプトームの発現量を求める. このシリーズについて 次世代シーケンサによるRNA-Seqの発現量推定といっても,実験対象は大腸菌レベルから人に至るまでゲノムサイズや遺伝子数は多種多様であり,実験機器も各メーカーご

    yag_ays
    yag_ays 2013/07/17
  • だれかicanhazpdfできる??? - Wolfeyes Bioinformatics beta

    #icanhazpdfというTwitterのハッシュタグがある.これが何を意味しているかは,実際に使われている例を見てもらったほうが早いだろう. Twitter / Search - #icanhazpdf つまり,読みたい論文があるのに所属している大学/研究所/企業がライセンスを契約していないからpdfが取れない!という時に, “この論文のPDF取れる人いますか? “hoge et al. piyopiyo” http://xxxxxx… #icanhazpdf” “だれか#icanhazpdf できる? http://xxxxx…” といった感じでTwitterに投稿するというわけだ.これを見た知り合いか誰かがpdfをメールで送ってさえくれれば,気になる論文がチェックできる! とまあ,これはヤバいだろというのは誰が見ても明らかで,Twitterで検索した結果を見ても,実際にこのハッシュ

    yag_ays
    yag_ays 2013/07/07
    icanhazの元ネタを追記
  • アセンブルの指標であるN50とNG50の違い - Wolfeyes Bioinformatics beta

    今回は配列をアセンブルするときの指標に使うN50とNG50について少しまとめてみようと思う. 前置き アセンブリというのはシーケンサで得られる短い配列から元のゲノム配列を復元する作業のことで,例えるならば膨大な数のジグソーパズルを形を頼りに完成させるとか,シュレッダーに掛けられて短冊になった書類を元に戻す作業といえる.これだけ聞くと頑張ればできそうな気がするが,実際には使える情報はATGCの配列だけと非常に限られており,場所によっては同じ文字が延々と続く箇所があったり,時々文字が間違っていたりと,手作業では不可能に近いし何より計算機を使ったとしても非常に難しい.それに加えて,そもそも元あった状態である解答を誰も知らないので,結果が合っているかどうかも分からず,答え合わせ(評価)がしづらいということがある. このアセンブリの評価に関しては,Assemblathonというゲノムアセンブラの精度

    yag_ays
    yag_ays 2013/05/18
  • Mac OS XでJAGS&rjagsパッケージを動かす - Wolfeyes Bioinformatics beta

    yag_ays
    yag_ays 2012/11/26
  • 「Rによるモンテカルロ法入門」読書ノート:アーカイブ - Wolfeyes Bioinformatics beta

    書は,モンテカルロ法の実践的な解説書であり,統計解析ソフトのRを用いた豊富な実例と練習問題が組まれている.モンテカルロ法とは乱数を用いて数値計算を行う手法の総称であり,書で扱う内容は乱数の発生からモンテカルロ積分,そしてマルコフ連鎖モンテカルロ法(MCMC)の各種アルゴリズムに至るまで非常に幅広い.たいていの解説には理論に実践演習が付随した形となっており,数学的な理論を軸にして実際にRを用いたコード例が示される. 練習問題を解きつつ読書ノートをまとめてみる そんなこんなで,久保と並行する形で「Rによるモンテカルロ法入門」を読んでいる.一応MCMCの部分だけひと通り目を通したのだが,最終的にMCMCの実装までひと通りやるにしても一連の流れを簡単にでも追っておかなければと思って,最初の乱数の部分からじっくり読み進めている.これがなかなか難しくて,手も足も出ないところをなんとかRのコードを

    yag_ays
    yag_ays 2012/11/01
  • 「そのデータ,本当?」―思い込みによる曲解と前提条件を信用することの難しさ - Wolfeyes Bioinformatics beta

    「ヤマザキパンはなぜカビないか」という有名な話がある.保存料無添加を謳っているヤマザキパンと家庭で作った手作りのパン,どちらが先にカビるだろうかという問題だ.正解は家庭で作った手作りのパンの方.なぜなら手作りでパンを作った場合では,どうしてもカビがパンの表面に付着したり中に入り込んだりして増殖しやすいからだ.その点ヤマザキパンのパン工場では,非常に清潔な環境でパンが作られているため,カビが入り込む余地がない.これは実験でも確かめられている事実だ.だが,その問題のの著者を含め,健康に人一倍敏感な人は解答こそ正しくとも「いや,それはヤマザキパンに保存料が添加されているからだ」と見当違いな主張をしがちである.なぜそのような間違いをするかというと,カビないのはパンに含まれてる何かが原因だとして理論展開していくからだ.上の逸話を書いた方は,これらの議論に欠けているのは量の問題だとし,品の安全につ

    yag_ays
    yag_ays 2012/09/22
    書いた.
  • 「外国語で発想するための日本語レッスン」読了 - Wolfeyes Bioinformatics beta

    「外国語で発想するための日語レッスン - 発声練習」の書評で興味が湧いて読んだのだが,まさにスゴ,久しぶりに目から鱗が落ちるような体験をした.何気ないことへの明確な理論的解釈を与えられ頭の論理回路を再構築するような感覚で,知的興奮とは違った別の高揚感を感じた. 書は,最近良く言われるようになった「外国語を身につけるために日語をしっかり勉強する」ためのなのだが,最大の特徴は外国で教えられている読書技術を日語で実践して,その思考能力や技術力を学ぼうというものだ.日語の技術を学ぶからといって,日語の文法をおさらいしたり,闇雲に近代文学や有名な随筆を読むわけではない.むしろ,書ではまず「絵画」を分析して解釈するところから始めて,そこから次第に複雑な文章へと進んでいく.その中で,個人が物事を観て考えるということはどういうことなのか,そして何をすべきなのかといった普遍的な論理的思考を

    yag_ays
    yag_ays 2012/09/05