タグ

ブックマーク / yagays.github.io (7)

  • 私は如何にしてKaggleで9位から600位台まで順位を落とし,private leaderboardでベンチマークすら下回ったか? - Wolfeyes Bioinformatics beta

    タイトルは釣りです(元ネタ:過学習の恐怖,またはいかにして私は1分間でランキングを50位も落としたか(要約) - 糞ネット弁慶) Africa Soil Property Prediction Challenge 8月終わりからKaggleで行われていた“Africa Soil Property Prediction Challenge”,通称AfSISが終わりました.このコンペは衛星から取得したアフリカの各地点の吸光度などの数値情報を元に,その場所のSOC,pH,Ca,P,Sandの計5種類の地質学的な測定値を推定するという問題でした.問題設定としては定番っぽくて取っ付き易いものの,実際にやってみるとこれまた難しい感じでした. 私は開催当初から参加していて,一時期9位まで上がったものの,そこから何もしなかったらどんどん抜かされたというわけです. Hold my calls. Top 10

  • スライドメモ:KDD2014 Tutorial "The Recommender Problem Revisited" - Wolfeyes Bioinformatics beta

    Netflixの中の人によるKDD2014 Tutorialの”The Recommender Problem Revisited”のスライド1を読んだので,簡単にまとめてみた.レコメンドのこれまでと現状をひと通り網羅したチュートリアルという感じ.このスライドはKDD2014 Tutorial向けだけれど,今度のRecSys 2014のTutorialでも同様の発表があるようだ(link). レコメンドの大まかな流れを知りたい人 このチュートリアルもいいけど,日語で書かれたしましま先生の資料の方が丁寧でわかりやすいかも レコメンドの具体的な手法や流行を知りたい人 このチュートリアルで興味ある分野の箇所を見て個別にReferenceを当たる どっちにしろ素人のまとめなので,以下のメモは参考程度にお願いします. Kdd 2014 Tutorial - the recommender prob

  • MLAC2013 数式を使わずイメージで理解するEMアルゴリズム - Wolfeyes Bioinformatics beta

    はじめに Machine Learning Advent Calendar 2013の15日目を担当する@yag_aysです.専門はバイオインフォマティクスという計算機を使って生物学をする分野で,生モノではなく遺伝子の文字列相手に格闘している大学院生です.今回は初心者の人を対象に,なるべく数式を使わずにEMアルゴリズムについて解説してみたいと思います. EMアルゴリズムは,SVMやニューラルネットワークといった華々しい機械学習の手法の一つではなく,機械学習の中で使われる尤度最大化という一部分を担当するアルゴリズムです.そのため多くの人にとってEMアルゴリズムは,それ単体を使ってみたりだとか独自に改良をしたりするような対象ではないでしょう.でも,EMアルゴリズムなんて仰々しい名前が付けられているだけあって,いざ自分の仕事に組み込む場合には中身を理解していないと「なぜEMアルゴリズムを使ったの

  • 米国予算案の不成立による生命科学系政府機関への影響まとめ - Wolfeyes Bioinformatics beta

    オバマ政権の医療保険改革法をめぐって10月からの新年度予算案が成立しなかった場合,その予算案が与野党で合意に至るまでのあいだ,一部政府機関が閉鎖される可能性がある 対象となる一部政府機関にはNIHやNSF,CDC,NASAなどの科学技術に関わる機関が含まれている 国防や治安,医療に関わる一部の活動は限定的に継続されるが,多くの職員は一時帰休/無給休暇(FURLOUGH)になり,様々な活動に影響が出る見込み 日の科学者が気をつけるべきこと NCBIなど各政府機関が管理しているウェブサービス/データベースが使用できない可能性がある 海外論文誌の査読などに遅れが生じる場合がある アメリカへの渡航に必要なESTA申請ができない恐れがある 参考:October 1, 2013 Government Shutdown NEWS FLASH!! ESTAのウェブサイトには現在はアクセスができない現在は

  • だれかicanhazpdfできる??? - Wolfeyes Bioinformatics beta

    #icanhazpdfというTwitterのハッシュタグがある.これが何を意味しているかは,実際に使われている例を見てもらったほうが早いだろう. Twitter / Search - #icanhazpdf つまり,読みたい論文があるのに所属している大学/研究所/企業がライセンスを契約していないからpdfが取れない!という時に, “この論文のPDF取れる人いますか? “hoge et al. piyopiyo” http://xxxxxx… #icanhazpdf” “だれか#icanhazpdf できる? http://xxxxx…” といった感じでTwitterに投稿するというわけだ.これを見た知り合いか誰かがpdfをメールで送ってさえくれれば,気になる論文がチェックできる! とまあ,これはヤバいだろというのは誰が見ても明らかで,Twitterで検索した結果を見ても,実際にこのハッシュ

    harapon1012
    harapon1012 2013/07/07
    このあたりのモラルない人かなり多い印象
  • 「データ解析のための統計モデリング入門」読書ノート 7章 無限混合分布の生成過程をアニメーションにした - Wolfeyes Bioinformatics beta

    まとめ:「データ解析のための統計モデリング入門」読書ノート 前回:「データ解析のための統計モデリング入門」読書ノート 7章 GLMMとGLMを比較する 一言で言うと 「データ解析のための統計モデリング入門」P.157 図7.8とP.158 図7.9の分布を混ぜる過程をアニメーションにした.無限混合分布に関して手元の資料であまり情報が無かったことがあり,検算のためにと計算したときに作ったものだが,意外とうまく作れたんじゃないかと思う. GLMMの最尤推定と積分 個体差を考慮に入れた今回のGLMMでは,尤度を以下の式のように積分をしてを消す. これはすなわち,とを混ぜあわせた無限混合分布となっている. アニメーション作成過程 今回は,P.157 図7.8とP.158 図7.9の2つの図をアニメーションとして表現してみた.それぞれの実験のパラメータは以下の通り. 二項分布と正規分布 ポアソン分布

    harapon1012
    harapon1012 2012/11/09
    たのしそう
  • 「今度こそわかる!? PRMLの学習の学習」に参加しました - Wolfeyes Bioinformatics beta

    昨日池袋ジュンク堂で開催されたPRML同人誌トークセッションに参加してました.講演者の皆様お疲れ様でした&貴重なお話をありがとうございました. http://www.junkudo.co.jp/tenpo/evtalk.html#20121011_talk ということで,トークセッションの中で話題に上がった話を私見を交えつつ幾つか.全部の話題を網羅しているわけではないのでご了承下さい. 「PRMLの学習」の2版が出た なんと「パターン認識と機械学習の学習」が早くも2版ということで,どこかで見覚えのある黄色い表紙.私はもう既に1版を買っているので2版を買おうかどうか悩んでいたら,トークセッションの受付で2版で新たに加わった内容が印刷された小冊子を頂いた. PRML翻訳は@shima__shimaさん自らが同僚や出版社に話を持ちかけて実現した 翻訳に関しては,の中では分担されているということ

    harapon1012
    harapon1012 2012/10/15
    すばらしいなー
  • 1