タグ

ブックマーク / repose.hatenadiary.jp (13)

  • データマイニングコンペティションサイト Kaggle にも Deep Learning ブームがきてるかと思ったのでまとめる - 糞糞糞ネット弁慶

    概要 最近話題の Deep Learning,NIPS や ICML,CVPR といった世界の話だろうと思っていたら Kaggle で Deep learning が去年一件,今年に入って更に一件優勝していたのでまとめる. Kaggle Kaggle: Your Home for Data Science おなじみのデータマイニングコンペティションサイト.データと目的関数が与えられた上で最も高いスコアを出したチームに賞金が出る. 最近では KDD Cup や http://www.kaggle.com/c/challenges-in-representation-learning-the-black-box-learning-challenge:title=ICML2013 workshop competition],や RecSys2013 Competition,レストランレビューサイ

    データマイニングコンペティションサイト Kaggle にも Deep Learning ブームがきてるかと思ったのでまとめる - 糞糞糞ネット弁慶
    InoHiro
    InoHiro 2013/05/09
  • 節操の無いクソイナゴ野郎なのでdeep learningで使われるautoencoder実装した - 糞糞糞ネット弁慶

    身内でdeep learningの勉強会をやったらできそうだったので実装した. 読んだのは大体ここらへん. NEURAL NETS FOR VISION(CVPR2012 tutorial) CS294A Lecture notes Sparse autoencoder ImageNet Classification with Deep Convolutional Neural Networks autoencoder autoencoderはunsupervised feature learningの一種.Convolutional Neural Netとは違って,最後の判別器の予測誤差をback propagationさせる,という事はせずある種特徴抽出で完結させている. autoencoderを一言でまとめると,「次元削減を繰り返すNeural Netを多段に繋げて特徴抽出を行う手法

    InoHiro
    InoHiro 2012/11/28
  • 東日本大震災ビッグデータワークショップ Project 311に「野良分析チーム」として参加した - 糞糞糞ネット弁慶

    概要 当時をデータで振り返った時に、当に必要なサービスは何だったのか、次の災害に備えるために、今我々はどんな準備をすればよいのでしょうか? 「東日大震災ビッグデータワークショップ - Project 311 -」 では震災発生から1週間の間に実際に発生したデータを参加者に提供いたします。参加者はそのデータを改めて分析することによって、今後起こりうる災害に備えて、どのようなことができるかを議論し、サービスを開発することができます。 東日大震災ビッグデータワークショップ - Project 311 - Googleが主催し,様々な会社から提供されたデータを用いて分析/サービス開発を行うワークショップに@haraponさんと「野良分析チーム」を組んで参加した.ちなみに@haraponさんとはTwitterはてなブックマークでやり取りする程度の間柄であり,これまで一度も会ったことはなく,最

    東日本大震災ビッグデータワークショップ Project 311に「野良分析チーム」として参加した - 糞糞糞ネット弁慶
    InoHiro
    InoHiro 2012/11/28
  • 「放置系ブラック研究室で楽しく生きるにあたって」の補足 - 糞糞糞ネット弁慶

    これは放置系ブラック研究室で楽しく生きるにあたって - 糞ネット弁慶の補足である. 書いた目的 放置系研究室の存在を世に知らしめたかった そもそも一般的な院生に対して放置系の話をすると全くと言っていいほど通じない.意識高い他大学院生と話していても 意識高い他大学院生(略称:意識高):「修論どうですか?」 私:「や,全然やってないんですけど.」 意識高:「あー,これまでの研究をまとめて修論にしちゃう感じですか?凄いなー.」 私:「え,だから論文とか当に書いてないんですけど.まだテーマも決まってないし.」 意識高:「またまた〜そんなこと言って出してるんでしょ?ところで次の***(学会名)出します?」 私:「(***ってそもそも何だ……知らないとか言っても通じないだろうし……)や,出さないですね.」 意識高:「そうなんですか.僕なんか***と△△△と◯◯◯出さなきゃいけなくて当に忙しいし,そ

    「放置系ブラック研究室で楽しく生きるにあたって」の補足 - 糞糞糞ネット弁慶
    InoHiro
    InoHiro 2012/11/28
  • Machine Learning that Matters(ICML 2012) 読んだ - 糞糞糞ネット弁慶

    機械学習やってる人は皆読むべきだと思う. Machine Learning that Matters (pdf) 概要 機械学習のトップカンファレンスICMLに数式/アルゴリズム/定理を1つも書かずに通った論文. 機械学習は何のために重要なのか,現実世界との繋がりを失っていないか,あなたは「機械学習って何の役に立つの?」と聞かれた時にちゃんと答えられるのか,まだ取り組まれてない重要な問題は何か,について触れた長文ブログのような論文. contributionsは 機械学習の研究と人類と科学全体におけるもっと大きな研究との間にある欠落に対する明確な特定と解説 そのギャップに取り組むための第一歩 (どう訳していいかわからなかった) 機械学習において重要な問題の提示 機械学習のための機械学習(要約: マッシュルームやアヤメの分類器を死ぬほど作って何の役に立ったの?) ベンチマークデータの問題 こ

    Machine Learning that Matters(ICML 2012) 読んだ - 糞糞糞ネット弁慶
  • WWW2012で気になる論文 - 糞糞糞ネット弁慶

    Main technical tracks | www2012 Are Web users really Markovian? Branded with a Scarlet « C »: Cheaters in a Gaming Social Network 参考に同著者の別論文 [1112.4915] Cheaters in the Steam Community Gaming Social Network Build Your Own Music Recommender by Modeling Internet Radio Streams Care to Comment? Recommendations for Commenting on News Stories Community Detection in Incomplete Information Networks Distri

    WWW2012で気になる論文 - 糞糞糞ネット弁慶
    InoHiro
    InoHiro 2012/02/18
  • というわけでTsukuba.R#9@東京大学に参加してきた & 発表してきた - 糞糞糞ネット弁慶

    Tsukuba.R#9 - Tsukuba.R - Seesaa Wiki(ウィキ) 前回企画から8ヶ月,前回実施から14ヶ月ぶりの実施となったTsukuba.Rをやってきた. One more time in Tsukuba.R (@wakuteka) Rをいきなり使う事になったユーザに対する手引きとして書籍,ウェブサイトの紹介.そして統合開発環境としてHome - RStudioも紹介. RStudio,タイムラインでは散々話題になっていたが「俺にはEmacs + ESSがある」と頑なに拒んでいたので動いているのを見るのははじめてだった.結構良い感じだったので他の人に薦める時はまずRstudioから薦めようと思う.また,SweaveというTeXコードとRのコードをまとめて書けるパッケージも軽く触れられていて@gentlementatu氏が興味を示していた. ポケモンのインターフェース風

  • 少しでも研究に興味がある人,面白いテーマを探している人は「研究に必要なたったN個の事」とかいう記事を読まずに今すぐに"How to do good research, get it published in SIGKDD and get it cited!"を読

    言いたいことはタイトル. そもそもSIGKDDとはSpecial Interest Group on Knowledge Discovery and Data Miningというデータマイニングや知識獲得のトップカンファレンス.WWWについで読んでて興味が合う論文が多い. How to do good research, get it published in SIGKDD and get it cited!(pdf) 173ページあるスライドだけど良い事ばかり書いてあるし,読者を楽しませるような非常に多くの著者の実体験(成功したものだけでなく,失敗したものも)や,後半になるとダメな論文,間違っている論文,その例が大量に載っていて飽きずに読める.ただKDDに通したい人だけでなく,研究を少しでもやろうとしている人,論文を書こうとしている人,面白いことをやりたい人は必ず読むべき. 適当に面白か

    少しでも研究に興味がある人,面白いテーマを探している人は「研究に必要なたったN個の事」とかいう記事を読まずに今すぐに"How to do good research, get it published in SIGKDD and get it cited!"を読
  • [論文] Consideration set generation in commerce search(WWW 2011) 読んだ - 糞糞糞ネット弁慶

    Consideration set generation in commerce search 概要 ECサイトの検索結果(consideration set)を改善する. 問題意識 ECサイトの検索エンジン及び検索結果は通常の文書検索におけるそれとは次の点で異なる. ECサイトではユーザは検索結果を上位下位構わず開きまくる 文書検索だと上位がクリックされやすい 検索クエリ及び検索対象のデータが構造化されている 商品側では属性(attribute)ごとにインデックスが貼られる.カメラを例に取るとブランド,モデル,色など クエリ側も当然構造化されている 例えば"10mp Nikon Digital Camera"なる検索クエリは特定のメーカ(Nikon)のある望ましい属性(1000万解像度)を持つカメラを求めているという事がわかる ついでに言えば,ユーザの検索クエリと人の需要が完全に結びつ

    [論文] Consideration set generation in commerce search(WWW 2011) 読んだ - 糞糞糞ネット弁慶
  • 糞糞糞ネット弁慶

    先に結論 nDCG@all はどんな予測値やモデルであっても 1.0 に近づくので注意したほうが良さそうです. 疑問 機械学習モデルにおける予測値の評価にはさまざまな指標が用いられます. RMSE prec / recall / f1-score negative log-likelihood 二値分類ではとくに ROC-AUC (Area Under the Receiver Operating Characteristic Curve)1が用いられることが多いでしょう. ランダムな予測値に対する ROC-AUC はその定義上からも 0.5 になることが知られています.これは非常に便利で,ROC-AUC の厳密な定義を知らない人でも「この予測結果はコイントスよりどれだけ優れているのか」がすぐに把握可能です. (ちなみに ROC-AUC については Quality Metrics in R

    糞糞糞ネット弁慶
    InoHiro
    InoHiro 2011/09/15
  • 放置系ブラック研究室で楽しく生きるにあたって - 糞糞糞ネット弁慶

    (2/6 補足書きました→「放置系ブラック研究室で楽しく生きるにあたって」の補足 - 糞ネット弁慶) 修士論文を提出し,発表を済ませた.また,これをもって大学院及び研究室に関する全ての行事が終了した(「教授が論文書けってうるさいから春休み潰れるわ〜まじないわ〜」などという学生とは違う).というわけなので三年間の研究室生活について振り返ってみる. 放置系ブラック研究室とは そもそも我が研究室は非常に放任主義の放置系ブラック研究室であった.いくつか例を挙げると 論文紹介や輪講などない M2になってから7回程度しかゼミをやった記憶が無い 研究テーマが上から降ってくることがない 教授が卒論・修論のテーマを提出の一ヶ月前まで把握していない 研究しない 論文(書かない|書けない) (研究会|全国大会|諸々)(出ない|出さない|出せない) そもそも何がいつあって締切りがいつとか知らない 学生が学会に何一

    放置系ブラック研究室で楽しく生きるにあたって - 糞糞糞ネット弁慶
    InoHiro
    InoHiro 2011/02/04
  • 現実逃避のために開発合宿してきた - 糞ネット弁慶

    埼玉で開発合宿をやってきました - yasuhisa's blog 現代の奴隷市場で自己PRを考えるのに疲れたので埼玉で開発合宿してきた。 何をしたか 就職活動に関するbotを作りました - 糞ネット弁慶 Twitter / ? 就職活動に関するbotを作った。ネタはid:iNutからいただいた。 来の計画としては みん就(みん就(みんなの就職活動日記) - 就活・新卒採用のクチコミサイト)から志望動機をクロール マルコフ連鎖で志望動機を生成したい みん就は企業名にカテゴリが割り振られてるのでこれを利用したい 企業名+みん就のカテゴリデータ+Yahoo!検索のスニペットの形態素解析でナイーブベイズかなんかでカテゴリ判別モデルを作る 投げられた企業名からカテゴリを推定、最適な志望動機を返答 という感じだった。 でもまぁカテゴリ推定モデルまで作ることができなかったのでいつか誰かが作ってくれる

  • NTTサイバーソリューション研究所でインターン - 糞ネット弁慶

    インターン中毎朝バスの中で聴いてた曲。 というわけで8月はずっとYRP野比にあるNTTサイバーソリューション研究所でインターン(正確には夏季実習)してた。 テーマとしては、WebページのリンクデータからSPAMサイトを見つける古典的な問題を改善しつつ、途中からかなり新しい方向に進んで行ったりして、成果としては素晴らしい進歩があったというわけではないけれども、なんとかそれっぽい形にまとめて終了という感じ。 きっかけ きっかけは学校から案内が来ていたこと。テーマはRuby機械学習などお馴染みのものが見えたので、受かったら運がいいかなぐらいの気持ちで送付。どうせ夏休みに研究室に通うわけでもなし、id:syou6162ははてなインターンに行ってしまうしでやる事無かったし。 動機 動機として一番強かったのはid:mamorukさんの 大学院生の夏休みの過ごし方ガイド - 生駒日記 だと思う。上の記

    NTTサイバーソリューション研究所でインターン - 糞ネット弁慶
  • 1