タグ

ブックマーク / kisa12012.hatenadiary.org (9)

  • 機械学習界隈の情報収集方法 - kisa12012の日記

    こんにちは.Machine Learning Advent Calendar (MLAC) 2013の14日目を担当します,[twitter:@kisa12012]です.普段は博士学生として,各地を放浪しながら機械学習の研究をしてます.今回の記事はボストンで執筆しています.現地時間(EST)での締切は守ったのでセーフ…ですよね? 日は機械学習技術的な内容の話ではなく,筆者が実践している機械学習関連の情報収集方法について纏めます*1.大きく分けて,学会情報の管理・論文情報の収集・その他の三種について述べたいと思います.今回のトピックの多くは他の分野にも通用する話になっているかと思います.他の分野の方がどのように情報収集されているのかも気になるところです. 学会情報の管理 まずは学会情報の管理についてです.機械学習に関連するカンファレンスは(特に近年乱立気味で)非常に沢山あります.全てをチ

    機械学習界隈の情報収集方法 - kisa12012の日記
  • 確率的勾配降下法+α の話をしました - kisa12012の日記

    先日PFIセミナーにて,「SGD+α: 確率的勾配降下法の現在と未来」というタイトルで発表をしました!発表の機会を設定して頂いたPFIの皆様,ありがとうございます.スライドは以下になります. SGD+α: 確率的勾配降下法の現在と未来 from Hidekazu Oiwa 確率的勾配降下法(SGD)はシンプルで大規模データから”そこそこの”解を得るには非常に有効なアルゴリズムです.一度自分で実装してSGDを回してみたことのある人も多いと思います. 一方で 結局ステップ幅の設定が大変 正規化とか前処理しないとそれほど上手く動いてくれない などなどSGDには欠点も多く,たくさんの人が使う際に苦しめられてきた現実もあるのではないでしょうか. 今回の発表では,SGDの欠点を克服するため,およびさらなる長所を加えるための,最新の+α拡張研究について紹介しました. 内容は, ステップ幅設定に今後悩まさ

    確率的勾配降下法+α の話をしました - kisa12012の日記
  • 研究の参考にしているサイト集 - kisa12012の日記

    自分のメモ書きとして,たびたび論文執筆やプレゼン時に参考にしているサイトを以下にまとめてみました. 自身の研究分野である,コンピュータサイエンスや人工知能分野に関連する資料が多めです. 他に参考となる有用なサイトをご存知の方がいらっしゃれば,コメント等で教えて頂けると筆者が喜びます! English Check Manual 東大,牧島先生の作成した英字論文執筆/校正のためのチェックマニュアル. 英字論文を書く際に,(特に日人が)誤りやすい文法や単語を修正例とともに示したもの. 自分が英文を書く時はもちろん,校正時もこのチェックマニュアルに従って,誤り箇所に番号を振る形で修正しています. 英語論文の書き方 東大,松尾先生の作成した英語論文の作成マニュアル. 論文の完成度を高めるために何をすれば良いか,論文執筆の全体像・心構え・Tips集等盛り沢山 毎回新しい論文を書くたび,参拝する気持ち

    研究の参考にしているサイト集 - kisa12012の日記
  • NIPS2012より識別モデル学習の進展を垣間見る - kisa12012の日記

    こんばんは.[twitter:@kisa12012]です.しがない機械学習系大学院生をやっております.Machine Learning Advent Calendar 2012 9日目では,"NIPS2012より識別も出る学習の進展を垣間見る"という無駄に野心的なタイトルで,先ほどまで開催されていたNIPS2012で発表された数の論文概要を紹介します.機械学習,特に識別モデル学習の最先端が多少なりとも垣間見える,もしくは論文体を読んでみようと思わせられる記事になっていれば幸いです. 重要: 概要紹介のみですので,数式は一切出てきません.(数式を記述する前に力尽きました……) NIPS2012とは? ホームページ : http://nips.cc/Conferences/2012/ 機械学習のトップ国際会議の一つ.機械学習の理論的な面を解析した論文や,理論的背景を持ったアルゴリズムの導出

    NIPS2012より識別モデル学習の進展を垣間見る - kisa12012の日記
  • Learning Multiple Tasks using Shared Hypotheses - kisa12012の日記

    概要 複数の関連する分類問題を同時に最適化するマルチタスク分類問題を考える.例として,個々人の受信メールから重要度の高いメールを抽出するタスクはマルチタスク問題として考えられる*1 *2. 上記のようにパーソナライゼーション等のタスクでは,タスク数は非常に多いが一人ひとりのデータ数が少ない場合が考えられる.この条件下では,タスク数より少ない数の学習器のみを用い,タスク間で学習器をシェアしながら学習を行う方が理論的にも実験的にもよりよい結果が得られる事を示した. 背景 タスク毎のデータ量が少ない場合,十分な汎化性能を持つような学習は困難 パーソナライゼーション等では一般的な現象 全タスクを一つのタスクと思って単一の学習器で学習する場合は,タスク間で異なる特性を捉えられず識別精度が悪化 中庸をとりたい,つまり複数のタスクで分類器を共有 分類器の学習に,複数タスクのデータを用いることが可能に 貢

    Learning Multiple Tasks using Shared Hypotheses - kisa12012の日記
  • Exact Soft Confidence-Weighted Learning (ICML2012) 読んだ - kisa12012の日記

    概要 オンラインでの分類学習の世界では,CWが非常に強力なアルゴリズムとして注目されています.特に,その圧倒的な分類精度及び収束速度は圧巻の一言であり,自然言語処理を中心に様々な分野で応用例や派生アルゴリズムが提案されています*1. 一方で,ノイズデータのが混入していた場合に精度がガタ落ちする性質がCWの重大な欠点として多くの人から指摘されていました.ノイズが予め取り除かれている実験設定ならば良いのですが,ノイズが含まれている可能性の高い実データにはCWは中々不便.この問題を解決するため,ノイズ耐性の強いCW系アルゴリズムの決定版(?)として,SCW (Soft Confidence-Weighted)アルゴリズムがICML2012という会議で提案されました.エントリでは,SCWの紹介を行います. Exact Soft Confidence-Weighted Learning, Wang

    Exact Soft Confidence-Weighted Learning (ICML2012) 読んだ - kisa12012の日記
  • 機械学習を様々なアプリケーションに適用するためのアドバイス - kisa12012の日記

    Andrew Ngの講義で面白いスライドがあったので紹介.研究ではなく様々なアプリケーションへ機械学習を適用するときに実践すべきTipsが3つのトピックに関して語られています.以下は,スライド内で自分が覚えておくべきと思った部分を抽出し,メモ書きしたもの.実サービスやKDD Cup等のコンテストで機械学習を用いる度に,見返してみるのも良いかもしれません. スライド http://see.stanford.edu/materials/aimlcs229/ML-advice.pdf トピック1.Debugging Learning Algorithms 適当な分類器を学習させ,スパムフィルタリングでエラー率20%を達成したら次に何をすべきか? 訓練データを増やしたり,より良い分類器を適用したり,色々な改善策が考えられる… 診断法1 : バイアス-バリアンス分析 現在の分類器のボトルネックはバイ

    機械学習を様々なアプリケーションに適用するためのアドバイス - kisa12012の日記
  • 適当な仕事をしている注釈者を発見せよ! - kisa12012の日記

    NIPS2011の論文を紹介していくコーナー. 今回対象とする論文は,Ranking annotators for crowdsourced labeling tasks. 概要 論文は,標のラベル付を複数人にしてもらう時に,標をきちんと見ず,適当な注釈を行なっている人を見付け出すためのスコアリングを提案しています. Mechanical Turk等のクラウドソーシングで今後必要になりそうなテーマですね. 論文では,このような適当な注釈者をスパマーと呼び,スパマーを効率的に見つけ出すためのランキング手法を提案しています. 手法 2クラスの場合と多クラスの場合について議論していますが,今回は2クラスの場合を簡単に紹介します. スパマーはコイン投げと同じようにラベルを選んでいるため,P(注釈者のラベル|真のラベル)が0.5になります.[α,β] 一方で,仕事が出来る注釈者は上の確率が1

    適当な仕事をしている注釈者を発見せよ! - kisa12012の日記
  • Yahoo!のニュースコメント欄からスパムを排除するには - kisa12012の日記

    論文紹介のコーナー.*1 今回紹介するのは,KDD'2011のUnbiased Online Active Learning in Data Streams (Wei Chu, Martin Zinkevich, Lihong Li, Achint Thomas, and Belle Tseng). Yahoo! Labsのグループによる研究です.(その後,第一著者はMicrosoftへ移動しています) 論文は,ユーザーがコンテンツを生成できるウェブサービスから効率的にスパムやアダルトコンテンツを排除する手法について提案されています. このようなサービス形態はUser-Generated Content(UGC)と呼ばれ,ニュースサイトのコメント欄や掲示板SNS・ソーシャルゲーム・ユーザー投稿型動画サイトが主な例として挙げられます. 3行概要 ストリームデータ環境下において,学習に有用

    Yahoo!のニュースコメント欄からスパムを排除するには - kisa12012の日記
  • 1